![240](https://cdn2.jianshu.io/assets/default_avatar/13-394c31a9cb492fcb39c27422ca7d2815.jpg?imageMogr2/auto-orient/strip|imageView2/1/w/240/h/240)
聚類算法 前面介紹的集中算法都是屬于有監(jiān)督機(jī)器學(xué)習(xí)方法某弦,這章和前面不同,介紹無(wú)監(jiān)督學(xué)習(xí)算法敷待,也就是聚類算法。在無(wú)監(jiān)督學(xué)習(xí)中,目標(biāo)屬性是不存在的丧裁,也就是所說(shuō)的不存在“y”值,我...
GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree)含衔,是一種迭代的...
綜述 GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree)煎娇,是一種...
前面提到了用CNN來(lái)做OCR。這篇文章介紹另一種做OCR的方法贪染,就是通過LSTM+CTC缓呛。這種方法的好處是他可以事先不用知道一共有幾個(gè)字符需要識(shí)別。之前我試過不用CTC杭隙,只用...
這兩天因?yàn)閷?shí)現(xiàn)mxnet的nce-loss哟绊,因此研究了一下tensorflow的nce-loss的實(shí)現(xiàn)。所以總結(jié)一下痰憎。 先看看tensorflow的nce-loss的API:...
最近新接觸文本分類問題票髓,對(duì)于我來(lái)數(shù)第一個(gè)問題就是Word Embedding這個(gè)詞到底是什么意思,因此也就開始學(xué)習(xí)了相關(guān)知識(shí)http://licstar.net/archiv...
優(yōu)秀的博客:【圖解什么是 Transformer(很全)】http://www.reibang.com/p/e7d8caa13b21【自注意力機(jī)制Self-attentio...
word2vector已經(jīng)成為NLP領(lǐng)域的基石算法铣耘。作為一名AI 從業(yè)者洽沟,如果不能主動(dòng)去熟悉該算法,應(yīng)該感到臉紅蜗细。本文是一篇翻譯的文章裆操,原文鏈接是:http://mccorm...
本文主要改寫了一下"Sequence Tagging with Tensorflow"程序怒详。原文是基于英文的命名實(shí)體識(shí)別(named entity recognition)問...
Word2vec word2vector,顧名思義踪区,就是將語(yǔ)料庫(kù)中的詞轉(zhuǎn)化成向量昆烁,以便后續(xù)在詞向量的基礎(chǔ)上進(jìn)行各種計(jì)算。 我們以詞為單位掃描這句話缎岗,每掃描到一個(gè)詞静尼,都把該詞左...
概率 概率通常理解為衡量事件發(fā)生的可能性大小鼠渺,但是不嚴(yán)謹(jǐn)。拿投骰子舉例或渤,投一次骰子系冗,稱作一次試驗(yàn),所有可能的試驗(yàn)結(jié)果就稱為樣本空間薪鹦,事件就是樣本空間的子集掌敬。 概率是賦予...
馬爾可夫模型簡(jiǎn)介: 馬爾可夫模型個(gè)人認(rèn)為這個(gè)概念應(yīng)該是從 隨機(jī)過程 里面提出來(lái)的,由馬爾可夫過程過來(lái)的概念池磁。實(shí)際上掌握了隨機(jī)過程里面對(duì)馬爾可夫過程的特殊情況:離散參數(shù)離散狀態(tài)...
命名實(shí)體識(shí)別(Named Entity Recognition奔害, NER)是NLP領(lǐng)域一個(gè)非常非常重要的方向,比如人名地熄、地名通用性的實(shí)體識(shí)別华临,還有像車型名、車款名這些垂直領(lǐng)域...
彈性分布式數(shù)據(jù)集(RDD Resilient Distributed Dataset)是不可變JVM對(duì)象的分布式集合端考,允許您非逞盘叮快速地執(zhí)行計(jì)算,并且它們是Apache Spa...
摘要:用商品描述為語(yǔ)料庫(kù)訓(xùn)練商品詞向量為例,分享一下用pyspark自帶word2vec+jieba分詞訓(xùn)練詞向量的流程. 工具:python,pyspark,jieba,p...