?? 這一節(jié)還是簡(jiǎn)單地介紹了一下常見(jiàn)應(yīng)用場(chǎng)景
?? 2020年9月7日
一榜揖、句法分析(Syntactic Analysis)
- 對(duì)于一個(gè)句子的詞語(yǔ)句法做分詞,比如主謂賓椒惨,可以構(gòu)建成一顆語(yǔ)法樹(shù)
二系洛、語(yǔ)義理解
1. 主要兩個(gè)問(wèn)題
- 如何理解一個(gè)單詞的意思
- 如何理解一個(gè)文本的意思
2. 主要技術(shù)
- SkipGram, CBOW, Glove, ELMo, BERT, ALBERT
- XLNet, GPT-2, GPT-3, Tiny-BERT
三碎绎、常見(jiàn)的應(yīng)用
1. 寫(xiě)作助手
語(yǔ)言模型可以來(lái)判斷一個(gè)句子在語(yǔ)法的角度來(lái)說(shuō)是否通順,另外語(yǔ)言模型本身是可以幫助我們生成一些文本的阅畴,例如填空題的形式
2. 文本分類(lèi)
- 情感分析 (sentiment analysis)
- 情緒分析 (emotion analysis)
- 主題分類(lèi) (topic classification)
3. 信息檢索(information retrieval)
搜索引擎檢索一個(gè)問(wèn)題倡怎,首先會(huì)經(jīng)過(guò)一系列的文本處理,再通過(guò)索引在文本庫(kù)中搜索出結(jié)果進(jìn)行排序
?? 文本庫(kù):爬蟲(chóng)的方式收集網(wǎng)站的信息,構(gòu)成文本庫(kù)
?索引:一般都是使用倒排表(inverted list)的形式構(gòu)建索引(inverted index)
?排序:PageRank常用搜索引擎的算法 (基于馬爾科夫來(lái)做的)