對于文本的理解與分析盟萨,不同于圖像處理和音頻處理。由于每天產(chǎn)生的文本數(shù)據(jù)量過于龐大了讨,因此人工標(biāo)注的代價(jià)過于高昂捻激,需要使用無監(jiān)督學(xué)習(xí)算法 。
潛在語義分析就是針對文本數(shù)據(jù)多主題的特點(diǎn)而設(shè)計(jì)的前计。這種技術(shù)可以通過無監(jiān)督的方式從文本中分析出多個潛在的主題胞谭,完成聚類算法不能完成的任務(wù)。
詞袋模型:
是用于描述文本的一個簡單的數(shù)學(xué)模型男杈,也是常用的一種文本特征提取方式丈屹。其基本思想是忽略難以建模的詞句結(jié)構(gòu)、保留體現(xiàn)主題的詞語計(jì)數(shù)伶棒。
中文分詞:
首先需要將句子中的詞語分開旺垒。才能根據(jù)詞語構(gòu)建詞袋。大多基于匹配與統(tǒng)計(jì)學(xué)的方法肤无。
停止詞:
不攜帶任何主題信息的高頻詞稱為停止詞先蒋。
詞頻率、文檔頻率宛渐、逆文檔率竞漾。
詞頻率-逆文檔率是對詞頻率的一種修正,作為文檔的特征窥翩。
主題模型:
是描述語料庫及其中潛在主題的一類數(shù)學(xué)模型业岁。