主題提取技術(shù)從是否需要監(jiān)督角度考慮可以分為基于監(jiān)督的主題提取和基于非監(jiān)督的主題提缺ā:從提取的內(nèi)容角度挎峦,認(rèn)為分為粗粒度的主題提取(如提取主題段落和主題句)和細(xì)粒度的主題提取(如主題詞、關(guān)鍵詞提取)合瓢;從面向?qū)ο蟛煌慕嵌瓤椿氩猓梢苑譃榛趩挝臋n的主題提取和基于多文檔的主題提取;根據(jù)所用方法的不同迁央,可以分為基于加權(quán)算法的主題提取掷匠、基于主題概率模型的主題提取和基于本體或知識(shí)庫(kù)的主題提取。其中岖圈,基于主題概率模型的主題提取和基于本體或知識(shí)庫(kù)的主題提取都在一定程度上體現(xiàn)了挖掘文檔的詞匯間的語(yǔ)義關(guān)系讹语,因此這兩者又可以合稱為基于語(yǔ)義的主題提取技術(shù)[52]。浪微博社交網(wǎng)絡(luò)主要依靠LDA模型[53]對(duì)瞬時(shí)間產(chǎn)生的大量數(shù)據(jù)進(jìn)行一個(gè)主題提取蜂科。
[1][52]楊春艷,潘有能,趙莉.基于語(yǔ)義和引用加權(quán)的文獻(xiàn)主題提取研究[J].圖書(shū)情報(bào)工作, 2016, 60(9):131-138.
[2][53] Blei D,Ng A,Jordan M. Latent dirichlet allocation[J]. Journal of Machine Learning Research,2003 ( 3 ) : 993- 1022.
崔金棟, 杜文強(qiáng), 關(guān)楊,等. 微博用戶信息個(gè)性化推薦主題模型LDA演化分析研究[J]. 情報(bào)科學(xué), 2017(8):3-10.