與什么相關郑叠?一個輿論/觀點搜索引擎的結構分析
挑戰(zhàn)非常巨大,所以我們舉個例子來分析一下明棍。
主要有以下挑戰(zhàn):
1.如果應用要集成到廣泛應用的搜索引擎中乡革,我們首先要知道用戶是不是要找主觀評價材料。我們可以通過用戶使用的搜索關鍵詞摊腋,如“評論”沸版、“觀點”,或者選中框來簡化這個問題兴蒸。但請求分類本身是個很大的挑戰(zhàn)视粮,這個問題還是2005 KDD Cup challenge的主題【不知道是什么鬼】。
2.除了確定請求是不是與評論相關橙凳,另外還有新的挑戰(zhàn)就是確定文字中的哪些部分是包含評論信息的蕾殴。如果是在典型的評論性來源中,這個工作自然很簡單岛啸,比如像亞馬遜或者大眾點評網(wǎng)上的評論钓觉。但另一方面,博客中也含有大量的主觀內容值戳,因此也是一個重要的信息來源(并且更多的是像政治议谷、人物,等等與產品無關的評論)堕虹,但博客在內容卧晓、風格、呈現(xiàn)方式和語法水平上參差不齊(因此是個亟待解決的問題)赴捞”岂桑【不過個人覺得這個方面更大的問題是如何確定哪些是有觀點的內容……】
3.檢索到目標文字之后,我們還要面臨的問題就是怎么檢測這段文字表述的整體情感赦政,和/或它對某個事物或話題在特定方面提出的詳細觀點胜宇。 像豆瓣這樣的網(wǎng)站自然有評分系統(tǒng)和標簽來確定,但另一方面恢着,還有大量的自由文字桐愉,這提出了新的挑戰(zhàn):比如,如果新聞中引用了一句話掰派,我們必須正確指明這些引用的話中的觀點是針對哪個實體从诲。
4.最后,系統(tǒng)要將搜集到的信息用一種合理的總結方式呈現(xiàn)出來靡羡。這個過程可能包含以下行為:
a.不同評價方式的“投票”需統(tǒng)一起來(如有的是打分系洛,有的是語言評價)
b.選擇性強調某些觀點
c.呈現(xiàn)意見分歧點與統(tǒng)一點
d.對意見者進行歸類
e.計算不同人群和意見者的權威性和可信度
應當指出的是俊性,最后的總結最好是可視化的。
我們的研究目標與方法
上述3,4,5的內容是非趁璩叮活躍的研究領域定页,但是由于篇幅限制我們不可能事無巨細覆蓋所有內容。
我們主要研究信息獲取應用绽诚,而不是純語言性質的研究典徊。
由于我們的研究目標,本文中主要關于情感分析應用的方法與觀點分類問題技術憔购。最后我們還走到技術問題之外宫峦,討論隱私什么什么的經(jīng)濟影響……
總之我前兩天看到的分詞等等相關技術和這個應用文獻沒什么關系……胰锌,那個是基礎技術算法褥伴,這個是應用分析……
That's all for today. See you tomorrow.
Kevin Ham@Wuhu
Department of Internet Engineering, Anhui Normal University, Wuhu, China
3.4.2015