Neil Zhu,簡書ID Not_GOD,University AI 創(chuàng)始人 & Chief Scientist,致力于推進世界人工智能化進程虎眨。制定并實施 UAI 中長期增長戰(zhàn)略和目標,帶領團隊快速成長為人工智能領域最專業(yè)的力量镶摘。
作為行業(yè)領導者嗽桩,他和UAI一起在2014年創(chuàng)建了TASA(中國最早的人工智能社團), DL Center(深度學習知識中心全球價值網(wǎng)絡),AI growth(行業(yè)智庫培訓)等凄敢,為中國的人工智能人才建設輸送了大量的血液和養(yǎng)分碌冶。此外,他還參與或者舉辦過各類國際性的人工智能峰會和活動贡未,產(chǎn)生了巨大的影響力种樱,書寫了60萬字的人工智能精品技術內容,生產(chǎn)翻譯了全球第一本深度學習入門書《神經(jīng)網(wǎng)絡與深度學習》俊卤,生產(chǎn)的內容被大量的專業(yè)垂直公眾號和媒體轉載與連載嫩挤。曾經(jīng)受邀為國內頂尖大學制定人工智能學習規(guī)劃和教授人工智能前沿課程,均受學生和老師好評消恍。
情感分類
當我們知道 觀點持有者岂昭、目標、內容和上下文的時候狠怨,就可以嘗試進行 觀點的情感分析了
任務的定義
- 輸入: 包含觀點的文本對象
- 輸出:觀點的標簽
- 極性分析:如 正面 反面 中立约啊;{5, 4, 3, 2, 1}
- 情感分析:如 高興 悲傷 恐懼 憤怒 驚奇 反感
- 這是文本分類一種特殊情形:任何文本分類的方法都可以被用作情感分類
- 更多的提升
- 更加細致精密的特征選擇
- 考慮分類的順序(ordinal regression)
經(jīng)常使用的文本特征
- 字符的n-gram:可以混合使用不同的 n
- 更加通用,不受拼寫識別的錯誤影響佣赖,但是相比于詞區(qū)分度低
- 詞的n-gram:可以混合使用不同的 n
- unigram 不適合情感分類(比如 it's not good 或者 it's not as good as)
- 長的 n-gram 區(qū)分度好恰矩,但也會造成 過匹配
- POS tag n-gram:將詞和位置的tag混合使用
- 如 “ADJECTIVE NOUN” 或者 great NOUN
- 詞的類別
- 語法(=POS tag)
- 語義概念:如 thesaurus/ontology, 已經(jīng)識別的實體
- 經(jīng)驗上的詞聚類(e.g., cluster of paradigmatically or syntagmatically related words)
- 文本中頻繁模式(如 頻繁詞集合,collocations)
- 比詞更加具體和具有區(qū)分度
- 比純的 n-gram 泛化性更好
- 分析樹(頻繁的子樹憎蛤,路徑)
- 更加具有區(qū)分度外傅,不過也需解決過匹配的問題
- 模式發(fā)現(xiàn)算法在特征構造的過程中非常有用
NLP 增強了文本表示,獲得更加復雜的特征
Paste_Image.png
用作文本分類的特征構造
- 特征設計顯著影響分類的準確性
- 機器學習俩檬、誤差分析和領域知識的并用更加有效
- 領域知識:種子特征 特征空間
- 機器學習:特征選擇 特征學習
- 誤差分析:特征驗證
- NLP 增強了文本的表示:特征空間(更可能會過匹配)
- 優(yōu)化 the tradeoff between exhaustivity and specificity