1 利用TF-IDF與余弦相似性自動提取關鍵詞
2 Kmeans聚類
3 文本標簽路徑比抽取新聞網頁正文窟蓝、時間欺栗、標題等信息
4 基于改進編輯距離的字符串相似度求解算法
5 新聞中完整性對象的識別
6 基于互信息和左右信息熵的短語提取
7 C-value、D-value算法
這一部分分享的主要是之前在研究NLP時凹联,涉及的一些算法悦冀,在這里做過總結贤徒。另未辆,上面的算法都是親自代碼實現過的做鹰。
1 利用TF-IDF與余弦相似性自動提取關鍵詞
2 Kmeans聚類
3 文本標簽路徑比抽取新聞網頁正文、時間、標題等信息
4 基于改進編輯距離的字符串相似度求解算法
5 新聞中完整性對象的識別
6 基于互信息和左右信息熵的短語提取
7 C-value更振、D-value算法
涉及內容有點多炕桨,慢慢來,平常心 肯腕。献宫。。实撒。姊途。。
END