1)對于某個文檔進行分句
2)對于每個分句使用Word2Vec等工具進行向量化(Word Embedding),
3)將句子中的每個詞或詞組的Word Embedding直接累加京腥,從而獲得句子的Word Embedding表示钱慢;
4)把每個句子的WordEmbedding直接累加獲得整個文檔的Word Embedding禀晓。
如圖1所示,這樣文檔和句子都以Word Embedding的低維度向量來表示,這個向量分別代表了文檔和句子的語義信息。
圖1.根據(jù)句子word Embedding獲得文檔Word Embedding
*摘要句子抽取過程斜脂,其基本思路是非常簡單的:哪些句子在語義上與文檔整體語義更相似,那么就選哪些句子作為摘要句触机。
具體實現(xiàn)流程如圖2所示帚戳。就是直接用每個句子的語義向量和文檔整體語義向量來通過Cosine距離計算兩者之間的距離,分值越大儡首,說明這個句子在語義上越和文檔整體語義越匹配片任,那么就越有代表性。當(dāng)每個句子都算出和文檔整體語義的語義相似性得分后蔬胯,根據(jù)得分由高到低排序对供,并按需要輸出一定數(shù)量的句子作為文檔的摘要。
圖2. 摘要計算流程
參考:https://blog.csdn.net/malefactor/article/details/51264244