一. 文本數(shù)據(jù)預(yù)處理流程
1. 清洗數(shù)據(jù):去除顏文字,html等
2. 分詞
3. 去除停用詞
4. 去除低頻詞
二. 搭建倒排表
from gensim.models import KeyedVectors? ?# 詞向量用來(lái)比較倆倆之間相似度材蹬。
倒排表是把每個(gè)詞匯出現(xiàn)的問(wèn)題的index用字典存儲(chǔ)。
可以用倒排表把新輸入問(wèn)題的候選集得到(根據(jù)余弦相似度)炫欺。
三.??訓(xùn)練基于FastText的意圖分類模型
意圖識(shí)別實(shí)際上是文本分類任務(wù)步咪,需要標(biāo)注的數(shù)據(jù):每一個(gè)句子需要對(duì)應(yīng)的標(biāo)簽如閑聊型的驼修,任務(wù)型的。
四.排序
基于倒排表返回的結(jié)果,再根據(jù)余弦相似度來(lái)計(jì)算query跟候選問(wèn)題之間的相似度诅岩,最后返回相似度最高的問(wèn)題的答案讳苦。將使用BERT來(lái)表示句子的向量。