對(duì)于faq問(wèn)答中的形式為一個(gè)標(biāo)準(zhǔn)問(wèn)題對(duì)應(yīng)多個(gè)相似問(wèn)題的知識(shí)庫(kù),直接使用學(xué)術(shù)界的方法句子pair的方法(句子1卖擅,句子2准潭, 是否相似)不能很好構(gòu)造訓(xùn)練數(shù)據(jù)集静稻,其中的原因有
- 公開(kāi)數(shù)據(jù)集中的對(duì)于snetence1, sentence2給出一個(gè)明確的相似或者不相似的標(biāo)簽;但在工業(yè)faq中的相似度是其實(shí)不是計(jì)算sentence1, shentence2是否相似葫哗,而是sentence1 和{sentence2, sentece3...sentence_n}中的哪個(gè)更相似缔刹,雖然可以根據(jù)相似度的概率值來(lái)進(jìn)行排序,然后選擇概率最大的那個(gè)劣针。但這兩個(gè)任務(wù)從很根本上來(lái)講還是有些區(qū)別校镐。
- 從faq中標(biāo)準(zhǔn)問(wèn)題-->相似問(wèn)題的知識(shí)庫(kù)中,很難構(gòu)造出(sentence1酿秸, sentence2, 是否相似)這樣的數(shù)據(jù)灭翔,其中主要是負(fù)樣本數(shù)據(jù)難以構(gòu)建,正樣本數(shù)據(jù)還是很好構(gòu)建的辣苏。
我嘗試過(guò)正樣本(同一個(gè)標(biāo)準(zhǔn)問(wèn)題下的相似問(wèn)題兩兩互為正樣本)肝箱,
負(fù)樣本(sentece1, sentece2「方法a:隨機(jī)抽取10個(gè)其他標(biāo)準(zhǔn)問(wèn)題下的相似問(wèn)題 方法b: 使用bert模型句向量跑出在其他標(biāo)準(zhǔn)問(wèn)題下的相似問(wèn)題中,與sentence1句向量距離最小的)
使用bert的相似度計(jì)算模型,其結(jié)果不收斂
在Reimers, N., & Gurevych, I. (2019, August 27). 《Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks》的啟發(fā)下稀蟋,使用孿生網(wǎng)絡(luò)來(lái)訓(xùn)練煌张,保留最終的Bert 句向量模型,計(jì)算cosin相似度退客,其結(jié)果是收斂和有效的骏融。
在一次偶然的機(jī)會(huì),我嘗試用了把標(biāo)準(zhǔn)問(wèn)題作為一個(gè)類別萌狂,其對(duì)應(yīng)的相似問(wèn)題作為該類別下的語(yǔ)料档玻,使用bert模型直接訓(xùn)練一個(gè)分類模型,最終保留bert句向量模型茫藏,計(jì)算cosin相似度误趴。最終發(fā)現(xiàn)該方法比上述孿生網(wǎng)絡(luò)的方法收斂速度更快,且相似度計(jì)算的準(zhǔn)確率更高务傲。