好久沒(méi)更新了娶牌,更新一個(gè)前一段時(shí)間做的項(xiàng)目的前期效果調(diào)研過(guò)程奔浅,目前已經(jīng)在走工程化流程。
1诗良、項(xiàng)目背景
基于app推送的文本內(nèi)容隱含地表示了app的屬性信息的假設(shè)汹桦,我們從app推送內(nèi)容入手,使用NLP的方式嘗試獲取能夠描述app屬性的向量數(shù)據(jù)鉴裹。同時(shí)期望該數(shù)據(jù)能夠?yàn)閍pp分類舞骆、用戶分群等場(chǎng)景帶來(lái)新的思路。以下調(diào)研結(jié)果和過(guò)程都是基于app分類的場(chǎng)景
2径荔、調(diào)研結(jié)果
2.1督禽、app多分類結(jié)果
category數(shù)量 | app總數(shù) | 有l(wèi)abel的app數(shù)量 | 無(wú)label的app數(shù)量 | 驗(yàn)證集預(yù)測(cè)準(zhǔn)確率 | 測(cè)試集model | 測(cè)試集KNN(k=20) | 測(cè)試集model+KNN |
---|---|---|---|---|---|---|---|
20 | 387 | 150 | 237 | 0.6 | 0.425 | 0.525 | 0.525 |
- 訓(xùn)練集共120個(gè)app(150*0.8),訓(xùn)練語(yǔ)料約32萬(wàn)條文本訓(xùn)練出120個(gè)app向量总处。
- 驗(yàn)證集共30個(gè)app(150*0.2)狈惫,驗(yàn)證語(yǔ)料約8萬(wàn)條文本訓(xùn)練出30個(gè)app向量。
- 測(cè)試集共40個(gè)app鹦马。從237個(gè)無(wú)label的app向量中隨機(jī)抽樣了40個(gè)進(jìn)行人工驗(yàn)證胧谈。
- model預(yù)測(cè)準(zhǔn)確率0.425(17/40);KNN準(zhǔn)確率是0.525(21/40)荸频;結(jié)合model和KNN的預(yù)測(cè)準(zhǔn)確率是0.525(21/40)菱肖,與KNN結(jié)果的分子不完全重合。
2.2旭从、推送語(yǔ)句聚類
category數(shù)量 | 帶label的文本總數(shù) | 測(cè)試文本數(shù) | KNN top1準(zhǔn)確率(K=5稳强、10、15和悦、20) |
---|---|---|---|
10 | 4873 | 975(約20%*4873) | >90% |
3退疫、調(diào)研過(guò)程
3.1、數(shù)據(jù)說(shuō)明(語(yǔ)料均做過(guò)去重/去相似處理)
- 所有數(shù)據(jù)概要說(shuō)明
語(yǔ)料總數(shù) | app總數(shù) | 群推語(yǔ)料數(shù)量 | 群推app數(shù)量 | 單推語(yǔ)料數(shù)量 | 單推app數(shù)量 | 重合app數(shù)量 |
---|---|---|---|---|---|---|
783446 | 387 | 147079 | 110 | 636367 | 352 | 75 |
- 訓(xùn)練數(shù)據(jù)概要說(shuō)明
訓(xùn)練語(yǔ)料總數(shù) | 訓(xùn)練app數(shù)量 | 驗(yàn)證語(yǔ)料總數(shù) | 驗(yàn)證集app數(shù)量 | 測(cè)試集語(yǔ)料總數(shù) | 測(cè)試集app數(shù)量 | app最少語(yǔ)料數(shù) | app最多語(yǔ)料數(shù) |
---|---|---|---|---|---|---|---|
320000 | 120 | 80000 | 30 | 378259 | 40 | 1 | 56715 |
-
訓(xùn)練語(yǔ)料數(shù)量分布(app維度)
訓(xùn)練category語(yǔ)料數(shù)量分布
category數(shù)量 | category最少語(yǔ)料數(shù) | category最多語(yǔ)料數(shù) | 最少app數(shù)及對(duì)應(yīng)category | 最多app數(shù)及對(duì)應(yīng)category |
---|---|---|---|---|
20 | 5 | 99024 | 2:[教育鸽素、婚慶蹄咖、釣魚、行業(yè)交易平臺(tái)付鹿、彩票] | 29:[金融理財(cái)] |
-
訓(xùn)練語(yǔ)料分布(category維度)
3.2澜汤、app向量聚類展示
3.3、模仿word2vec訓(xùn)練出app向量
4舵匾、后續(xù)改進(jìn)
后續(xù)優(yōu)化點(diǎn)
- 在保證每個(gè)app有充足訓(xùn)練語(yǔ)料的情況下俊抵,對(duì)文本數(shù)據(jù)做去重去相似處理(目前去重太多)
- 增加app標(biāo)注數(shù)據(jù)(增加更多分類的訓(xùn)練數(shù)據(jù))
- app分類標(biāo)注更準(zhǔn)確,更多樣化(一個(gè)app標(biāo)注多個(gè)應(yīng)屬的category)