記錄一次沒有解決方案的問題
最近接到一個任務(wù),需要將兩個有關(guān)系的數(shù)據(jù)進行關(guān)聯(lián)叔遂,而我的任務(wù)就是找到這兩個數(shù)據(jù)之間的關(guān)系。這兩個數(shù)據(jù)都是文本數(shù)據(jù),其中一個是不具有任何語義信息url笛辟,一個是用于給url做label的標注詞。
數(shù)據(jù)介紹
1序苏、用戶的訪問記錄手幢,用戶對每個url或者使用了某個接口的次數(shù)
2痒蓬、用戶本身對應(yīng)擁有的label標記
任務(wù)目的
計算url或者接口和label的對應(yīng)關(guān)系关炼,url和label的關(guān)系是不平衡的。
方法
我在最開始的時候本想借助聚類的方式進行數(shù)據(jù)的標簽標注(軟聚類)
皇帮,但是發(fā)現(xiàn)這種方式也只能將url分為兩類匈睁,實際上我需要的是將url分成多種類別监透。
1. 先將url進行清洗,轉(zhuǎn)換航唆,表示
url本身是非痴吐混亂的,雖然已經(jīng)被清洗過一次糯钙,過濾掉了很多的靜態(tài)的頁面信息粪狼,但是依然有很多的雜亂無用的數(shù)據(jù)在里面需要清洗,然后將用戶的訪問記錄反過來用戶表示url超营,使用次數(shù)填充每一個值鸳玩,類似于詞頻表示方式。
2演闭、計算
這一步已經(jīng)困擾我很久不跟,暫時沒有一個較好的解決方案
我再google了一段時間后發(fā)現(xiàn)有水論文的文章較多,或者是效果極差米碰,F(xiàn)1值僅僅為15%不到窝革,做法可分為以下幾種
- 使用多重聚類的方式,對數(shù)據(jù)進行多次不同的聚類吕座,但是根據(jù)作者的實驗效果虐译,并不是特別理想
- 完全忽悠的方式,通過對數(shù)據(jù)的多次實體提取吴趴,將實體關(guān)鍵字和標簽進行相似度計算漆诽。這種式是對應(yīng)文本處理的
還有一些其他的方式還沒有看完,待后續(xù)看完補充。
- 完全忽悠的方式,通過對數(shù)據(jù)的多次實體提取吴趴,將實體關(guān)鍵字和標簽進行相似度計算漆诽。這種式是對應(yīng)文本處理的
目前情況
目前我的做法還是通過統(tǒng)計學(xué)的方式對用戶進行分類厢拭,在對url進行統(tǒng)計分析兰英。