2019-05-26

1. How Does Knowledge of the AUC Constrain the Set of Possible Ground-truth Labelings?

  • AAAI 2019
  • 研究AUC能包含多少二分類的Ground-truth label信息
  • 很多二分類競(jìng)賽中污朽,使用AUC作為評(píng)價(jià)指標(biāo),那么根據(jù)提交的結(jié)果以及返回的AUC值龙考,能推斷出多少信息呢膘壶?
  • 例如4個(gè)數(shù)據(jù)的二分類問題,提交的預(yù)測(cè)值y = (0.2, 0.5, 0.9, 0.1)洲愤,而返回結(jié)果是0.75的話颓芭,那么真實(shí)label一定是y = (1, 0, 1, 0)
  • 一個(gè)簡(jiǎn)單的想法是,有n個(gè)測(cè)試數(shù)據(jù)的問題上柬赐,提交2n次結(jié)果并得到返回的AUC亡问,就能得到全部n個(gè)真實(shí)的標(biāo)簽了(每次兩次只有一個(gè)不同,看auc相對(duì)大小就知道哪個(gè)猜對(duì)了)
  • 然后該文章主要大量分析了只得到一次AUC值,能推斷出多少信息

2. Lattice CNNs for Matching Based Chinese Question Answering

  • AAAI 2019
  • 處理中文的文本匹配
  • 因?yàn)橹形牡姆衷~情況很復(fù)雜州藕,如下圖束世。所以本文使用word lattice的方式來做文本匹配任務(wù)中的文本建模


    中文的分詞情況
  • 具體地說,就是先把文本建圖床玻,然后在圖上做CNN得到文本的表示毁涉,如圖:


    文本建模過程
  • 對(duì)文本建圖,是把百度百科上面的詞全拿下來做詞典(為了使得圖連通锈死,詞典還包括所有單個(gè)字和<unknown>)贫堰,然后文本中所有在詞典里面的串作為圖的節(jié)點(diǎn),相鄰的詞連邊待牵。

3. Large-Scale Heterogeneous Feature Embedding

  • AAAI 2019
  • 把各種各樣的大規(guī)模的特征做Embedding
  • Embedding也就是表示學(xué)習(xí)其屏,把特征用低維的向量表示
  • 以前的方法一般只對(duì)單一的特征做Embedding,然而真實(shí)世界中包含各種各樣的特征缨该,例如文本偎行,圖片,網(wǎng)絡(luò)贰拿。
  • 存在學(xué)習(xí)多種特征表示蛤袒,但是都有太高的計(jì)算資源花費(fèi)
  • 本文提出了一FeatWalk框架,主要解決兩個(gè)問題:
    • 怎么有效的利用多樣的特征學(xué)習(xí)出一個(gè)統(tǒng)一的表示
    • 怎么應(yīng)用到大規(guī)模場(chǎng)景下面而且保持有效

4. Mining Fashion Outfit Composition Using an End-to-End Deep Learning Approach on Set Data

  • IEEE Trans. Multimedia 2017
  • 自動(dòng)搭配套餐膨更,例如什么衣服配什么褲子妙真,配什么鞋子
  • 數(shù)據(jù)驅(qū)動(dòng)的,收集了很多流行的搭配例子询一,然后學(xué)習(xí)出每個(gè)搭配方案的打分
  • 主要挑戰(zhàn):需要處理復(fù)雜的視覺特征隐孽、打分受很多因素的影響癌椿,例如不同的人有不同的興趣
  • 方法:先得到每個(gè)item的特征向量表示健蕊,然后用RNN對(duì)套裝里面的多個(gè)item建模,得到套裝的打分
  • item表示:用CNN處理視覺圖片信息踢俄,用GloVe模型學(xué)出文本的表示缩功,然后Mean pooling得到文本特征,類別做Embedding都办,然后把3個(gè)特征拼起來得到一個(gè)item的特征

5. Practice on Long Sequential User Behavior Modeling for Click-Through Rate Prediction

  • KDD 2019
  • 阿里的文章
  • 考慮到超長(zhǎng)用戶行為序列的CTR預(yù)估
  • 以前的方法嫡锌,例如DIN,DIEN等等都不能處理太長(zhǎng)的序列琳钉,一般用的50長(zhǎng)度势木,150是極限了
  • 然而用很簡(jiǎn)單的方法,序列長(zhǎng)度為1000的時(shí)候歌懒,AUC能比只用100的時(shí)候提升0.6%啦桌,而他們的應(yīng)用場(chǎng)景,提升0.3%就是顯著的了
  • 太長(zhǎng)的序列會(huì)帶來計(jì)算時(shí)延和存儲(chǔ)空間兩大問題
  • 本文把預(yù)估系統(tǒng)分為兩部分
  • 一部分是User Interest Center(UIC),負(fù)責(zé)保持最后一次的用戶興趣表示甫男,同時(shí)依據(jù)用戶行為事件來更新
  • 另一部分是memory network且改,包括讀寫

6. From Micro to Macro: Uncovering and Predicting Information Cascading Process with Behavioral Dynamics

  • ICDM 2015
  • Peng Cui團(tuán)隊(duì)的文章, 動(dòng)態(tài)流行度預(yù)測(cè)
  • 通過早期的情況板驳,預(yù)測(cè)未來的趨勢(shì)
  • 第一篇這樣做的工作
  • 用一個(gè)公式擬合流行度的情況(WEibull):


    擬合流行度的公式
  • 其中k\lambda通過最大似然優(yōu)化得到
  • 另外還用到了精心手動(dòng)提取的用戶的特征又跛,用戶特征做線性回歸同時(shí)也能擬合k\lambda
  • 數(shù)據(jù)集用的騰訊微博的數(shù)據(jù)

7. Estimating Node Importance in Knowledge Graphs Using Graph Neural Networks

  • KDD 2019
  • 在知識(shí)圖譜(KG)中估計(jì)節(jié)點(diǎn)的重要性
  • 前人的工作一般都是在普通的圖上面計(jì)算節(jié)點(diǎn)的重要性,例如PageRank若治,本文是第一個(gè)在KG上面做的
  • 需要考慮的幾個(gè)方面:鄰居慨蓝、邊的類型(關(guān)系)、中心度(centrality)直砂、輸入的分?jǐn)?shù)(用來訓(xùn)練的一部分節(jié)點(diǎn)的label)菌仁,方法的靈活性
  • 節(jié)點(diǎn)的分?jǐn)?shù):相鄰節(jié)點(diǎn)的分?jǐn)?shù)的加權(quán)和,權(quán)重由兩個(gè)點(diǎn)和一個(gè)邊算出
  • 中心度:由入度初始化静暂,然后迭代更新
  • 最后的節(jié)點(diǎn)重要性由上面兩個(gè)值結(jié)合得到
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末济丘,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子洽蛀,更是在濱河造成了極大的恐慌摹迷,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,366評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件郊供,死亡現(xiàn)場(chǎng)離奇詭異峡碉,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)驮审,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,521評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門鲫寄,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人疯淫,你說我怎么就攤上這事地来。” “怎么了熙掺?”我有些...
    開封第一講書人閱讀 165,689評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵未斑,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我币绩,道長(zhǎng)蜡秽,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,925評(píng)論 1 295
  • 正文 為了忘掉前任缆镣,我火速辦了婚禮芽突,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘董瞻。我一直安慰自己寞蚌,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,942評(píng)論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著睬澡,像睡著了一般固额。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上煞聪,一...
    開封第一講書人閱讀 51,727評(píng)論 1 305
  • 那天斗躏,我揣著相機(jī)與錄音,去河邊找鬼昔脯。 笑死啄糙,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的云稚。 我是一名探鬼主播隧饼,決...
    沈念sama閱讀 40,447評(píng)論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼静陈!你這毒婦竟也來了燕雁?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,349評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤鲸拥,失蹤者是張志新(化名)和其女友劉穎拐格,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體刑赶,經(jīng)...
    沈念sama閱讀 45,820評(píng)論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡捏浊,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,990評(píng)論 3 337
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了撞叨。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片金踪。...
    茶點(diǎn)故事閱讀 40,127評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖牵敷,靈堂內(nèi)的尸體忽然破棺而出胡岔,到底是詐尸還是另有隱情,我是刑警寧澤劣领,帶...
    沈念sama閱讀 35,812評(píng)論 5 346
  • 正文 年R本政府宣布姐军,位于F島的核電站铁材,受9級(jí)特大地震影響尖淘,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜著觉,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,471評(píng)論 3 331
  • 文/蒙蒙 一村生、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧饼丘,春花似錦趁桃、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,017評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽油啤。三九已至,卻和暖如春蟀苛,著一層夾襖步出監(jiān)牢的瞬間益咬,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,142評(píng)論 1 272
  • 我被黑心中介騙來泰國打工帜平, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留幽告,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,388評(píng)論 3 373
  • 正文 我出身青樓裆甩,卻偏偏與公主長(zhǎng)得像冗锁,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子嗤栓,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,066評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容

  • 1. N問GBDT 怎樣設(shè)置單棵樹的停止生長(zhǎng)條件冻河? 如何評(píng)估特征的權(quán)重大小茉帅? 如何人工去干預(yù)某列特征的權(quán)重芋绸? 當(dāng)增...
    婉妃閱讀 4,743評(píng)論 0 13
  • 斷=不買悄蕾、不收取不需要的東西 舍=處理掉堆放在家里沒用的東西 離=舍棄對(duì)物質(zhì)的迷戀,讓自己處于寬敞舒適卜范,自由自在的...
    鐘莎莎閱讀 264評(píng)論 0 0
  • 很多事情計(jì)劃很久都沒能實(shí)現(xiàn)刹悴,于是善變的我們更適宜來一場(chǎng)說走就走的旅行行楞。 不事先計(jì)劃太多,收拾好東西背著包就走不代表...
    Dimple浮生閱讀 550評(píng)論 4 6
  • “六尺巷”的典故想必人所周知土匀,然而用英文翻譯張英家書恐怕顯有人為子房,我且獻(xiàn)丑一回。 [英譯詩]張英家書 [譯稿日期]...
    雪花悟語閱讀 2,104評(píng)論 0 1