熱點事件識別在新聞推薦系統(tǒng)中的應(yīng)用

頭圖

現(xiàn)今流行的熱點事件識別,其實更多的關(guān)注如何在海量的內(nèi)容中去發(fā)現(xiàn)一個熱點事件策添。這里面既包含了對于實體事件的提取毫缆,也包含的類似摘要的信息挖掘悔醋,再配上用戶行為的反饋兽叮。

什么是熱點事件猾愿?

熱點事件普遍是指在社會(或者某些領(lǐng)域)中引起廣泛關(guān)注账阻、參與討論、激起民眾情緒姻僧,引發(fā)強烈反響的事件蒲牧,通俗點說就是被很多人熟知且討論的事件冰抢。

熱點事件對于新聞推薦系統(tǒng)的意義?

推薦系統(tǒng)的目的挎扰,在于分發(fā)用戶感興趣的新聞遵倦。但是熱點是一個不同于普通新聞的數(shù)據(jù),即使一人并不對娛樂新聞感興趣似谁,但是當(dāng)馬蓉和王寶強的這種爆炸新聞出現(xiàn)的時候燥狰,他也會去關(guān)注,去看上一看蛀缝。一個是這源于人對于爆炸性新聞的好奇心目代,一個是出于在我們這種世俗社會中,對于談資的積累需求在讶。

所以霜大,當(dāng)熱點事件來臨的時候,可以降低對于垂直興趣的追求曙强,熱點本身碟嘴,就可以看作是一種興趣。

對熱點內(nèi)容的分發(fā)错沃,可以體現(xiàn)一個推薦系統(tǒng)的媒體屬性雀瓢,也可以增強推薦的新穎度,防止興趣收斂登疗。

什么是熱點事件識別嫌蚤?

通俗點說,就是及時發(fā)現(xiàn)一個熱點智政,并能找出或者寫出熱點相關(guān)的文章箱蝠,并分發(fā)給用戶宦搬。

為什么要進(jìn)行熱點事件識別?

對熱點的追蹤和敏感度间校,是反應(yīng)一個媒體的媒體屬性是否強烈的標(biāo)準(zhǔn)之一憔足。一個優(yōu)秀的媒體,必然會對熱點有足夠的敏感度控妻,能夠及時的發(fā)現(xiàn)熱點揭绑,迅速的報道熱點,并對熱點內(nèi)容提出有價值的深度跟蹤菇存,以滿足新聞用戶對于熱點的關(guān)注。

所以,在機(jī)器時代毕籽,如何在海量的數(shù)據(jù)中找到熱點事件并及時推送給用戶也成了一個很大的挑戰(zhàn)井辆。

如果能夠非常有前瞻性的發(fā)現(xiàn)熱點,并及時推送給用戶蒸播,引起用戶的關(guān)注和廣泛的傳播萍肆,就能夠把握互聯(lián)網(wǎng)中的大量流量塘揣,從而為app帶來更多的收益。

目前效果較好的熱點事件發(fā)現(xiàn)技術(shù):

1.基于傳播的熱點事件發(fā)現(xiàn)

簡單來說才写,就是通過監(jiān)測信息在大規(guī)模人群中的傳遞情況奖蔓,假如一個事件在一個時間段內(nèi)迅速的由某些節(jié)點傳遞給了很多的節(jié)點,并呈現(xiàn)出指數(shù)級增長厨疙,那么可以發(fā)現(xiàn)到這個熱點事件檀头。

2.基于搜索的熱點事件發(fā)現(xiàn)

這個是基于搜索引擎暑始,應(yīng)該也很好理解,在某段時間內(nèi)牙肝,有越來越多的人群去搜索一個事件,導(dǎo)致該事件的搜索量激增虫溜,那也可以發(fā)現(xiàn)這個事件股缸。

然而敦姻,很可惜,上面的兩點我們都做不到迷守。一個是我們沒有用戶的社交屬性旺入,不具備新聞的傳播路徑,二是我們?nèi)狈τ脩舻闹鲃有袨槔窕m然說有搜索接口龄捡,但是真正去搜索的用戶是非常少量的聘殖。所以用上面的方法是不靠譜的。

當(dāng)然餐禁,分析上面的本質(zhì)突照,都是源于用戶的反饋,能夠較好的去發(fā)現(xiàn)末盔。我們曾經(jīng)嘗試使用自己的數(shù)據(jù)去做這樣的嘗試座慰,使用用戶信息去監(jiān)測有激增行為的新聞版仔,再對這些新聞進(jìn)行歸類误墓,找到可能的熱點益缎,然而這在技術(shù)上有很大的挑戰(zhàn)莺奔,再一個是喪失了新聞的時效特征,尤其對于熱點來說熙卡,一分一秒都是要爭取的励饵。這樣的一輪計算下來役听,很可能是熱點已經(jīng)傳播的十分廣泛表窘,其實對于我們新聞客戶端來說,這時候再發(fā)現(xiàn)熱點已經(jīng)沒有什么價值瘤袖,流量都已經(jīng)完成分發(fā)捂敌。

我們是如何解決熱點事件問題既琴?

1.獲取熱點事件

既然我們不能主動的提取熱點事件甫恩,那就想辦法去直接獲取熱點事件。第一點奖慌,就想到了不勞而獲松靡。既然基于搜索或者傳播能夠比較及時的獲取熱點事件击困,那我們就發(fā)揚一下拿來主義好了广凸。網(wǎng)上其實有很多提供這種實時熱點事件的地方蛛枚,比如百度風(fēng)云榜蹦浦,微博熱搜,搜狗熱搜等等侥袜,還有很多枫吧,等你自己去發(fā)現(xiàn)把宇色。

  • a.抓取
    定時去抓取這些詞匯,這個應(yīng)該不難了例隆,只有非常有限的內(nèi)容抢蚀,只需要每隔一段事件去獲取一下皿曲,跟上次的數(shù)據(jù)做一些對比,就能很快知道有哪些事件詞或句子惶我。這個方法簡單易行博投,獲取的熱點數(shù)量多毅哗,但是可能效果就差一點,而且仍然會有一定的時延尿瞭。
  • b.運營
    需要有新聞敏感度的運營人員去手工添加翅睛,這個方法獲取的熱點數(shù)目較少声搁,但是延遲幾乎可以忽略黑竞。
    這里,也會為熱點事件構(gòu)造一些屬性疏旨,比如熱點等級很魂,熱點時效,熱點分類等等檐涝。


    微博熱搜榜
百度風(fēng)云榜
搜狗熱搜

2.為文章打上熱點事件標(biāo)簽

有了不斷更新的事件庫遏匆,還需要為每個新聞進(jìn)行標(biāo)注,它屬不屬于熱點新聞谁榜,屬于哪個熱點的新聞幅聘。
如果熱點詞過長窃植,首先需要對它進(jìn)行分詞帝蒿。否則就按整個詞去匹配。這時候就需要根據(jù)業(yè)務(wù)去構(gòu)建一套匹配的邏輯巷怜,或者算法陵叽,來衡量一個熱點事件與文章的匹配程度。當(dāng)達(dá)到一定的閾值或者某些規(guī)則丛版,就可以認(rèn)為這兩個是匹配的。

3.構(gòu)建熱點事件模型庫偏序,提升匹配度

由于上述直接獲取的熱點詞有比較大的局限性页畦,比如對于同一事件,不同的人表達(dá)方法是不一樣的研儒,單純使用一個熱點詞的泛化能力較弱豫缨。所以有了一些對應(yīng)的文章,那可以著手來構(gòu)建熱點事件模型了端朵。這里簡單來說一下好芭,假如有事件A,已知跟A匹配的文章1冲呢,2舍败,3。從1敬拓,2邻薯,3中提取最重要的前n個關(guān)鍵詞,去匯集成A的模型乘凸,可以使用簡單的連乘來設(shè)為匹配度厕诡,這樣做的目的是去擴(kuò)充相關(guān)內(nèi)容,讓更多接近的文章能夠獲得熱點事件標(biāo)簽营勤。

4.把熱點事件文章分發(fā)給用戶

有了熱點事件灵嫌,和對應(yīng)的文章壹罚,下一步就是在推薦層面增加對熱點事件的召回概率∈傩撸基于之前所說的假設(shè)猖凛,熱點本身就是一個興趣,那么一個熱點事件的熱度等級會影響分發(fā)面積稠曼。同時形病,熱點事件和分類的交叉特征會影響一個用戶是否會收到熱點的情況。

5.用戶的反饋和用戶畫像調(diào)整

當(dāng)帶有熱點事件的新聞被分發(fā)出去霞幅,用戶會點擊漠吻,打開觀看,或者直接掠過司恳。此時可以針對用戶的行為進(jìn)行分析途乃,如果用戶從來不看熱點新聞,那他的畫像關(guān)于熱點的特征將很低扔傅。根據(jù)給他曝光的熱點新聞和他的打開情況耍共,會有計算他對于熱點事件的關(guān)注度。同時猎塞,會記錄他喜歡哪些熱點事件试读,在后續(xù)的熱點分發(fā)時,還可以去計算新熱點事件和舊熱點的協(xié)同情況荠耽,用以更精準(zhǔn)的分發(fā)钩骇。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市铝量,隨后出現(xiàn)的幾起案子倘屹,更是在濱河造成了極大的恐慌,老刑警劉巖慢叨,帶你破解...
    沈念sama閱讀 211,265評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件纽匙,死亡現(xiàn)場離奇詭異,居然都是意外死亡拍谐,警方通過查閱死者的電腦和手機(jī)烛缔,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,078評論 2 385
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來轩拨,“玉大人力穗,你說我怎么就攤上這事∑蓿” “怎么了当窗?”我有些...
    開封第一講書人閱讀 156,852評論 0 347
  • 文/不壞的土叔 我叫張陵,是天一觀的道長寸宵。 經(jīng)常有香客問我崖面,道長元咙,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,408評論 1 283
  • 正文 為了忘掉前任巫员,我火速辦了婚禮庶香,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘简识。我一直安慰自己赶掖,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 65,445評論 5 384
  • 文/花漫 我一把揭開白布七扰。 她就那樣靜靜地躺著奢赂,像睡著了一般。 火紅的嫁衣襯著肌膚如雪颈走。 梳的紋絲不亂的頭發(fā)上膳灶,一...
    開封第一講書人閱讀 49,772評論 1 290
  • 那天,我揣著相機(jī)與錄音立由,去河邊找鬼轧钓。 笑死,一個胖子當(dāng)著我的面吹牛锐膜,可吹牛的內(nèi)容都是我干的毕箍。 我是一名探鬼主播,決...
    沈念sama閱讀 38,921評論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼道盏,長吁一口氣:“原來是場噩夢啊……” “哼而柑!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起捞奕,我...
    開封第一講書人閱讀 37,688評論 0 266
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎拄轻,沒想到半個月后颅围,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,130評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡恨搓,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,467評論 2 325
  • 正文 我和宋清朗相戀三年院促,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片斧抱。...
    茶點故事閱讀 38,617評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡常拓,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出辉浦,到底是詐尸還是另有隱情弄抬,我是刑警寧澤,帶...
    沈念sama閱讀 34,276評論 4 329
  • 正文 年R本政府宣布宪郊,位于F島的核電站掂恕,受9級特大地震影響拖陆,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜懊亡,卻給世界環(huán)境...
    茶點故事閱讀 39,882評論 3 312
  • 文/蒙蒙 一依啰、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧店枣,春花似錦速警、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,740評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至甩卓,卻和暖如春鸠匀,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背逾柿。 一陣腳步聲響...
    開封第一講書人閱讀 31,967評論 1 265
  • 我被黑心中介騙來泰國打工缀棍, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人机错。 一個月前我還...
    沈念sama閱讀 46,315評論 2 360
  • 正文 我出身青樓爬范,卻偏偏與公主長得像,于是被迫代替她去往敵國和親弱匪。 傳聞我的和親對象是個殘疾皇子青瀑,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,486評論 2 348

推薦閱讀更多精彩內(nèi)容