現(xiàn)今流行的熱點事件識別,其實更多的關(guān)注如何在海量的內(nèi)容中去發(fā)現(xiàn)一個熱點事件策添。這里面既包含了對于實體事件的提取毫缆,也包含的類似摘要的信息挖掘悔醋,再配上用戶行為的反饋兽叮。
什么是熱點事件猾愿?
熱點事件普遍是指在社會(或者某些領(lǐng)域)中引起廣泛關(guān)注账阻、參與討論、激起民眾情緒姻僧,引發(fā)強烈反響的事件蒲牧,通俗點說就是被很多人熟知且討論的事件冰抢。
熱點事件對于新聞推薦系統(tǒng)的意義?
推薦系統(tǒng)的目的挎扰,在于分發(fā)用戶感興趣的新聞遵倦。但是熱點是一個不同于普通新聞的數(shù)據(jù),即使一人并不對娛樂新聞感興趣似谁,但是當(dāng)馬蓉和王寶強的這種爆炸新聞出現(xiàn)的時候燥狰,他也會去關(guān)注,去看上一看蛀缝。一個是這源于人對于爆炸性新聞的好奇心目代,一個是出于在我們這種世俗社會中,對于談資的積累需求在讶。
所以霜大,當(dāng)熱點事件來臨的時候,可以降低對于垂直興趣的追求曙强,熱點本身碟嘴,就可以看作是一種興趣。
對熱點內(nèi)容的分發(fā)错沃,可以體現(xiàn)一個推薦系統(tǒng)的媒體屬性雀瓢,也可以增強推薦的新穎度,防止興趣收斂登疗。
什么是熱點事件識別嫌蚤?
通俗點說,就是及時發(fā)現(xiàn)一個熱點智政,并能找出或者寫出熱點相關(guān)的文章箱蝠,并分發(fā)給用戶宦搬。
為什么要進(jìn)行熱點事件識別?
對熱點的追蹤和敏感度间校,是反應(yīng)一個媒體的媒體屬性是否強烈的標(biāo)準(zhǔn)之一憔足。一個優(yōu)秀的媒體,必然會對熱點有足夠的敏感度控妻,能夠及時的發(fā)現(xiàn)熱點揭绑,迅速的報道熱點,并對熱點內(nèi)容提出有價值的深度跟蹤菇存,以滿足新聞用戶對于熱點的關(guān)注。
所以,在機(jī)器時代毕籽,如何在海量的數(shù)據(jù)中找到熱點事件并及時推送給用戶也成了一個很大的挑戰(zhàn)井辆。
如果能夠非常有前瞻性的發(fā)現(xiàn)熱點,并及時推送給用戶蒸播,引起用戶的關(guān)注和廣泛的傳播萍肆,就能夠把握互聯(lián)網(wǎng)中的大量流量塘揣,從而為app帶來更多的收益。
目前效果較好的熱點事件發(fā)現(xiàn)技術(shù):
1.基于傳播的熱點事件發(fā)現(xiàn)
簡單來說才写,就是通過監(jiān)測信息在大規(guī)模人群中的傳遞情況奖蔓,假如一個事件在一個時間段內(nèi)迅速的由某些節(jié)點傳遞給了很多的節(jié)點,并呈現(xiàn)出指數(shù)級增長厨疙,那么可以發(fā)現(xiàn)到這個熱點事件檀头。
2.基于搜索的熱點事件發(fā)現(xiàn)
這個是基于搜索引擎暑始,應(yīng)該也很好理解,在某段時間內(nèi)牙肝,有越來越多的人群去搜索一個事件,導(dǎo)致該事件的搜索量激增虫溜,那也可以發(fā)現(xiàn)這個事件股缸。
然而敦姻,很可惜,上面的兩點我們都做不到迷守。一個是我們沒有用戶的社交屬性旺入,不具備新聞的傳播路徑,二是我們?nèi)狈τ脩舻闹鲃有袨槔窕m然說有搜索接口龄捡,但是真正去搜索的用戶是非常少量的聘殖。所以用上面的方法是不靠譜的。
當(dāng)然餐禁,分析上面的本質(zhì)突照,都是源于用戶的反饋,能夠較好的去發(fā)現(xiàn)末盔。我們曾經(jīng)嘗試使用自己的數(shù)據(jù)去做這樣的嘗試座慰,使用用戶信息去監(jiān)測有激增行為的新聞版仔,再對這些新聞進(jìn)行歸類误墓,找到可能的熱點益缎,然而這在技術(shù)上有很大的挑戰(zhàn)莺奔,再一個是喪失了新聞的時效特征,尤其對于熱點來說熙卡,一分一秒都是要爭取的励饵。這樣的一輪計算下來役听,很可能是熱點已經(jīng)傳播的十分廣泛表窘,其實對于我們新聞客戶端來說,這時候再發(fā)現(xiàn)熱點已經(jīng)沒有什么價值瘤袖,流量都已經(jīng)完成分發(fā)捂敌。
我們是如何解決熱點事件問題既琴?
1.獲取熱點事件
既然我們不能主動的提取熱點事件甫恩,那就想辦法去直接獲取熱點事件。第一點奖慌,就想到了不勞而獲松靡。既然基于搜索或者傳播能夠比較及時的獲取熱點事件击困,那我們就發(fā)揚一下拿來主義好了广凸。網(wǎng)上其實有很多提供這種實時熱點事件的地方蛛枚,比如百度風(fēng)云榜蹦浦,微博熱搜,搜狗熱搜等等侥袜,還有很多枫吧,等你自己去發(fā)現(xiàn)把宇色。
- a.抓取
定時去抓取這些詞匯,這個應(yīng)該不難了例隆,只有非常有限的內(nèi)容抢蚀,只需要每隔一段事件去獲取一下皿曲,跟上次的數(shù)據(jù)做一些對比,就能很快知道有哪些事件詞或句子惶我。這個方法簡單易行博投,獲取的熱點數(shù)量多毅哗,但是可能效果就差一點,而且仍然會有一定的時延尿瞭。 -
b.運營
需要有新聞敏感度的運營人員去手工添加翅睛,這個方法獲取的熱點數(shù)目較少声搁,但是延遲幾乎可以忽略黑竞。
這里,也會為熱點事件構(gòu)造一些屬性疏旨,比如熱點等級很魂,熱點時效,熱點分類等等檐涝。
微博熱搜榜
2.為文章打上熱點事件標(biāo)簽
有了不斷更新的事件庫遏匆,還需要為每個新聞進(jìn)行標(biāo)注,它屬不屬于熱點新聞谁榜,屬于哪個熱點的新聞幅聘。
如果熱點詞過長窃植,首先需要對它進(jìn)行分詞帝蒿。否則就按整個詞去匹配。這時候就需要根據(jù)業(yè)務(wù)去構(gòu)建一套匹配的邏輯巷怜,或者算法陵叽,來衡量一個熱點事件與文章的匹配程度。當(dāng)達(dá)到一定的閾值或者某些規(guī)則丛版,就可以認(rèn)為這兩個是匹配的。
3.構(gòu)建熱點事件模型庫偏序,提升匹配度
由于上述直接獲取的熱點詞有比較大的局限性页畦,比如對于同一事件,不同的人表達(dá)方法是不一樣的研儒,單純使用一個熱點詞的泛化能力較弱豫缨。所以有了一些對應(yīng)的文章,那可以著手來構(gòu)建熱點事件模型了端朵。這里簡單來說一下好芭,假如有事件A,已知跟A匹配的文章1冲呢,2舍败,3。從1敬拓,2邻薯,3中提取最重要的前n個關(guān)鍵詞,去匯集成A的模型乘凸,可以使用簡單的連乘來設(shè)為匹配度厕诡,這樣做的目的是去擴(kuò)充相關(guān)內(nèi)容,讓更多接近的文章能夠獲得熱點事件標(biāo)簽营勤。
4.把熱點事件文章分發(fā)給用戶
有了熱點事件灵嫌,和對應(yīng)的文章壹罚,下一步就是在推薦層面增加對熱點事件的召回概率∈傩撸基于之前所說的假設(shè)猖凛,熱點本身就是一個興趣,那么一個熱點事件的熱度等級會影響分發(fā)面積稠曼。同時形病,熱點事件和分類的交叉特征會影響一個用戶是否會收到熱點的情況。
5.用戶的反饋和用戶畫像調(diào)整
當(dāng)帶有熱點事件的新聞被分發(fā)出去霞幅,用戶會點擊漠吻,打開觀看,或者直接掠過司恳。此時可以針對用戶的行為進(jìn)行分析途乃,如果用戶從來不看熱點新聞,那他的畫像關(guān)于熱點的特征將很低扔傅。根據(jù)給他曝光的熱點新聞和他的打開情況耍共,會有計算他對于熱點事件的關(guān)注度。同時猎塞,會記錄他喜歡哪些熱點事件试读,在后續(xù)的熱點分發(fā)時,還可以去計算新熱點事件和舊熱點的協(xié)同情況荠耽,用以更精準(zhǔn)的分發(fā)钩骇。