1 項(xiàng)目實(shí)施的目的含友、意義
隨著信息傳播手段的進(jìn)步曲初,尤其是互聯(lián)網(wǎng)這一新媒體的出現(xiàn),我們已經(jīng)擺脫了信息貧乏的栓桔雌隅。由于網(wǎng)絡(luò)信息數(shù)量龐大翻默,與一個(gè)話題相關(guān)的信息往往孤立地分散在很多不同的地方并且出現(xiàn)在不同的時(shí)間,僅僅通過這些孤立的信息恰起,人們對(duì)某些事件難以做到全面的把握修械。
所以我們需要這樣一種工具,可以幫助人們把分散的信息有效地匯集并組織起來检盼,從整體上了解一個(gè)事件的全部細(xì)節(jié)以及與該事件與其它事件之間的關(guān)系肯污。
2 項(xiàng)目研究?jī)?nèi)容和擬解決的關(guān)鍵問題
2.1 爬取網(wǎng)站數(shù)據(jù)
本項(xiàng)目涉及兩個(gè)概念,一是話題topic, 二是報(bào)道report(語料)。 話題包括名稱ID)和特征(feature)蹦渣。 ID可以理解為關(guān)鍵詞(主題詞哄芜,事件名),比如“三星折疊屏”剂桥, “斯里蘭卡爆炸”等忠烛。Feature是我們根據(jù)語料庫挖掘出的特征属提。
為了獲取足夠的訓(xùn)練數(shù)據(jù)权逗,本項(xiàng)目將使用網(wǎng)絡(luò)爬蟲技術(shù)對(duì)各大新聞網(wǎng)站的數(shù)據(jù)進(jìn)行爬取,以抽取話題和報(bào)道冤议。
2.2 報(bào)告/話題相似性的比較以及聚類和分類處理
2.2.1 初始話題斟薇、報(bào)道集抓取,話題報(bào)道關(guān)聯(lián)模型構(gòu)建
根據(jù)若干關(guān)鍵詞話題ID抓取若干相關(guān)語料信息恕酸,進(jìn)行特征抓取堪滨,構(gòu)建初始話題報(bào)道關(guān)聯(lián)模型。
2.2.2 新話題與初始模型話題集相似性比較
對(duì)于爬取得到的新話題和新報(bào)道蕊温,與初始模型話題集進(jìn)行相似性比較袱箱。根據(jù)相似性閾值將其歸結(jié)到某已有話題,或擴(kuò)充模型添加新的話題义矛。閾值的合理選取是解決的關(guān)鍵問題发笔。
2.2.3 上述相關(guān)的模式識(shí)別訓(xùn)練過程
根據(jù)爬取得數(shù)據(jù)合理、高效地訓(xùn)練機(jī)器學(xué)習(xí)模型凉翻,尤其是深度神經(jīng)網(wǎng)絡(luò)等技術(shù)了讨,是本項(xiàng)目要解決的另一關(guān)鍵問題。
2.3 數(shù)據(jù)庫存貯和管理/分布式系統(tǒng)的應(yīng)用
網(wǎng)絡(luò)話題和報(bào)道爬取得數(shù)據(jù)量較大制轰。當(dāng)話題規(guī)模達(dá)到一定程度時(shí)前计,使用分布式存儲(chǔ)、數(shù)據(jù)庫進(jìn)行信息組織以滿足容量及性能需求垃杖,是本項(xiàng)目的另一研究?jī)?nèi)容男杈。
3 項(xiàng)目研究與實(shí)施的基礎(chǔ)條件
- 我們團(tuán)隊(duì)已具備對(duì)熱點(diǎn)論壇、微博大V文章的信息采集能力调俘。
- 數(shù)聚 (專為個(gè)人定制的信息流) 這個(gè)是我們團(tuán)隊(duì)之前做的一個(gè)數(shù)據(jù)采集的項(xiàng)目伶棒。說明團(tuán)隊(duì)成員有協(xié)作完成比賽項(xiàng)目的能力。
- 團(tuán)隊(duì)成員有阿里云服務(wù)器良好的使用能力脉漏,對(duì)服務(wù)器知識(shí)有一定的貯備苞冯。
- 團(tuán)隊(duì)成員是軟件卓越計(jì)劃班的成員,具有良好的接受和學(xué)習(xí)侧巨、探索新知識(shí)的能力
- 我們有優(yōu)秀的計(jì)算機(jī)舅锄、概率論、量子數(shù)學(xué)老師的親自指導(dǎo)的機(jī)會(huì)
項(xiàng)目參考文獻(xiàn)
[1] 互聯(lián)網(wǎng)中事件檢測(cè)與跟蹤系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn) 于兆鵬
[2] 基于中文微博的熱門話題提取與追蹤 葉永濤
[3] 網(wǎng)絡(luò)熱門話題的跟蹤建模與檢測(cè)分析 李晶
[python] 基于k-means和tfidf的文本聚類代碼簡(jiǎn)單實(shí)現(xiàn)
中文文本聚類(切詞以及Kmeans聚類)
4 項(xiàng)目實(shí)施方案
4.1 數(shù)據(jù)收集,并進(jìn)行文本預(yù)處理
- 利用網(wǎng)絡(luò)爬蟲皇忿,采集指定網(wǎng)頁上的信息
- 除去數(shù)據(jù)中少量的非文本部分
- 處理中文編碼問題
- 中文分詞畴蹭,結(jié)巴分詞
- 引入停用詞
- 特征處理, 用scikit-learn的TfidfVectorizer類來進(jìn)行TF-IDF特征處理
4.2 建立數(shù)據(jù)模型,進(jìn)行聚類分析
- 對(duì)文本類數(shù)據(jù)進(jìn)行數(shù)據(jù)化模型化處理鳍烁,使用語言模型叨襟,向量空間模型。
- 對(duì)報(bào)道數(shù)據(jù)進(jìn)行聚類分析幔荒,通過增量k-mwans算法糊闽。
4.3 對(duì)處理的數(shù)據(jù)的展示:
- 根據(jù)時(shí)間、因果等因素對(duì)熱點(diǎn)話題生成事件網(wǎng)絡(luò)圖譜
- 利用js前端技術(shù)爹梁,實(shí)現(xiàn)動(dòng)態(tài)展示右犹,新穎獨(dú)特。
5 學(xué)幸可以提供的條件
5.1 物質(zhì)條件的支持:
- 因?yàn)槲覀冞@個(gè)項(xiàng)目很有挑戰(zhàn)性念链,所以我們組員之間很需要經(jīng)常討論交流,所以我們需要一間適中大小的實(shí)驗(yàn)環(huán)境积糯。
- 最新的科研資料及書籍掂墓。
- 服務(wù)器的采購費(fèi)用、新技術(shù)的學(xué)習(xí)費(fèi)用等資金支持看成。
5.2 教師指導(dǎo)
- 由于我們對(duì)這方面的技術(shù)尚未成熟君编,還需要教師對(duì)我們的偏正。不過绍昂,我們還有時(shí)間去學(xué)習(xí)去磨練啦粹,應(yīng)該是沒問題的
- 該項(xiàng)目的實(shí)現(xiàn)需要用到概率論的高等算法知識(shí)以及神經(jīng)網(wǎng)絡(luò)和分布式系統(tǒng)等高端技術(shù)的支持,所以我們需要兩位專業(yè)級(jí)老師的指導(dǎo)窘游。
6 預(yù)期成果
能夠?qū)崿F(xiàn)對(duì)各大國內(nèi)知名新聞網(wǎng)站信息進(jìn)行時(shí)事話題追蹤的系統(tǒng)唠椭。