一、主要工作:##
image.png
重點(diǎn)工作是前兩個(gè)。
其中我感受很深的是新聞自動(dòng)分類(lèi)芯咧, 因?yàn)槲以谶@個(gè)過(guò)程中嘗試了多種文本預(yù)處理的方法、多種分類(lèi)器妹田。然后他們的結(jié)果也差異很大唬党。
第二個(gè)感受最深的部分是文本的自動(dòng)摘要,
因?yàn)樵谧鲞@部分的時(shí)候我參考了一些現(xiàn)有的方法鬼佣,基本都是按照段落的位置驶拱、句子的位置、句子的長(zhǎng)度等進(jìn)行評(píng)分晶衷,然后計(jì)算出每個(gè)句子的得分蓝纲,再排序取前幾。我試了幾種方法晌纫,感覺(jué)并不是很準(zhǔn)確税迷。然后得到的摘要,一眼看過(guò)去锹漱,都是句子句子句子箭养,并不能達(dá)到一看就可以知道大意的程度。所以我們就開(kāi)始想自己弄一些更好的方法哥牍。上個(gè)月的時(shí)候我們就這個(gè)問(wèn)題還投了2017年的CIKM毕泌,我們的辦法是一種結(jié)構(gòu)化的摘要。
二嗅辣、工作量總結(jié):##
代碼量5000行左右:
image.png
博客12篇:
image.png
論文1篇:
image.png