內(nèi)容來源:2017年7月8日,北京大學(xué)計(jì)算機(jī)科學(xué)技術(shù)研究所萬小軍博士在“CCF-GAIR 2017 全球人工智能與機(jī)器人峰會(huì)——AI+專場(chǎng)”進(jìn)行《機(jī)器寫稿技術(shù)與應(yīng)用》演講分享循捺。IT 大咖說(ID:itdakashuo)作為獨(dú)家視頻合作方斩例,經(jīng)主辦方和講者審閱授權(quán)發(fā)布。
閱讀字?jǐn)?shù):2685?| 7分鐘閱讀
嘉賓演講視頻及PPT鏈接从橘,請(qǐng)點(diǎn)擊:http://t.cn/EUFX5wc
摘要
全球人工智能與機(jī)器人峰會(huì)CCF-GAIR大會(huì)上念赶,嘉賓分享了機(jī)器寫稿的背景和現(xiàn)狀,對(duì)于未來恰力,他認(rèn)為機(jī)器寫稿不光是在媒體行業(yè)叉谜,也會(huì)跟一些游戲行業(yè)和情報(bào)行業(yè)合作。不過牺勾,他認(rèn)為讓機(jī)器學(xué)會(huì)推理和歸納正罢,寫出真正的深度報(bào)道是最難的,但這也是下一步研究的目標(biāo)驻民。
機(jī)器寫稿現(xiàn)狀——國外
機(jī)器寫稿這件事幾年前在國外已經(jīng)開始了翻具。國外成立了多家知名公司,如ARRIA回还、AI裆泳、NARRATIVESCIENCE等。核心技術(shù)為自然語言生成引擎柠硕,主要應(yīng)用于天氣預(yù)報(bào)工禾、空氣質(zhì)量运提、醫(yī)療報(bào)告、財(cái)經(jīng)闻葵、體育等領(lǐng)域的寫作民泵。AI公司已經(jīng)為美聯(lián)社等多家單位生成數(shù)億篇新聞報(bào)道,NARRATIVESCIENCE則持續(xù)為FORBES網(wǎng)生成新聞報(bào)道槽畔。主要面向的是英文和一些西方語言栈妆。
機(jī)器寫稿現(xiàn)狀——國內(nèi)
隨著人工智能技術(shù)的發(fā)展,機(jī)器寫稿近幾年在國內(nèi)也逐漸受到關(guān)注厢钧。有一些媒體單位和學(xué)術(shù)機(jī)構(gòu)進(jìn)行合作鳞尔,推出一些寫稿機(jī)器人。還有一些互聯(lián)網(wǎng)巨頭早直,像百度寥假、微軟、騰訊等單位也在自己研發(fā)機(jī)器寫稿技術(shù)霞扬。寫稿類型主要側(cè)重于體育糕韧、財(cái)經(jīng)、民生和娛樂新聞等這些領(lǐng)域祥得。
原創(chuàng)VS二次創(chuàng)作
我們認(rèn)為機(jī)器寫稿有兩種方式兔沃,一種是原創(chuàng),另一種是二次創(chuàng)作级及。原創(chuàng)是沒有文字稿件乒疏,只有結(jié)構(gòu)化的數(shù)據(jù)。我們基于結(jié)構(gòu)化數(shù)據(jù)去生成新的稿件饮焦。例如天氣預(yù)報(bào)怕吴、空氣質(zhì)量報(bào)告、財(cái)報(bào)县踢、產(chǎn)品說明書等等转绷。
二次創(chuàng)作則是基于已有的稿件內(nèi)容來創(chuàng)作新的稿件。例如新聞綜述硼啤、新聞?wù)榫⑿侣劯膶懙鹊取?/p>
機(jī)器寫稿所涉及到的NLP技術(shù)
兩種不同的創(chuàng)作方式所依賴的技術(shù)也是不一樣的。一種是自然語言生成技術(shù)谴返,一種是自動(dòng)摘要技術(shù)煞肾。自然語言生成技術(shù)直接從結(jié)構(gòu)化數(shù)據(jù)或語義表達(dá)來生成自然語句,適用于原創(chuàng)嗓袱。自動(dòng)摘要技術(shù)基于已有文本素材來構(gòu)建稿件籍救,適用于二次創(chuàng)作。
還有一些其它的相關(guān)技術(shù)渠抹,例如文本信息推薦技術(shù)蝙昙。就是我們?cè)趯懜寮臅r(shí)候想要引用名人名言闪萄、唐詩宋詞,這時(shí)它就會(huì)做一個(gè)推薦奇颠,寫到這里的時(shí)候自動(dòng)插入名句败去。
還有文本復(fù)述技術(shù)。由于涉及到版權(quán)問題烈拒,如果直接把原始的內(nèi)容復(fù)制過來會(huì)有抄襲的嫌疑为迈,所以這時(shí)就需要做復(fù)述,把同樣的語義通過不同的語言去表達(dá)出來缺菌。
應(yīng)用于傳統(tǒng)媒體 VS 自媒體
不同應(yīng)用單位對(duì)于稿件的要求是不一樣的。傳統(tǒng)的媒體單位對(duì)稿件的要求非常嚴(yán)格搜锰,對(duì)錯(cuò)誤零容忍伴郁,必須要人工審核后再進(jìn)行發(fā)布。
對(duì)于自媒體來說蛋叼,對(duì)內(nèi)容的要求比較高焊傅,但可以容忍部分質(zhì)量問題。例如部分語句連貫性不好狈涮、有少量錯(cuò)別字等狐胎。
不同的質(zhì)量要求決定了對(duì)機(jī)器寫稿方法的不同選擇。
機(jī)器寫稿人 VS 作者
機(jī)器人和記者之間目前應(yīng)該是一種分工協(xié)作的關(guān)系歌馍。機(jī)器人寫稿的速度快握巢,不知疲倦,善于寫簡(jiǎn)訊松却。但機(jī)器人只能進(jìn)行低層次暴浦、重復(fù)性的勞動(dòng)。而記者具有高度思維晓锻,能寫深度報(bào)道歌焦。可以進(jìn)行高層次砚哆、有創(chuàng)造性的勞動(dòng)独撇。
記者在寫稿件的時(shí)候是能夠清楚地知道自己所寫的內(nèi)容,但機(jī)器人在寫稿件的時(shí)候雖然他把每一個(gè)句子都寫了出來躁锁,但實(shí)際上并不能理解自己所寫的內(nèi)容纷铣。
我們?cè)跈C(jī)器寫稿方面的研究和應(yīng)用
我們做了很多基礎(chǔ)研究,包括自動(dòng)文摘灿里、自然語言生成等技術(shù)关炼。另外也做了很多應(yīng)用技術(shù)研究,像新聞資訊自動(dòng)生成匣吊、新聞綜述自動(dòng)生成以及用戶評(píng)論的自動(dòng)生成儒拂。
新聞資訊自動(dòng)生成
我們的寫稿輸入是結(jié)構(gòu)化的數(shù)據(jù)以及可能有的文字素材寸潦。會(huì)生成長(zhǎng)度可控的稿件,可以生成幾十字的短訊社痛,也可生成上千字的長(zhǎng)篇資訊见转。另外還是多領(lǐng)域的,有體育蒜哀、民生和娛樂斩箫。
體育賽事簡(jiǎn)訊自動(dòng)生成
我們會(huì)從網(wǎng)上抓取一些體育賽事的數(shù)據(jù),基于這些數(shù)據(jù)做數(shù)據(jù)分析撵儿,再做文檔規(guī)劃和語句的實(shí)現(xiàn)乘客。就能夠生成一些簡(jiǎn)單的賽事報(bào)道。報(bào)道很短淀歇,在幾十字左右易核。而為了讓報(bào)道更加生動(dòng),我們對(duì)于同樣的消息會(huì)有不同的語言進(jìn)行表達(dá)浪默。
體育賽事長(zhǎng)篇報(bào)道自動(dòng)生成
有一個(gè)很重要的素材叫體育的直播文字牡直。每當(dāng)有著名的梯云比賽的時(shí)候都會(huì)有文字直播,通過視頻直播轉(zhuǎn)成文字纳决。文字直播中通常包含了主持人對(duì)比賽精彩細(xì)節(jié)的描述碰逸。通過機(jī)器學(xué)習(xí)手段來把精彩描述挑選出來,最終放到報(bào)道中阔加。這個(gè)報(bào)道就比較長(zhǎng)饵史,能夠達(dá)到上千字以上。
體育直播很常見胜榔,涵蓋了所有的重要比賽约急。它的特點(diǎn)首先就是信息豐富,體育直播文字涵蓋比賽所涉及的任何重要信息苗分。其次是靈活性好厌蔽,不同比賽能構(gòu)建不同風(fēng)格的新聞。第三點(diǎn)就是實(shí)時(shí)性好摔癣,在比賽任一時(shí)間點(diǎn)都能及時(shí)構(gòu)建并發(fā)布新聞奴饮。
生成新聞報(bào)道的過程首先是對(duì)直播文字進(jìn)行語句的排序,再利用機(jī)器學(xué)習(xí)的手段進(jìn)行語句的智能選擇择浊,最后生成一個(gè)平均長(zhǎng)度超過1000字的賽事報(bào)道戴卜。
娛樂新聞自動(dòng)生成
可以基于微博生成娛樂新聞。現(xiàn)在明星經(jīng)常會(huì)發(fā)微博琢岩,一些微博可以構(gòu)成我們的娛樂新聞投剥。所以我們會(huì)有一個(gè)機(jī)器學(xué)習(xí)的手段去自動(dòng)判別明星發(fā)的每一條微博是否有可能成為新聞,有沒有新聞價(jià)值担孔。繼而判斷微博下的評(píng)論哪一些具有價(jià)值江锨,然后把微博和它的評(píng)論以及相關(guān)的背景信息組合在一起吃警,形成一條娛樂新聞。
新聞綜述自動(dòng)生成
新聞綜述自動(dòng)生成是根據(jù)同一事件的多篇新聞報(bào)道啄育,自動(dòng)生成篇幅較長(zhǎng)的事件綜述酌心。
因?yàn)橐獦?gòu)成綜述,所以不是以句子為單位挑豌,而是以一個(gè)子話題為單位安券。對(duì)新聞進(jìn)行子話題的劃分,得到其中的一個(gè)子話題氓英。每個(gè)子話題對(duì)應(yīng)一個(gè)段落侯勉,最后對(duì)子話題進(jìn)行重要性的排序。最后對(duì)子話題進(jìn)行選擇然后合并铝阐,最后得到一個(gè)完整的事件綜述壳鹤。這個(gè)綜述的長(zhǎng)度可達(dá)上千個(gè)字節(jié)。
用戶評(píng)論自動(dòng)生成
除了生成事實(shí)型的新聞之外饰迹,我們也嘗試去生成用戶的評(píng)論。這個(gè)主要是以產(chǎn)品評(píng)論為研究的對(duì)象余舶,我們采用的是一個(gè)深度學(xué)習(xí)的模型啊鸭。
我們?cè)跈C(jī)器寫稿方面的應(yīng)用
我們分別與今日頭條、南方都市報(bào)匿值、廣州日?qǐng)?bào)合作推出了小明赠制、小南和阿同寫稿機(jī)器人。
小明寫稿機(jī)器人基于體育賽事數(shù)據(jù)與賽事直播文字既能寫短訊挟憔,又能寫上千字的長(zhǎng)篇報(bào)道钟些。
小南寫稿機(jī)器人為南方都市報(bào)APP寫民生新聞與兩會(huì)新聞。
寫稿機(jī)器人阿同是與廣州日?qǐng)?bào)合作推出的寫稿機(jī)器人绊谭,兩會(huì)期間進(jìn)行各類工作報(bào)告的熱詞與關(guān)鍵數(shù)據(jù)分析與解讀政恍。
趨勢(shì)展望
機(jī)器寫稿在各行各業(yè)的應(yīng)用將越來越廣泛,不光是媒體寫新聞會(huì)用到达传,其它行業(yè)也會(huì)用到篙耗。
我們希望讓稿件具有態(tài)度和立場(chǎng),更有人性化拐邪。通過歸納和推理亦歉,寫出深度報(bào)道愤估。
今天的分享就到這里,謝謝大家蒙保!
編者:IT大咖說,轉(zhuǎn)載請(qǐng)標(biāo)明版權(quán)和出處