AI機(jī)器人寫稿技術(shù)應(yīng)用,小編要失業(yè)了洪规?

內(nèi)容來源:2017年7月8日,北京大學(xué)計(jì)算機(jī)科學(xué)技術(shù)研究所萬小軍博士在“CCF-GAIR 2017 全球人工智能與機(jī)器人峰會(huì)——AI+專場(chǎng)”進(jìn)行《機(jī)器寫稿技術(shù)與應(yīng)用》演講分享循捺。IT 大咖說(ID:itdakashuo)作為獨(dú)家視頻合作方斩例,經(jīng)主辦方和講者審閱授權(quán)發(fā)布。

閱讀字?jǐn)?shù):2685?| 7分鐘閱讀

嘉賓演講視頻及PPT鏈接从橘,請(qǐng)點(diǎn)擊:http://t.cn/EUFX5wc

摘要

全球人工智能與機(jī)器人峰會(huì)CCF-GAIR大會(huì)上念赶,嘉賓分享了機(jī)器寫稿的背景和現(xiàn)狀,對(duì)于未來恰力,他認(rèn)為機(jī)器寫稿不光是在媒體行業(yè)叉谜,也會(huì)跟一些游戲行業(yè)和情報(bào)行業(yè)合作。不過牺勾,他認(rèn)為讓機(jī)器學(xué)會(huì)推理和歸納正罢,寫出真正的深度報(bào)道是最難的,但這也是下一步研究的目標(biāo)驻民。

機(jī)器寫稿現(xiàn)狀——國外

機(jī)器寫稿這件事幾年前在國外已經(jīng)開始了翻具。國外成立了多家知名公司,如ARRIA回还、AI裆泳、NARRATIVESCIENCE等。核心技術(shù)為自然語言生成引擎柠硕,主要應(yīng)用于天氣預(yù)報(bào)工禾、空氣質(zhì)量运提、醫(yī)療報(bào)告、財(cái)經(jīng)闻葵、體育等領(lǐng)域的寫作民泵。AI公司已經(jīng)為美聯(lián)社等多家單位生成數(shù)億篇新聞報(bào)道,NARRATIVESCIENCE則持續(xù)為FORBES網(wǎng)生成新聞報(bào)道槽畔。主要面向的是英文和一些西方語言栈妆。

機(jī)器寫稿現(xiàn)狀——國內(nèi)

隨著人工智能技術(shù)的發(fā)展,機(jī)器寫稿近幾年在國內(nèi)也逐漸受到關(guān)注厢钧。有一些媒體單位和學(xué)術(shù)機(jī)構(gòu)進(jìn)行合作鳞尔,推出一些寫稿機(jī)器人。還有一些互聯(lián)網(wǎng)巨頭早直,像百度寥假、微軟、騰訊等單位也在自己研發(fā)機(jī)器寫稿技術(shù)霞扬。寫稿類型主要側(cè)重于體育糕韧、財(cái)經(jīng)、民生和娛樂新聞等這些領(lǐng)域祥得。

原創(chuàng)VS二次創(chuàng)作

我們認(rèn)為機(jī)器寫稿有兩種方式兔沃,一種是原創(chuàng),另一種是二次創(chuàng)作级及。原創(chuàng)是沒有文字稿件乒疏,只有結(jié)構(gòu)化的數(shù)據(jù)。我們基于結(jié)構(gòu)化數(shù)據(jù)去生成新的稿件饮焦。例如天氣預(yù)報(bào)怕吴、空氣質(zhì)量報(bào)告、財(cái)報(bào)县踢、產(chǎn)品說明書等等转绷。

二次創(chuàng)作則是基于已有的稿件內(nèi)容來創(chuàng)作新的稿件。例如新聞綜述硼啤、新聞?wù)榫⑿侣劯膶懙鹊取?/p>

機(jī)器寫稿所涉及到的NLP技術(shù)

兩種不同的創(chuàng)作方式所依賴的技術(shù)也是不一樣的。一種是自然語言生成技術(shù)谴返,一種是自動(dòng)摘要技術(shù)煞肾。自然語言生成技術(shù)直接從結(jié)構(gòu)化數(shù)據(jù)或語義表達(dá)來生成自然語句,適用于原創(chuàng)嗓袱。自動(dòng)摘要技術(shù)基于已有文本素材來構(gòu)建稿件籍救,適用于二次創(chuàng)作。

還有一些其它的相關(guān)技術(shù)渠抹,例如文本信息推薦技術(shù)蝙昙。就是我們?cè)趯懜寮臅r(shí)候想要引用名人名言闪萄、唐詩宋詞,這時(shí)它就會(huì)做一個(gè)推薦奇颠,寫到這里的時(shí)候自動(dòng)插入名句败去。

還有文本復(fù)述技術(shù)。由于涉及到版權(quán)問題烈拒,如果直接把原始的內(nèi)容復(fù)制過來會(huì)有抄襲的嫌疑为迈,所以這時(shí)就需要做復(fù)述,把同樣的語義通過不同的語言去表達(dá)出來缺菌。

應(yīng)用于傳統(tǒng)媒體 VS 自媒體

不同應(yīng)用單位對(duì)于稿件的要求是不一樣的。傳統(tǒng)的媒體單位對(duì)稿件的要求非常嚴(yán)格搜锰,對(duì)錯(cuò)誤零容忍伴郁,必須要人工審核后再進(jìn)行發(fā)布。

對(duì)于自媒體來說蛋叼,對(duì)內(nèi)容的要求比較高焊傅,但可以容忍部分質(zhì)量問題。例如部分語句連貫性不好狈涮、有少量錯(cuò)別字等狐胎。

不同的質(zhì)量要求決定了對(duì)機(jī)器寫稿方法的不同選擇。

機(jī)器寫稿人 VS 作者

機(jī)器人和記者之間目前應(yīng)該是一種分工協(xié)作的關(guān)系歌馍。機(jī)器人寫稿的速度快握巢,不知疲倦,善于寫簡(jiǎn)訊松却。但機(jī)器人只能進(jìn)行低層次暴浦、重復(fù)性的勞動(dòng)。而記者具有高度思維晓锻,能寫深度報(bào)道歌焦。可以進(jìn)行高層次砚哆、有創(chuàng)造性的勞動(dòng)独撇。

記者在寫稿件的時(shí)候是能夠清楚地知道自己所寫的內(nèi)容,但機(jī)器人在寫稿件的時(shí)候雖然他把每一個(gè)句子都寫了出來躁锁,但實(shí)際上并不能理解自己所寫的內(nèi)容纷铣。

我們?cè)跈C(jī)器寫稿方面的研究和應(yīng)用

我們做了很多基礎(chǔ)研究,包括自動(dòng)文摘灿里、自然語言生成等技術(shù)关炼。另外也做了很多應(yīng)用技術(shù)研究,像新聞資訊自動(dòng)生成匣吊、新聞綜述自動(dòng)生成以及用戶評(píng)論的自動(dòng)生成儒拂。

新聞資訊自動(dòng)生成

我們的寫稿輸入是結(jié)構(gòu)化的數(shù)據(jù)以及可能有的文字素材寸潦。會(huì)生成長(zhǎng)度可控的稿件,可以生成幾十字的短訊社痛,也可生成上千字的長(zhǎng)篇資訊见转。另外還是多領(lǐng)域的,有體育蒜哀、民生和娛樂斩箫。

體育賽事簡(jiǎn)訊自動(dòng)生成

我們會(huì)從網(wǎng)上抓取一些體育賽事的數(shù)據(jù),基于這些數(shù)據(jù)做數(shù)據(jù)分析撵儿,再做文檔規(guī)劃和語句的實(shí)現(xiàn)乘客。就能夠生成一些簡(jiǎn)單的賽事報(bào)道。報(bào)道很短淀歇,在幾十字左右易核。而為了讓報(bào)道更加生動(dòng),我們對(duì)于同樣的消息會(huì)有不同的語言進(jìn)行表達(dá)浪默。

體育賽事長(zhǎng)篇報(bào)道自動(dòng)生成

有一個(gè)很重要的素材叫體育的直播文字牡直。每當(dāng)有著名的梯云比賽的時(shí)候都會(huì)有文字直播,通過視頻直播轉(zhuǎn)成文字纳决。文字直播中通常包含了主持人對(duì)比賽精彩細(xì)節(jié)的描述碰逸。通過機(jī)器學(xué)習(xí)手段來把精彩描述挑選出來,最終放到報(bào)道中阔加。這個(gè)報(bào)道就比較長(zhǎng)饵史,能夠達(dá)到上千字以上。

體育直播很常見胜榔,涵蓋了所有的重要比賽约急。它的特點(diǎn)首先就是信息豐富,體育直播文字涵蓋比賽所涉及的任何重要信息苗分。其次是靈活性好厌蔽,不同比賽能構(gòu)建不同風(fēng)格的新聞。第三點(diǎn)就是實(shí)時(shí)性好摔癣,在比賽任一時(shí)間點(diǎn)都能及時(shí)構(gòu)建并發(fā)布新聞奴饮。

生成新聞報(bào)道的過程首先是對(duì)直播文字進(jìn)行語句的排序,再利用機(jī)器學(xué)習(xí)的手段進(jìn)行語句的智能選擇择浊,最后生成一個(gè)平均長(zhǎng)度超過1000字的賽事報(bào)道戴卜。

娛樂新聞自動(dòng)生成

可以基于微博生成娛樂新聞。現(xiàn)在明星經(jīng)常會(huì)發(fā)微博琢岩,一些微博可以構(gòu)成我們的娛樂新聞投剥。所以我們會(huì)有一個(gè)機(jī)器學(xué)習(xí)的手段去自動(dòng)判別明星發(fā)的每一條微博是否有可能成為新聞,有沒有新聞價(jià)值担孔。繼而判斷微博下的評(píng)論哪一些具有價(jià)值江锨,然后把微博和它的評(píng)論以及相關(guān)的背景信息組合在一起吃警,形成一條娛樂新聞。

新聞綜述自動(dòng)生成

新聞綜述自動(dòng)生成是根據(jù)同一事件的多篇新聞報(bào)道啄育,自動(dòng)生成篇幅較長(zhǎng)的事件綜述酌心。

因?yàn)橐獦?gòu)成綜述,所以不是以句子為單位挑豌,而是以一個(gè)子話題為單位安券。對(duì)新聞進(jìn)行子話題的劃分,得到其中的一個(gè)子話題氓英。每個(gè)子話題對(duì)應(yīng)一個(gè)段落侯勉,最后對(duì)子話題進(jìn)行重要性的排序。最后對(duì)子話題進(jìn)行選擇然后合并铝阐,最后得到一個(gè)完整的事件綜述壳鹤。這個(gè)綜述的長(zhǎng)度可達(dá)上千個(gè)字節(jié)。

用戶評(píng)論自動(dòng)生成

除了生成事實(shí)型的新聞之外饰迹,我們也嘗試去生成用戶的評(píng)論。這個(gè)主要是以產(chǎn)品評(píng)論為研究的對(duì)象余舶,我們采用的是一個(gè)深度學(xué)習(xí)的模型啊鸭。

我們?cè)跈C(jī)器寫稿方面的應(yīng)用

我們分別與今日頭條、南方都市報(bào)匿值、廣州日?qǐng)?bào)合作推出了小明赠制、小南和阿同寫稿機(jī)器人。

小明寫稿機(jī)器人基于體育賽事數(shù)據(jù)與賽事直播文字既能寫短訊挟憔,又能寫上千字的長(zhǎng)篇報(bào)道钟些。

小南寫稿機(jī)器人為南方都市報(bào)APP寫民生新聞與兩會(huì)新聞。

寫稿機(jī)器人阿同是與廣州日?qǐng)?bào)合作推出的寫稿機(jī)器人绊谭,兩會(huì)期間進(jìn)行各類工作報(bào)告的熱詞與關(guān)鍵數(shù)據(jù)分析與解讀政恍。

趨勢(shì)展望

機(jī)器寫稿在各行各業(yè)的應(yīng)用將越來越廣泛,不光是媒體寫新聞會(huì)用到达传,其它行業(yè)也會(huì)用到篙耗。

我們希望讓稿件具有態(tài)度和立場(chǎng),更有人性化拐邪。通過歸納和推理亦歉,寫出深度報(bào)道愤估。

今天的分享就到這里,謝謝大家蒙保!

編者:IT大咖說,轉(zhuǎn)載請(qǐng)標(biāo)明版權(quán)和出處

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末欲主,一起剝皮案震驚了整個(gè)濱河市邓厕,隨后出現(xiàn)的幾起案子逝嚎,更是在濱河造成了極大的恐慌,老刑警劉巖邑狸,帶你破解...
    沈念sama閱讀 218,941評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件懈糯,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡单雾,警方通過查閱死者的電腦和手機(jī)赚哗,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,397評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來硅堆,“玉大人屿储,你說我怎么就攤上這事〗ヌ樱” “怎么了够掠?”我有些...
    開封第一講書人閱讀 165,345評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)茄菊。 經(jīng)常有香客問我疯潭,道長(zhǎng),這世上最難降的妖魔是什么面殖? 我笑而不...
    開封第一講書人閱讀 58,851評(píng)論 1 295
  • 正文 為了忘掉前任竖哩,我火速辦了婚禮,結(jié)果婚禮上脊僚,老公的妹妹穿的比我還像新娘相叁。我一直安慰自己,他們只是感情好辽幌,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,868評(píng)論 6 392
  • 文/花漫 我一把揭開白布增淹。 她就那樣靜靜地躺著,像睡著了一般乌企。 火紅的嫁衣襯著肌膚如雪虑润。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,688評(píng)論 1 305
  • 那天加酵,我揣著相機(jī)與錄音端辱,去河邊找鬼。 笑死虽画,一個(gè)胖子當(dāng)著我的面吹牛舞蔽,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播码撰,決...
    沈念sama閱讀 40,414評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼渗柿,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起朵栖,我...
    開封第一講書人閱讀 39,319評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤颊亮,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后陨溅,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體终惑,經(jīng)...
    沈念sama閱讀 45,775評(píng)論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,945評(píng)論 3 336
  • 正文 我和宋清朗相戀三年门扇,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了雹有。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,096評(píng)論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡臼寄,死狀恐怖霸奕,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情吉拳,我是刑警寧澤质帅,帶...
    沈念sama閱讀 35,789評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站留攒,受9級(jí)特大地震影響煤惩,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜炼邀,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,437評(píng)論 3 331
  • 文/蒙蒙 一魄揉、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧汤善,春花似錦、人聲如沸票彪。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,993評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽降铸。三九已至在旱,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間推掸,已是汗流浹背桶蝎。 一陣腳步聲響...
    開封第一講書人閱讀 33,107評(píng)論 1 271
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留谅畅,地道東北人登渣。 一個(gè)月前我還...
    沈念sama閱讀 48,308評(píng)論 3 372
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像毡泻,于是被迫代替她去往敵國和親胜茧。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,037評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容