[人工智能] [用戶心理] ?
本文轉(zhuǎn)載自:微軟亞洲研究院
機(jī)器能否進(jìn)入人類內(nèi)心深處去了解她們的性格和情感呢蜜徽?這些問題在心理學(xué)領(lǐng)域已經(jīng)被思考了上千年腋么。本文為微軟亞洲研究院資深研究員謝幸在劇院式演講平臺(tái)“造就”上發(fā)表主題演講。
最近腾么,我給我三歲的女兒買了一本繪本奈梳,名字是“Can I build another me”,她愛不釋手解虱。這本書的主角是一個(gè)厭倦了自己規(guī)律生活的孩子攘须,他希望能訓(xùn)練出一個(gè)機(jī)器人代替自己按時(shí)午睡、吃飯殴泰、去幼兒園于宙,這樣他就可以自由自在地玩耍。于是悍汛,他買來一個(gè)最便宜的機(jī)器人捞魁,帶回家來訓(xùn)練它。在這個(gè)過程中离咐,他遇到的第一個(gè)問題就是谱俭,怎樣才能讓機(jī)器人才能變成他呢?于是宵蛀,他試圖告訴機(jī)器人各種關(guān)于自己的信息昆著,包括他的姓名、年齡术陶、身高凑懂、體重,父母梧宫、兄弟和寵物征候,甚至包括“左撇子”“易煩躁”“襪子經(jīng)常破洞”這種信息。
這繪本的作者腦洞很大祟敛,他也在思考我們所思考的問題疤坝。這個(gè)故事也告訴我們,要讓機(jī)器人擁有人一般的思維馆铁,第一步便是理解自己跑揉。因?yàn)檫@樣我們才能告訴機(jī)器人,怎樣做才能最像自己。我們從以下幾個(gè)方面探討這個(gè)問題:
1.人工智能與心理學(xué)
2.人格分類及推測(cè)
3.如何讓機(jī)器人像人一樣思考
在很長(zhǎng)一段時(shí)間內(nèi)历谍,我們團(tuán)隊(duì)一直從事用戶畫像的研究现拒。什么是用戶畫像?簡(jiǎn)單說來望侈,就是通過用戶產(chǎn)生的大數(shù)據(jù)印蔬,去猜測(cè)和理解一個(gè)人的年齡、職業(yè)脱衙、興趣愛好侥猬,也可以去描繪一群人的生活規(guī)律和移動(dòng)模式。這讓我們開始思考捐韩,我們能不能通過這些數(shù)據(jù)進(jìn)一步走到人的內(nèi)心深處退唠,去了解她們的性格和情感呢?這并不容易荤胁。但是在研究的過程中瞧预,我們發(fā)現(xiàn)這些問題在心理學(xué)領(lǐng)域已經(jīng)被思考了上千年。實(shí)際上仅政,人工智能和心理學(xué)這兩個(gè)領(lǐng)域?qū)嶋H上早就有交叉垢油。
兩年前,我們便開始拜訪著名的心理學(xué)家和教授圆丹,試圖進(jìn)行跨學(xué)科合作交流秸苗。在這個(gè)過程中,我們首先想解決的問題就是人格运褪。從用戶生成的大數(shù)據(jù)中能否計(jì)算出人的性格?
雖然人格這個(gè)術(shù)語(yǔ)在日常生活中很常見玖瘸,但是給人格下一個(gè)準(zhǔn)確清晰的定義卻并非易事秸讹,即使是心理學(xué)家們?cè)谶@個(gè)術(shù)語(yǔ)的定義上也很難達(dá)成共識(shí)。人格最早的定義可以追溯到2000多年前(公元前400年)古希臘醫(yī)學(xué)家希波克拉底(Hippocrates)的體液說雅倒,他認(rèn)為人體是由四種體液構(gòu)成璃诀,包括血液、粘液蔑匣、黃膽汁和黑膽汁劣欢,而這四種體液的分布便決定了人的性格:黑色的膽汁產(chǎn)生了憂郁型人格,血液產(chǎn)生了樂觀型人格裁良,黃色膽汁產(chǎn)生了沖動(dòng)易怒型人格凿将,而粘液產(chǎn)生了冷靜型人格。盡管希波克拉底的體液說已經(jīng)被現(xiàn)代醫(yī)學(xué)所否定价脾,但是他關(guān)于人格分類的探討是有啟發(fā)意義的牧抵,以致于后來的心理學(xué)家仍然一直探討這個(gè)問題。
在我們與心理學(xué)家交流時(shí),我們發(fā)現(xiàn)了一個(gè)有趣事實(shí):在現(xiàn)代心理學(xué)中犀变,人格的定義其實(shí)跟語(yǔ)言的使用有著緊密的關(guān)系妹孙。其實(shí)在計(jì)算機(jī)科學(xué)領(lǐng)域,我們對(duì)語(yǔ)言也有很多研究获枝,我們稱之為“自然語(yǔ)言理解”蠢正。在心理學(xué)里面,有一個(gè)概念叫“詞匯學(xué)假說”省店。什么叫詞匯學(xué)假說嚣崭?根據(jù)這個(gè)假說,我們無需通過觀察萨西、研究各種各樣的人來研究人格有鹿,我們可以簡(jiǎn)單一些,通過直接觀察人類語(yǔ)言中相關(guān)詞匯谎脯。比如說葱跋,你介紹一位朋友給我認(rèn)識(shí),可能會(huì)用一大段話來描述他:“他特別喜歡說話,每次都聽到他在說話坚弱,是個(gè)話癆”等等派撕。其實(shí),一個(gè)詞即可概括這段話:健談荠卷。因此,心理學(xué)家決定整理這些描述性詞匯烛愧。如果這個(gè)詞匯不多的話油宜,它們便可成為建立分類體系的基礎(chǔ)。
基于這些觀察怜姿,人格理論的先驅(qū)奧爾波特(Allport)和奧德伯特(Odbert)于1936年對(duì)英語(yǔ)詞匯進(jìn)行了艱難而又系統(tǒng)的調(diào)查研究慎冤。通過查看詞典,他們按照個(gè)人特質(zhì)沧卢、暫時(shí)的情緒或者行為以及智力與才干這四個(gè)類別發(fā)現(xiàn)大約18000個(gè)單詞蚁堤,并進(jìn)一步從中整理出四千多個(gè)描述性格的詞匯。雖然說四千似乎已經(jīng)很少了但狭,但對(duì)于整個(gè)用戶語(yǔ)言來說披诗,這仍然是很復(fù)雜的。
試想下立磁,在描述一個(gè)人性格的時(shí)候呈队,如果要給這四千個(gè)描述維度分別打分,這該是多大的工作量唱歧。因此掂咒,他們想在此基礎(chǔ)上進(jìn)一步縮減。在這個(gè)過程中,他們發(fā)現(xiàn)绍刮,這些單詞間其實(shí)存在一些相關(guān)性温圆。比如說,一般外向的人通常也比較健談孩革,冷靜的人通常也比較理智岁歉,但他可能也比較內(nèi)向。如果能定位這些相關(guān)性膝蜈,便可在此基礎(chǔ)上對(duì)四千多個(gè)詞進(jìn)行進(jìn)一步歸類锅移。
近二十年來,人格研究者關(guān)注與支持最多的人格定義是“大五人格理論”饱搏。包括了五個(gè)高度概括的人格因素:外向性 (Extraversion)非剃,盡責(zé)性 (Conscientiousness),神經(jīng)質(zhì) (Neuroticism)推沸,隨和型(Agreeableness)和開放性(Openness)备绽。每個(gè)人格因素下還有一些細(xì)分特質(zhì)(比如外向性下包括了是否經(jīng)常參加活動(dòng)、是否熱心腸等)鬓催。這樣肺素,以后你在介紹朋友時(shí),可以將他描述為“比較外向宇驾,但不太隨和倍靡,可能比較情緒化的一個(gè)人”。方式很簡(jiǎn)單课舍,但是描述很全面塌西。
實(shí)際上,整理這些詞匯以及生成人格分類體系大多是依賴數(shù)據(jù)驅(qū)動(dòng)筝尾,與計(jì)算機(jī)科學(xué)有很多很緊密的聯(lián)系捡需。那我們能不能自動(dòng)的計(jì)算用戶的大五人格呢?其實(shí)這也是有可能的忿等。
在傳統(tǒng)人格測(cè)量中,心理學(xué)家往往采用訪談和調(diào)查問卷這種形式崔挖,需要耗費(fèi)大量的人力贸街、財(cái)力和時(shí)間,受測(cè)者往往局限于幾十人到幾百人的規(guī)模狸相,不可能實(shí)現(xiàn)大規(guī)模用戶的測(cè)量薛匪。但心理學(xué)中還有一種人格測(cè)量的方法,叫做行為測(cè)量脓鹃,通過觀察個(gè)體的行為來進(jìn)行測(cè)評(píng)逸尖。行為測(cè)量的理論基礎(chǔ)是人格理論中的人類行為的一致性。既然人格能夠解釋人際之間的穩(wěn)定的個(gè)體差異,那么個(gè)體行為表現(xiàn)出的差異性就跟個(gè)體的人格息息相關(guān)娇跟,因此通過觀察個(gè)體行為使得預(yù)測(cè)人格變成了可能岩齿。只是在計(jì)算機(jī)技術(shù)得到廣泛應(yīng)用之前,心理學(xué)家很難收集到用戶足夠豐富的行為數(shù)據(jù)苞俘,因此數(shù)據(jù)的匱乏導(dǎo)致了行為測(cè)量在傳統(tǒng)心理學(xué)中并沒有被廣泛采用盹沈。
近年來,隨著互聯(lián)網(wǎng)吃谣、智能手機(jī)和各種傳感設(shè)備的普及乞封,用戶的行為數(shù)據(jù)被廣泛收集,再加上人工智能方法在建模用戶方面的推進(jìn)岗憋,使得通過行為數(shù)據(jù)測(cè)量人格的方法在計(jì)算機(jī)和心理學(xué)的交叉領(lǐng)域得到了快速的發(fā)展肃晚。我們的研究工作在此基礎(chǔ)上更進(jìn)一步,提出“人格推測(cè)模型”仔戈,利用社交媒體上的異構(gòu)數(shù)據(jù)(比如頭像照片关串、發(fā)表的文字、表情符使用以及社交關(guān)系等)來預(yù)測(cè)大五人格杂穷。比如說針對(duì)圖片悍缠,我們可以,算出語(yǔ)義表示耐量,再將這些圖片聚成某些類別飞蚓,如卡通、自拍廊蜒、合影趴拧、動(dòng)植物。用基于行為數(shù)據(jù)的人工智能方法進(jìn)行人格預(yù)測(cè)山叮,首先需要收集少量用戶的調(diào)查問卷結(jié)果作為標(biāo)注著榴。通過標(biāo)注用戶行為特點(diǎn)及人格特征,將它們之間的映射和聯(lián)系輸入模型中屁倔,以訓(xùn)練出一個(gè)好的模型脑又。
實(shí)際上,我們找了一批志愿者锐借,他們提供了自己的數(shù)據(jù)问麸,并完成了問卷調(diào)查,這樣我們便擁有兩方面數(shù)據(jù)钞翔。在訓(xùn)練完模型后严卖,新的用戶便無需完成用戶調(diào)查,模型可以自動(dòng)計(jì)算其人格布轿。聽很抽象但其實(shí)也很具體哮笆。例如来颤,我們可以計(jì)算用戶發(fā)表文字和性格間的關(guān)系。大五人格有五個(gè)維度稠肘,我們可以計(jì)算出文字和每一個(gè)維度間是特別正相關(guān)或者特別負(fù)相關(guān)福铅。例如一個(gè)經(jīng)常在朋友圈寫青春和自我的人可能比較外向,而常寫失敗和面對(duì)的用戶外向性得分便很低启具。還有一些用戶可能會(huì)寫時(shí)代本讥、社會(huì)、成功這些聽起來非常正能量的詞匯鲁冯,我們發(fā)現(xiàn)這些人盡責(zé)性比較高拷沸。相反,有些人可能經(jīng)常寫隨便薯演、萌萌撞芍、氣質(zhì)這些詞,我們發(fā)現(xiàn)他們盡責(zé)性比較低跨扮。盡責(zé)性低并不是一個(gè)貶義詞:在這個(gè)模型中序无,在乎結(jié)果的人盡責(zé)性比較高,在乎過程的人盡責(zé)性比較低衡创。這兩個(gè)極端都有它的優(yōu)勢(shì)帝嗡,并無好壞之分。
我們還通過計(jì)算大五人格和用戶頭像類簇的皮爾遜系數(shù)璃氢,展示了與大五人格強(qiáng)烈正相關(guān)或者負(fù)相關(guān)的類簇(每個(gè)類簇選取了2張圖片顯示)哟玷。這樣的計(jì)算揭示了一些有趣的現(xiàn)象:比如外向性得分高的用戶喜歡使用包含笑臉的頭像,而得分低的用戶往往在頭像中遮擋了面部表情或者使用側(cè)臉一也;開放性得分高的用戶往往使用和朋友在一起的照片作為頭像巢寡,而開放性得分低的用戶的頭像很多是自拍照。
我們的實(shí)驗(yàn)結(jié)果表明單單使用頭像照片椰苟,就能使個(gè)體性格預(yù)測(cè)的準(zhǔn)確性到達(dá)0.6抑月。我們不僅對(duì)每種維度上的行為數(shù)據(jù)提出了針對(duì)性的特征提取策略,而且使用集成學(xué)習(xí)技術(shù)(Ensemble)有效融合了不同維度的行為數(shù)據(jù)來提升大五人格預(yù)測(cè)的準(zhǔn)確率舆蝴,使得個(gè)體大五人格預(yù)測(cè)的準(zhǔn)確性到達(dá)0.75以上谦絮。
在理解用戶之后,下一步就是如何利用這些知識(shí)來幫助機(jī)器人產(chǎn)生像人一樣的思維洁仗。人類希望機(jī)器人能實(shí)現(xiàn)的重要行為之一就是聊天层皱,微軟也提出了“Conversation as a Platform(對(duì)話即平臺(tái))”的概念,認(rèn)為未來所有人機(jī)界面都將轉(zhuǎn)變?yōu)閷?duì)話界面京痢。
兩年前我看過一部電視劇奶甘,至今記憶猶新篷店,是英劇《黑鏡(Black Mirror)》第二季第一集“be right back”祭椰。這部電視劇描述了一家人工智能公司臭家,它可以通過一個(gè)人的社交媒體和在線聊天數(shù)據(jù)合成一個(gè)虛擬人,來模仿人物原型的性格特點(diǎn)和他的女友進(jìn)行對(duì)話方淤。這看起來很科幻钉赁,但實(shí)際上離我們已經(jīng)并不遙遠(yuǎn)。2016年10月一篇新聞報(bào)道中也提到携茂,來自俄羅斯的創(chuàng)業(yè)者Kuyda為了紀(jì)念去世的朋友Roman你踩,用他的8000條短信數(shù)據(jù)訓(xùn)練了一個(gè)聊天機(jī)器人,并于2016年5月正式發(fā)布讳苦。
盡管技術(shù)已經(jīng)前進(jìn)了一大步带膜,但就算是目前最好的聊天機(jī)器人也還無法讓人感覺他是一個(gè)具有穩(wěn)定性格和情感、活生生的人鸳谜。這就涉及到如何讓機(jī)器人的語(yǔ)言和行為更具有個(gè)性膝藕。
隨著社交網(wǎng)絡(luò)盛行,帶有用戶標(biāo)簽的語(yǔ)言數(shù)據(jù)變得容易獲取咐扭。就像前面提到的新聞報(bào)道描述一樣芭挽,如果我們有足夠的關(guān)于某個(gè)人的數(shù)據(jù),就有可能訓(xùn)練出一個(gè)和他個(gè)性一樣的聊天機(jī)器人蝗肪。當(dāng)然袜爪,我們還可以通過一群人,例如兒童薛闪、學(xué)生辛馆、甚至詩(shī)人的數(shù)據(jù)來訓(xùn)練出具有一類人特點(diǎn)的機(jī)器人。例如逛绵,我們是否可以收集所有現(xiàn)代詩(shī)人的數(shù)據(jù)怀各,用這些數(shù)據(jù)來訓(xùn)練一個(gè)出口成詩(shī)的機(jī)器人?現(xiàn)在是可以做到的术浪,但隨著研究的深入瓢对,相信最終我們還會(huì)遇到瓶頸,例如到底如何才能讓機(jī)器人具備更加真實(shí)的人類性格與情感胰苏,這還是需要和心理學(xué)家合作硕蛹。
其實(shí),最早的聊天機(jī)器人Eliza就是一個(gè)心理咨詢師硕并。大概50多年前法焰,MIT的一位研究員Joseph開發(fā)了Eliza,在與用戶聊天時(shí)倔毙,Eliza引入了心理學(xué)家羅杰斯提出的個(gè)人中心療法(Person-Centered Therapy)埃仪,更多強(qiáng)調(diào)對(duì)話態(tài)度,比如尊重與同理心陕赃。Eliza其實(shí)自己并不主動(dòng)說新內(nèi)容卵蛉,它更多的是一直在引導(dǎo)用戶說話盡可能傾訴颁股。看似討巧的Eliza項(xiàng)目取得了意外的成功傻丝,它的效果讓當(dāng)時(shí)的用戶非常震驚甘有。以致于后來產(chǎn)生一個(gè)詞匯,叫ELIZA效應(yīng)葡缰,即高估了機(jī)器人能力的一種心理感覺亏掀。ELIZA效應(yīng)其實(shí)現(xiàn)在也很常見,比如擊敗頂尖高手的AlphaGo一出現(xiàn)泛释,人們便覺得電腦已經(jīng)具有下圍棋的靈感滤愕,人工智能馬上要超越人類。但其實(shí)怜校,AlphaGo背后所有的程序都是人寫的该互。所謂的靈感,所謂的智能韭畸,實(shí)際最終都是程序?qū)崿F(xiàn)的宇智。
受ELIZA項(xiàng)目啟發(fā),微軟亞洲研究院也開展了DiPsy項(xiàng)目胰丁,這個(gè)項(xiàng)目的目標(biāo)是讓機(jī)器人能夠和人聊天随橘,幫助他們克服心理上的問題。在這個(gè)項(xiàng)目中锦庸,我們借鑒了心理咨詢中常用的認(rèn)知行為療法(Cognitive Behavior Therapy) 和正念療法(Mindfulness)机蔗。DiPsy的特點(diǎn)是以自然、有效的方式引導(dǎo)對(duì)話甘萧,讓用戶盡情傾訴萝嘁。它還會(huì)研究用戶心理過程,在數(shù)據(jù)驅(qū)動(dòng)下扬卷,對(duì)用戶的心理特質(zhì)與精神障礙作出診斷牙言。我們采取認(rèn)知行為療法(CBT)或早期干預(yù),在各種治療性的語(yǔ)境中怪得,改變用戶的思維與行為方式咱枉,幫助存在風(fēng)險(xiǎn)的用戶緩解并管理心理問題。
在未來徒恋,我們期待這個(gè)項(xiàng)目能幫助解決實(shí)際的社會(huì)問題蚕断,例如農(nóng)村留守兒童的心理疏導(dǎo)。在前不久舉辦的未來論壇上入挣,微軟全球執(zhí)行副總裁沈向洋說亿乳,他想要解決三個(gè)和人腦息息相關(guān)的疾病:兒童自閉癥径筏、中年憂郁癥葛假、老年癡呆癥河爹。我希望我們的技術(shù)能幫助他做到這一點(diǎn)。當(dāng)然桐款,這些研究項(xiàng)目很多都還在起步階段,里面涉及到很多跟其他領(lǐng)域?qū)W者的合作夷恍,包括心理學(xué)魔眨,社會(huì)學(xué)以及認(rèn)知科學(xué)。希望未來可以和更多學(xué)科交流酿雪,獲得更多研究上的靈感和創(chuàng)新遏暴。
我們希望最終能實(shí)現(xiàn)讓機(jī)器擁有像人一樣的思維,并在人需要時(shí)能提供不僅幫助指黎,還能陪伴朋凉。當(dāng)你孤獨(dú)時(shí),至少有個(gè)AI與你在一起醋安。
知識(shí)圖譜:
皮爾遜系數(shù):用于度量?jī)蓚€(gè)變量X和Y之間的相關(guān)(線性相關(guān))杂彭,其值介于-1與1之間。在自然科學(xué)領(lǐng)域中吓揪,該系數(shù)廣泛用于度量?jī)蓚€(gè)變量之間的相關(guān)程度亲怠。
集成學(xué)習(xí):使用一系列學(xué)習(xí)器進(jìn)行學(xué)習(xí),并使用某種規(guī)則把各個(gè)學(xué)習(xí)結(jié)果進(jìn)行整合從而獲得比單個(gè)學(xué)習(xí)器更好的學(xué)習(xí)效果的一種機(jī)器學(xué)習(xí)方法柠辞。