目錄
- 序
- 一些人
- 一些想法
- 一些有趣的事物
- 一種可能的未來
序
2014年11月11-13日囤踩,我到巴塞羅那參加了一個社會信息學(xué)會議则果。社會信息學(xué) (Social informatics) 是一個有點(diǎn)年代的詞厉亏,現(xiàn)在已經(jīng)有更流行的表達(dá)价捧,叫計(jì)算社會科學(xué)(computational social science)。這個會議主要討論社會科學(xué)家如何利用大規(guī)模數(shù)據(jù)和算法來研究人類行為让蕾。
記錄中我隱去了人們的英文名浪规。對復(fù)雜網(wǎng)絡(luò)和計(jì)算社會科學(xué)了解的朋友,自然知道這些人是誰探孝;不了解的朋友笋婿,也不至于因?yàn)榭吹讲皇煜さ挠⑽拿a(chǎn)生距離感,只當(dāng)是小說看便可顿颅。
一些人
梅西
梅西的眼睛大小不太對稱缸濒,這使得他笑容里有一種努力生活的倔強(qiáng)。他的滿頭銀發(fā)在會議中格外顯眼粱腻。射燈照耀下庇配,仿佛一頂王冠。這種嘉賓的作用類似于紀(jì)念碑與擴(kuò)音器:人們承認(rèn)他們一生的奮斗和掙扎绍些,期待他們把眾人皆知的事實(shí)再大聲重復(fù)一遍捞慌,使聽眾更堅(jiān)定地相信自己站在歷史正確的一邊。
梅西引用瓦茨的話說柬批,大數(shù)據(jù)之于社會科學(xué)啸澡,好比是望遠(yuǎn)鏡之于天文物理:帶領(lǐng)我們看到前所未有的世界,邁過人類行為研究的歷史新起點(diǎn)氮帐。過去半個世紀(jì)里锻霎,我們一直使用基于問卷調(diào)查的數(shù)據(jù)研究人類集體行為。這是個錯誤揪漩。個體不是孤島旋恼,個體屬性也難以解釋人際互動。
他做了一個對比試驗(yàn),使用來自問卷調(diào)查和社交媒體記錄的兩份數(shù)據(jù)解釋美國人的政治傾向冰更,可以講出兩套完全不同的故事产徊,后者比前者更符合邏輯,從數(shù)據(jù)統(tǒng)計(jì)上看也表現(xiàn)更好蜀细。
他又介紹了自己的計(jì)算機(jī)模擬模型:完全不需要考慮年齡舟铜、性別等變量,引入簡單的行為互動規(guī)則奠衔,就可以發(fā)現(xiàn)人們在一個理論空間中從隨機(jī)位置出發(fā)谆刨,最后聚成兩團(tuán)。因此政治立場的兩極分化現(xiàn)象归斤,可能僅僅靠互動就能產(chǎn)生痊夭。
他的團(tuán)隊(duì)還開展了一些研究,使用社交媒體和手機(jī)的百萬用戶規(guī)模數(shù)據(jù)集來驗(yàn)證一些社會學(xué)經(jīng)典理論脏里,例如格蘭諾維特的“弱連帶的強(qiáng)優(yōu)勢”以及亨廷頓的“文明的沖突”她我,等等。
梅西講了快一個小時迫横。畢竟年紀(jì)大了番舆,激情難掩疲憊,語速漸漸慢下來矾踱,聲音也逐漸低沉恨狈。在同齡人中,梅西看到了更遠(yuǎn)的未來呛讲。這使得和他一起成長的社會學(xué)家們都逐漸被淘汰禾怠,他卻仍然可以站在臺上。
然而他所看到的這個未來圣蝎,畢竟不屬于他刃宵。他批評傳統(tǒng)方法衡瓶,又渴望與經(jīng)典理論對話徘公。他的恨和愛、敵人和朋友哮针,都屬于正在逐漸消失的那個時代关面。我想起摩西,他帶領(lǐng)以色列人在曠野中走了四十年十厢,最后在終點(diǎn)的前一站死去等太。
提問環(huán)節(jié)我問梅西,社會科學(xué)家常說自己的研究是為了理解人類行為蛮放,但如果我們真的已經(jīng)理解人類行為缩抡,為何無法預(yù)測呢?
梅西愣了一下包颁,說這是個很尖銳的問題瞻想。他認(rèn)為压真,對人類行為的研究,按照應(yīng)用價值由弱到強(qiáng)可以分為三種蘑险,理解人類行為的某一方面滴肿,但不足以做預(yù)測;見微知著預(yù)判社會的發(fā)展趨勢佃迄;和高精度的預(yù)測泼差。傳統(tǒng)的社會科學(xué)是第一種,現(xiàn)在流行的機(jī)器學(xué)習(xí)方法是第三種呵俏,他更愿意把自己放在兩者之間堆缘。
這真是個聰明的回答。但從中也能看出梅西以及許多像他一樣柴信,受傳統(tǒng)訓(xùn)練套啤,卻面臨時代變革的社會科學(xué)學(xué)者們的糾結(jié)。
瓦茨
瓦茨是澳大利亞人随常,但有一種北歐科學(xué)家的強(qiáng)勢和冷靜潜沦。瞇起眼笑時眉宇間閃爍自信光芒,有點(diǎn)像美劇《越獄》里的弟弟绪氛。我身高一米八一唆鸡,這個傳奇人物站在我面前比我還高半個頭,給我?guī)順O強(qiáng)的壓迫感枣察。我不由自主地挺直了身體争占。
瓦茨是個物理學(xué)家,十五年前以小世界一文成名序目。在哥倫比亞大學(xué)社會學(xué)系用十年將正常人一輩子的路走完臂痕,做到了正教授后離開學(xué)校≡痴牵現(xiàn)在在微軟主持社會計(jì)算實(shí)驗(yàn)室握童。
他的報(bào)告主題是計(jì)算社會科學(xué)的機(jī)遇與挑戰(zhàn)。這個人確實(shí)經(jīng)歷豐富叛赚,聰明異常澡绩。聽他介紹研究思路,令人心曠神怡俺附,好像和烏燕鷗一起掠過遼闊大洋肥卡。
報(bào)告一開始就指出,傳統(tǒng)的社會科學(xué)研究存在局限氛琢。以信息擴(kuò)散為例只嚣,第一個問題是只研究成功的案例,不考慮失敗的案例艺沼;第二個問題是只研究基于人群的總體統(tǒng)計(jì)册舞,不研究個體之間的互動。例如有理論認(rèn)為被信息影響人數(shù)隨時間增加是個S形曲線障般。其實(shí)這類結(jié)論意義不大调鲸,因?yàn)椴还軅€體之間如何互動,總能得到S形曲線挽荡。真正重要的是信息在個體間擴(kuò)散形成的網(wǎng)絡(luò)結(jié)構(gòu)藐石。這兩個局限都是數(shù)據(jù)搜集上的局限。但是在互聯(lián)網(wǎng)上的大規(guī)模個體行為數(shù)據(jù)出現(xiàn)后定拟,這兩個問題都被解決了于微。
他的一個研究區(qū)分了病毒傳播和大眾廣播兩種網(wǎng)絡(luò)結(jié)構(gòu)延窜。前者形成明顯的層級結(jié)構(gòu)恋腕,信息不斷被轉(zhuǎn)發(fā),逐層傳遞逆瑞;后者則是一個單一信息源荠藤,不斷對不同人重復(fù)播放信息來實(shí)現(xiàn)傳播。但不管是哪一種模式获高,受影響人數(shù)隨時間增長總是S曲線哈肖。
他還干過一些很有第谷般美感的扎實(shí)重要的活。例如他使用了六大社交網(wǎng)站的數(shù)據(jù)念秧,將數(shù)千萬個信息傳播事件按照傳播網(wǎng)絡(luò)結(jié)構(gòu)分成幾類模式淤井。他發(fā)現(xiàn),這幾類模式的出現(xiàn)概率出爹,在不同網(wǎng)站內(nèi)是差不多的庄吼。例如缎除,步長為1的傳播事件出現(xiàn)概率大致為99%严就。他說,現(xiàn)在對于任何信息傳播事件器罐,我們都可以實(shí)現(xiàn)99%的預(yù)測準(zhǔn)確率:它們總是在一步內(nèi)結(jié)束梢为。
這當(dāng)然是玩笑,但這是一個意味深長的玩笑。他指出铸董,當(dāng)我們談?wù)撔畔鞑r祟印,我們真正關(guān)心的是小概率的大范圍傳播事件,而這幾乎注定是不可控制和預(yù)測的粟害。此外蕴忆,因?yàn)?0%的信息接受行為都是直接受到信息源影響,因此從營銷的角度悲幅,大眾廣播比病毒傳播更有效套鹅。
介紹完他使用大規(guī)模數(shù)據(jù)集對信息擴(kuò)散的研究后留荔,他總結(jié)了大數(shù)據(jù)的局限吟孙。在使用大數(shù)據(jù)時,研究者不是從研究問題出發(fā)搜集數(shù)據(jù)聚蝶,而是反過來看數(shù)據(jù)能回答什么問題杰妓,因此大數(shù)據(jù)并不總是能直接回答研究者真正感興趣的問題。另外在大數(shù)據(jù)中很難獲得清晰的因果關(guān)系碘勉。為了克服這些局限稚失,有必要進(jìn)行控制實(shí)驗(yàn)。
他為了考察組織結(jié)構(gòu)對組織運(yùn)行效率的影響恰聘,設(shè)計(jì)了一個游戲句各,不同組織結(jié)構(gòu)的小組被要求摸索一個三維空間。組員只能看到局部地圖晴叨,需要彼此溝通來共同探索全局凿宾。最后小組合力找到的最高峰越高,得分越多兼蕊。實(shí)驗(yàn)發(fā)現(xiàn)信息不對稱的組織結(jié)構(gòu)反而有利于分工合作初厚。組員之間完全平等自由地交流,效果并不好孙技。
他又指出产禾,控制實(shí)驗(yàn)也有自己的局限。參與者在實(shí)驗(yàn)室的人造環(huán)境內(nèi)完成指定任務(wù)牵啦,與真實(shí)社會差別極大亚情。因此他做了一些開放環(huán)境下的實(shí)驗(yàn),把實(shí)驗(yàn)搬到真實(shí)的網(wǎng)絡(luò)環(huán)境中哈雏,利用亞馬遜的Mechanical Turk平臺來外包任務(wù)楞件。他開玩笑說衫生,這種實(shí)驗(yàn)妨马,最難的部分在于保證參與者按時出現(xiàn)我纪。所以他設(shè)計(jì)了“等候室”制度:事先多招一些實(shí)驗(yàn)參與者帖汞,保證每個實(shí)驗(yàn)都有備選人員侦锯,一旦正式參與者沒有出現(xiàn)铺敌,就派備選人員頂上捉兴。這讓我想起騰訊游戲的類似制度变骡。
他說茴肥,其實(shí)即使是開放環(huán)境下的實(shí)驗(yàn)还最,也很難令人滿意西篓。這些實(shí)驗(yàn)對于解決真正的合作型任務(wù),仍然只是模擬憋活,還不夠真實(shí)岂津。能不能設(shè)計(jì)出這樣系統(tǒng),使得人們既解決真正的問題悦即,同時又在提供著實(shí)驗(yàn)數(shù)據(jù)吮成?
他最近的一項(xiàng)工作是使用社交媒體進(jìn)行自然災(zāi)害的實(shí)時監(jiān)測和預(yù)測。他們構(gòu)建了一個叫Standby Task Force的系統(tǒng)辜梳,組織全球志愿者通過人工標(biāo)注的方式對自然災(zāi)害的損害情況進(jìn)行實(shí)時標(biāo)注粱甫,為政府和和非盈利組織的救援資源部署提供信息。最新案例是2014年8月對菲律賓臺風(fēng)的過境路線及損害情況的實(shí)時監(jiān)控作瞄。
有趣的是茶宵,這個系統(tǒng)不僅具有實(shí)際功能,也同時是一個大實(shí)驗(yàn)室宗挥。瓦茨的研究團(tuán)隊(duì)在背后控制和觀察著志愿者的組織方式乌庶。例如他們發(fā)現(xiàn)小的組織比大的組織能更有效地行動。小組成員超過32個人后合作成本上升非常厲害契耿。另外瞒大,在小組的形成中,志愿者們會自發(fā)地形成不同分工角色搪桂。其中有些角色之間的切換比另一些角色更容易透敌。
瓦茨說,這個系統(tǒng)現(xiàn)在正在持續(xù)工作著踢械,不停地產(chǎn)生大量數(shù)據(jù)酗电,好比一個天然實(shí)驗(yàn)室,為我們觀察人類的分工合作提供了寶貴的資料内列。通過對這類資料進(jìn)行研究撵术,我們可以建立一個新的學(xué)科分支:“數(shù)字民族志”。
瓦茨像是一個科學(xué)游俠蕴纳。縱觀他的研究歷史个粱,經(jīng)歷了物理建模 - 數(shù)據(jù)挖掘 - 心理實(shí)驗(yàn) - 社會實(shí)驗(yàn) - 社會工程這幾個階段古毛。他不斷地使用新的方法,又不斷突破著方法的局限都许。
在這樣的背景下稻薇,他強(qiáng)大的研究執(zhí)行力令我印象深刻。很多人能想出不少有趣的主意胶征,但像他這樣在不斷學(xué)習(xí)應(yīng)用新方法的同時塞椎,把略帶新穎的每個主意都變成現(xiàn)實(shí),還是比較少見的睛低。這不僅需要高度的理解力和想象力案狠,還需要管理科研團(tuán)隊(duì)必須的溝通和組織能力。
在茶歇期間钱雷,我向他介紹了我對信息擴(kuò)散研究的新思路:集體注意力的幾何模型骂铁。我說,在用戶網(wǎng)絡(luò)上研究信息資源的擴(kuò)散有兩個問題罩抗,一是系統(tǒng)中沒有守恒量拉庵,二是用戶網(wǎng)絡(luò)的背景空間沒有物理意義。但如果我們反過來研究集體注意力在信息資源之間的流動套蒂,那這兩個問題就都解決了钞支。一段時間內(nèi)社會系統(tǒng)的總注意力接近常量,使我們可以寫下方程來描述其流動操刀;另外注意力的流動空間伸辟,其實(shí)是具有物理意義的特征空間。如果是標(biāo)簽系統(tǒng)馍刮,就類似于語義空間信夫,其地貌就是人類的共有知識輪廓。這樣卡啰,我們就可以使用經(jīng)典物理在描述連續(xù)時空上的一些幾何工具静稻,來研究信息擴(kuò)散了。這種理論匈辱,將會既優(yōu)雅又實(shí)用振湾。
我說的時候瓦茨聽得很認(rèn)真。說完后亡脸,他笑了押搪,說你是物理系的嗎树酪。
我說我不是。我接受的是社會科學(xué)的訓(xùn)練大州,但我是一個物理學(xué)愛好者续语。
瓦茨說,經(jīng)過這么多年研究厦画,他不大相信一個理論可以既優(yōu)雅又實(shí)用疮茄。大范圍的信息傳播現(xiàn)象本身就是小概率事件,受到大量不確定因素影響根暑,要想給出簡單的物理模型幾乎是不可能的力试。即使這種模型存在,也一定有一個解釋力上界排嫌。注意力在特征空間中的流動畸裳,這種想法或許值得一試,但要說簡單的幾何模型可以與同時考慮成千上萬變量的機(jī)器學(xué)習(xí)模型在預(yù)測準(zhǔn)確率方面較量淳地,是令人懷疑的躯畴。
拉達(dá)
拉達(dá)的個人主頁上有一張年輕時貌美如花的照片,成功地誤導(dǎo)著全世界的人民群眾薇芝。我第一天走進(jìn)會場的時候蓬抄,一個平易近人的美國大媽坐在邊上。我說完借過后夯到,覺得這個人有點(diǎn)面熟嚷缭,后來想起來了,她就是拉達(dá)耍贾。
拉達(dá)與瓦茨的經(jīng)歷有些類似阅爽。加州理工物理系畢業(yè),十五年前出道荐开,跟隨一個大名在HP實(shí)驗(yàn)室研究互聯(lián)網(wǎng)中的物理規(guī)律付翁。后來進(jìn)入學(xué)界,在密歇根呆過幾年晃听,拿到終身教席后離開百侧,現(xiàn)在在Facebook領(lǐng)導(dǎo)一個團(tuán)隊(duì)做數(shù)據(jù)挖掘。
雖然經(jīng)歷類似能扒,但兩人氣場完全不同佣渴。拉達(dá)穿著一件舊套頭衫,坐在人群中沒有絲毫存在感初斑。魚尾紋已浮上眼角辛润,笑起來卻有少女模樣。
拉達(dá)是下午做報(bào)告见秤,但她上午就到了會場旁聽砂竖。我在茶歇時真椿,把我的注意力流幾何化思路對她又說了一遍。她向我提起了樂曼乎澄,一個南加州研究信息傳播的女大名突硝。樂曼的東西我看過,和我說的東西不太一樣三圆。她只是使用了信息資源間為爭奪集體注意力而進(jìn)行競爭的概念狞换,并沒有明確指出可以構(gòu)建注意力網(wǎng)絡(luò)并將之嵌入特征空間避咆,更不用說幾何化了舟肉。聊了一會后,我看出拉達(dá)臉色有點(diǎn)差查库。她告訴我剛下飛機(jī)路媚,還有點(diǎn)時差影響,腦袋有點(diǎn)暈樊销。
或許是她回賓館午休了整慎,或許是她的職業(yè)素質(zhì)使然,到了下午她一站上講臺围苫,整個人忽然熠熠生輝了裤园。拉達(dá)的報(bào)告也是信息擴(kuò)散,同樣給人絕妙享受剂府。但這次不是在大洋上翱翔拧揽,而是好比端坐松下,溪水叮咚腺占,清風(fēng)徐來淤袜。
她利用Facebook的數(shù)據(jù)的優(yōu)勢,做了大量的實(shí)證研究衰伯,來考察影響信息傳播的關(guān)鍵因素铡羡。結(jié)論是時間(已經(jīng)傳播的將會繼續(xù)傳播)比結(jié)構(gòu)重要,結(jié)構(gòu)比內(nèi)容重要意鲸。如果綜合考慮所有因素烦周,對于大規(guī)模傳播事件的下一步傳播范圍的預(yù)測可以達(dá)到接近80%的精度。但這是實(shí)時機(jī)器學(xué)習(xí)并預(yù)測的結(jié)果怎顾,要在事件尚未爆發(fā)時就進(jìn)行預(yù)測论矾,正如瓦茨所言,幾乎是不太可能的杆勇。
她講完以后贪壳,我走過去由衷地稱贊她講得很好。信息擴(kuò)散是一個容易做得很瑣屑或者脫離實(shí)際的主題蚜退,但她做得東西確實(shí)既重要又有趣闰靴。她再次露出了與年齡不符的純真微笑彪笼。這令我印象深刻,像她這種大名蚂且,居然還會因?yàn)槁啡它c(diǎn)贊而高興配猫。
丹尼
來自巴塞羅那的雅虎實(shí)驗(yàn)室的丹尼介紹了一個思路詭異的城市導(dǎo)航系統(tǒng)淑翼。通常來說腐巢,導(dǎo)航的目的是找到兩地之間的最短路徑。他設(shè)計(jì)了新的導(dǎo)航系統(tǒng)玄括,除了最短路徑外冯丙,還可以告訴大家“最美麗”,“最快樂”遭京,“最安靜”胃惜,“最懷舊”等路徑。
這種導(dǎo)航的核心技術(shù)是將地理位置與人類集體情感進(jìn)行關(guān)聯(lián)哪雕〈常基礎(chǔ)數(shù)據(jù)包括兩個部分,一部分是對用戶在該地理位置上傳照片的文字標(biāo)簽進(jìn)行情感分析斯嚎;另一部分是利用前一類數(shù)據(jù)進(jìn)行訓(xùn)練利虫,使得機(jī)器可以自動對無標(biāo)注照片進(jìn)行情感分析,例如訓(xùn)練中發(fā)現(xiàn)孝扛,“孤立的大樓”列吼,“繁忙的交通”給人帶來負(fù)面的情感,而“綠色的草地”苦始,“湖水”寞钥,則給人以正面的情感。
丹尼說陌选,機(jī)器智能讓人類社會越來越高效理郑,但許多時候,大家并不開心咨油。衡量一個城市您炉,一個國家是否成功,不能僅僅看創(chuàng)造了多少物質(zhì)財(cái)富役电,更需要看生活在其中的居民是否開心赚爵。
丹尼說,我希望我的工作能使普通人更開心。
德克
其實(shí)我算是德克的粉絲冀膝,但在他來作報(bào)告之前唁奢,我并不知道這一點(diǎn)。
城市的異速增長窝剖,疾病傳播的有效距離麻掸,文化歷史的網(wǎng)絡(luò)模型, 科學(xué)研究關(guān)鍵詞的遷移。近年來許多描述人類集體行為的漂亮模型赐纱,背后都有德克的影子脊奋。但幾乎在每篇論文里,他的名字都掛在中間不起眼的位置上疙描。直到他在報(bào)告中展示了許多成果诚隙,我上網(wǎng)查了一下,才被其涉獵之廣所震撼淫痰。
德克現(xiàn)在是蘇黎世聯(lián)邦理工學(xué)院社會學(xué)系的主任最楷。身高一米九整份,留著星際迷航里斯波克的奇怪發(fā)型待错,透著一股典型的北歐精英氣質(zhì)。一個社會學(xué)系能讓德克這種物理學(xué)家領(lǐng)導(dǎo)烈评,令人吃驚火俄。
德克的講座氣勢恢宏。
人類歷史的幾次技術(shù)革命以及隨之而來的人力資源在產(chǎn)業(yè)間重新分配讲冠。世界各個國家所處的產(chǎn)業(yè)鏈位置及發(fā)展預(yù)測瓜客。人類的各類行為:交通流動、輿論形成竿开、沖突合作谱仪、文化變遷、資源消耗否彩、疾病傳播疯攒,所對應(yīng)的物理學(xué)模型(而他的名字都列在其中)。
古今幾千年列荔,環(huán)球數(shù)萬里敬尺,最后終于到了本次報(bào)告的核心。他呼吁大家加入他主導(dǎo)的計(jì)劃:行星級神經(jīng)感知系統(tǒng)贴浙。加入的方式很簡單砂吞,就是大家注冊自己手機(jī),并保持開啟傳感器崎溃,不停地傳輸數(shù)據(jù)到服務(wù)器蜻直。數(shù)據(jù)將被匿名化處理后在歐盟法律的框架內(nèi)使用。
這些數(shù)據(jù),德克說概而,將會使我們對人類社會的認(rèn)識上升到一個全新的高度唤殴。例如下圖,展示了意大利米蘭志愿者的手機(jī)GPS數(shù)據(jù)是如何被分析的到腥。左圖是數(shù)據(jù)全集用戶移動距離的長尾模型朵逝,但通過對移動路徑進(jìn)行聚類,可以識別出三大類不同的工作-家庭往返路徑乡范。這三個子類里配名,移動距離都是正態(tài)分布的,這說明對于每一類人群的移動行為晋辆,都存在有代表性的平均描述渠脉。這種分析,對于優(yōu)化交通系統(tǒng)非常有幫助瓶佳。而對人類移動行為的分析芋膘,只是在我們有了手機(jī)各項(xiàng)傳感器的數(shù)據(jù)后,可以做的許許多多事情中的一小項(xiàng)霸饲。
德克的報(bào)告讓我非常感概为朋。以前也聽說過歐美科研體制極為不同。前者是是大軍團(tuán)集中作戰(zhàn)厚脉,后者是小團(tuán)體分散作戰(zhàn)习寸。歐洲經(jīng)常有一些超大型項(xiàng)目,比如歷經(jīng)近十一年傻工,耗資十多億歐元的羅塞塔號項(xiàng)目霞溪;歷時三十多年,耗資四十多億歐元的大型強(qiáng)子對撞機(jī)中捆。其實(shí)類似的項(xiàng)目美國都考慮過鸯匹,但最終議會無法審核通過。而歐洲的這些大手筆投資也都得到了回報(bào):去年(2013年3月14日)歐洲核子研究組織公開確認(rèn)了希格斯粒子的發(fā)現(xiàn)泄伪;上周(2014年11月12日)羅塞塔號終于實(shí)現(xiàn)了人類首次登陸彗星殴蓬。這種浩大工程的成功,與德克這種充滿野心又具有高度執(zhí)行力的科學(xué)精英是分不開的臂容。
德克的報(bào)告結(jié)束后科雳,我找到德克又把集體注意力的幾何結(jié)構(gòu)說了一遍。他表示了高度的興趣脓杉。我也感覺到他比瓦茨和拉達(dá)都更能理解和認(rèn)同我的思路糟秘,可惜的是由于有其他事情要離開,他無法出席我的報(bào)告了球散。他建議我把報(bào)告的材料發(fā)給他尿赚。
法布
在飛機(jī)上我正在臨時抱佛腳地準(zhǔn)備幻燈片,有個人從背后捅了我一下。我轉(zhuǎn)頭看到一個留著披頭長發(fā)凌净,體態(tài)敦實(shí)悲龟,皮膚黝黑,眉毛濃密的中年男人冰寻。他說自己也去開這個會须教。他看過我的論文,覺得思路很獨(dú)特斩芭。我們隨意攀談了幾句轻腺。
法布是印第安納大學(xué)社會學(xué)系的副教授。我懷疑他是印第安人划乖。他身上有一種奇怪的讓時鐘變慢的氣質(zhì)贬养。飛機(jī)上他坐我斜后方,我過一段時間再轉(zhuǎn)頭看他時琴庵,他已經(jīng)把深藍(lán)色的毛毯搓成長條误算,將自己眼睛包起來,身體斜抵在前面位子的坐墊上迷殿,雙手垂在身體兩側(cè)儿礼,好像一個人質(zhì)那樣沉沉睡去。
會議第一天茶歇我遇到他贪庙。他向我抱怨時差問題很嚴(yán)重蜘犁。我昨天睡了整整一天翰苫,現(xiàn)在還不舒服止邮。他看上去有點(diǎn)憂郁。
會議第二天集體晚餐時我遇到他奏窑,他偷偷從包里掏出一件黑色的T恤給我看导披。上面有一只白色線條的海豚和一堆不知道是什么的幾何形狀。他說這是他逛街的收獲埃唯。本來給女兒找禮物 - 她過幾天就要生日 - 但沒找到小號的撩匕,就自己買了。
我問他女兒幾歲了墨叛。六歲止毕,他笑起來。
會議最后一天漠趁,最佳論文頒獎扁凛。他用兩只手氣勢恢宏地把長發(fā)從前往后一撣,變成了武狀元蘇乞兒里頭發(fā)被周星馳打散后的趙無極闯传,昂首走上主席臺谨朝。原來他是委員會成員。他語速突然變快了很多,微笑著宣布獲獎?wù)咦直遥偨Y(jié)陳詞则披,握手合照,一切都行云流水洗出。
會議結(jié)束士复,走下臺,他又變回蔫蔫的了翩活。
我向他告別判没。他突然說,人們需要時間來理解你的研究隅茎。我們要保持聯(lián)系澄峰。你的研究才剛剛開始,等有了新的進(jìn)展了辟犀,一定要把論文寄給我看一下俏竞。
這是他第二次,也是最后一次提到我的研究堂竟。我感激地看了他一眼魂毁,轉(zhuǎn)身離開。
凱莉
凱莉是斯坦福大學(xué)計(jì)算社會科學(xué)中心的行政秘書出嘹。在我動身前往巴塞羅那之前席楚,凱莉就通過論文的共同作者王成軍,聯(lián)系到了我税稼。她查看了本次會議的報(bào)告主題列表烦秩,選擇了一些覺得有趣的研究主題和團(tuán)隊(duì)來做采訪,打算做一個長篇新聞郎仆,并在他們研究中心的郵件組里發(fā)布只祠。
凱莉是典型的加州女孩,今年二十四歲扰肌,沒有開會的時候喜歡畫著煙熏妝抛寝,穿著吊帶背心滿街跑∈镄瘢可以看出她正處從學(xué)生到職業(yè)人士的過渡階段盗舰。從這個意義上說和我類似。
我們迅速成為了朋友桂躏,談?wù)撝绹蜌W洲的不同钻趋,學(xué)生與工作的區(qū)別。她們的中心是一個很有意思的地方沼头,似乎在刻意打破正式課程與培訓(xùn)工作坊爷绘,教授與行政職員之間的邊界书劝。我們在許多問題上達(dá)成了一致,例如都認(rèn)為計(jì)算社會科學(xué)不是社會科學(xué)的一個分支土至,而是一個過渡階段购对。就好像信息技術(shù)改變生物學(xué)一樣,未來大部分的社會科學(xué)都是可計(jì)算的陶因。另外骡苞,我們也都相信開放大學(xué)和網(wǎng)絡(luò)課程將打破原有的大學(xué)和學(xué)院體系,大學(xué)會變得更加去中心化楷扬。
一些想法
社會學(xué)理論的式微
在未來二十年內(nèi)解幽,可計(jì)算趨勢將繼續(xù)蠶食現(xiàn)有的社會科學(xué)各領(lǐng)域。現(xiàn)在計(jì)算機(jī)科學(xué)家與社會科學(xué)家合作時烘苹,還比較容易被社會學(xué)理論和一些大名唬住躲株,但這個狀況持續(xù)不了多久。大而無當(dāng)?shù)纳鐣W(xué)理論們镣衡,在二十年內(nèi)將像技窮的黔驢那樣霜定,被老虎吃掉。其實(shí)人們分辨出什么是好的研究廊鸥,什么是差的研究是很快的望浩,之所以需要二十年,因?yàn)檫@個時間是現(xiàn)在的博士生拿到教席惰说,逐漸掌握科學(xué)基金分配和期刊論文評審等影響學(xué)科范式的權(quán)力所需要的時間磨德。
一個自然而然的后果就是,像美國社會學(xué)評論和美國經(jīng)濟(jì)學(xué)評論這樣的刊物和背后的學(xué)會吆视,如果不及時轉(zhuǎn)型典挑,推出Open Access的,強(qiáng)調(diào)大數(shù)據(jù)與大實(shí)驗(yàn)的新子刊揩环,還是像以前那樣把對傳統(tǒng)理論的梳理和考據(jù)當(dāng)做是科研工作的核心搔弄,將面臨被淘汰的命運(yùn)。
下面舉兩個例子說明丰滑。
本次開會,在博士生報(bào)告中最令我印象深刻的有兩位倒庵。一個是來自斯坦福的Bogdan State褒墨,他使用LinkedIn數(shù)據(jù)考察世界人才的跨區(qū)域流動。另一個是來自Rice State U的Lu Chen擎宝,她使用Twitter來研究美國人的宗教信仰郁妈。其中前者獲得了最佳論文掘而。
這兩個研究顯然意義重大寻仗,涉及了社會學(xué)中最核心的問題:職業(yè)與宗教信仰。在大規(guī)模數(shù)據(jù)面前芋酌,許多以前無法回答的問題都可以被直接解答。例如Lu Chen考察了人們是否更傾向于關(guān)注具有相同宗教信仰的人(是的)胃碾;不同宗教信仰的人談?wù)摰脑掝}是否有區(qū)別(沒有)涨享;從文本內(nèi)容和朋友關(guān)系來預(yù)測宗教信仰,哪一個效果更好(后者)等等仆百。Bogdan State發(fā)現(xiàn)厕隧,美國吸引到的人才在減少,而東亞地區(qū)吸引到的人才在增加俄周。
在這兩個案例中吁讨,尋求傳統(tǒng)社會學(xué)理論的指導(dǎo)是意義不大的。大部分有意義的研究問題都被數(shù)據(jù)直接解答了峦朗,因此不必像傳統(tǒng)社會學(xué)研究那樣建丧,靠日常經(jīng)驗(yàn),想象和邏輯推理來克服數(shù)據(jù)的匱乏波势。就像瓦茨和拉達(dá)的研究完全沒有從社會學(xué)的信息擴(kuò)散理論得到任意有意義的幫助一樣茶鹃,這兩個研究也是拋開文獻(xiàn)進(jìn)行的。未來這種例子會越來越多艰亮。
以小博大的秘訣
科研的競爭闭翩,就好像市場競爭一樣。小公司靠想法取勝迄埃,大公司靠執(zhí)行取勝疗韵。如果小團(tuán)隊(duì)的想法不是若干倍好于大團(tuán)隊(duì),就會被打敗侄非。
優(yōu)雅的東西可以有用嗎
飛機(jī)上有一個雜志廣告引起了我的注意蕉汪。這是一個叫做Serenity Pod的東西。有兩個版本逞怨,大的給人睡者疤,一萬美金;小的給寵物睡叠赦,一千美金驹马。我以前見過這個東西,但這次引起我注意的是廣告語:“具備使用功能的藝術(shù)品”除秀。明知是噓頭糯累,還是有點(diǎn)感慨。
就像科學(xué)册踩,最純粹的科學(xué)可能真的是好奇心驅(qū)動泳姐,不知道有什么用的。但是作為一個科學(xué)家暂吉,如果自己做的東西既優(yōu)美胖秒,又有實(shí)用價值缎患,必然會產(chǎn)生非常強(qiáng)烈的滿足感。同時從生存的角度阎肝,科研團(tuán)隊(duì)需要消耗資源挤渔,也必然要求科學(xué)家思考自己研究的應(yīng)用價值。其實(shí)這未嘗不是一件好事盗痒,有時候一些約束的存在蚂蕴,反而使創(chuàng)造力更強(qiáng)地爆發(fā)出來。
一些有趣的事物
畢加索藝術(shù)館與高迪教堂
畢加索藝術(shù)館和高迪教堂(當(dāng)?shù)亟猩袷ゼ易褰烫茫┒既チ烁┑耍X得高迪明顯是比畢加索更偉大的人物骡楼。
畢加索確實(shí)很厲害,從古典的油畫技藝出發(fā)一路探索稽鞭,就像瓦茨那樣不斷克服自己的局限鸟整。從他的早期手稿中,可以看出他嘗試從傳統(tǒng)油畫中剝離出一些要素朦蕴,看看單就這些要素是否足以表達(dá)原有的主題篮条。例如只保留光影,或則只保留線條吩抓。后來等到風(fēng)格成熟涉茧,他已經(jīng)完全可以脫離傳統(tǒng)方法來表達(dá)更強(qiáng)烈的情感,但還是經(jīng)常同一主題畫好幾遍疹娶。雖然這些畫在旁人看來都是扭曲的伴栓,但什么樣的扭曲效果最有沖擊力,也是經(jīng)過大量實(shí)驗(yàn)的雨饺。
如果說畢加索的大膽嘗試使其成為現(xiàn)代藝術(shù)的重要部分钳垮,高迪的天賦則是不但脫離了他的時代,而且也不像是我們這個時代的產(chǎn)物额港。藝術(shù)家饺窿、科學(xué)家、建筑師高迪做出來的東西移斩,有一種強(qiáng)烈的外星人黑科技的感覺肚医。
在他的作品里,可以尋找到像植物果實(shí)和葉子裝飾這樣的經(jīng)典元素叹哭,也可以看到很現(xiàn)代的使用極簡主義的幾何結(jié)構(gòu)來表達(dá)人物的方法忍宋,還可以發(fā)現(xiàn)充滿未來感的,將幾何體變形的過程凝固下來當(dāng)做是建筑部件的做法风罩。大理石,玻璃舵稠,黃銅超升,被天衣無縫地拼接在一起入宦,給人極大的震撼。
<img src="http://ww3.sinaimg.cn/large/e85abbb5jw1emg7kwacwej214g200kjl.jpg" height="100px" alt="一扇偏門的外飾室琢,包含了繁復(fù)的細(xì)節(jié)" width="300px" /> <img src="http://ww3.sinaimg.cn/large/e85abbb5jw1emg7eef8fyj214g200hdt.jpg" height="100px" alt="馬賽克玻璃窗戶乾闰,顏色的過渡充滿美感" width="300px" />
<img src="http://ww3.sinaimg.cn/large/e85abbb5jw1emg7woq7ymj21kw0vyaxc.jpg" height="100px" alt="Word Cloud并不是大數(shù)據(jù)時代才有的可視化工具,高迪已經(jīng)用過了" width="400px" /> <img src="http://ww2.sinaimg.cn/large/e85abbb5jw1emg7x9wj50j21kw0vytuw.jpg"alt="另一種材質(zhì)的Word Cloud" height="100px" width="400px" />
參觀完位于地下的資料館症汹,了解了一些建筑部件是如何被制造出來的后硫朦,更令人贊嘆。
<img src="http://ww2.sinaimg.cn/large/e85abbb5jw1emg7ry0ntdj21kw0vyx21.jpg" alt="以吊著沙袋的麻繩來展示懸鏈線" height="100px" width="400px" />
懸鏈線背镇。教堂所有的拱頂都是懸鏈線咬展,這個困惑了達(dá)芬奇及伽利略等人一百七十年,最終由伯努利弟解決的幾何結(jié)構(gòu)瞒斩。在一個玻璃櫥窗有一個裝置破婆,以眾多吊著沙袋的麻繩來展示懸鏈線。這個裝置的天花板是一面鏡子胸囱,鏡子里麻繩的倒影勾勒出了教堂的頂部形狀祷舀。
<img src="http://ww1.sinaimg.cn/large/e85abbb5jw1emg7turjqoj21kw0vyqjj.jpg" alt="柱子展示了多邊形的變形過程" height="100px" width="400px" />
變形柱。一個角落里有一根石膏柱旺矾,右側(cè)六個角蔑鹦,左側(cè)十二個角。有一個像齒輪一樣的鐵片在柱子上來回打磨箕宙,當(dāng)鐵片靠近角比較多的那邊時嚎朽,就逐漸旋轉(zhuǎn)一個小角度。這樣柬帕,一側(cè)比另一側(cè)多一倍角哟忍,而中間又是光滑過渡的。
<img src="http://ww4.sinaimg.cn/large/e85abbb5jw1emg7umzhgxj21kw0vyni7.jpg"alt="沙漏體" height="100px" width="400px" />
沙漏體陷寝。用麻繩在兩個平行的鐵圈間纏繞锅很,而后進(jìn)行澆筑。
<img src="http://ww4.sinaimg.cn/large/e85abbb5jw1emg7vevhebj21kw0vy4jg.jpg" alt="立柱骨節(jié)" height="100px" width="400px" />
立柱骨節(jié)凤跑。由多個MM豆拼湊而成爆安,在沒有計(jì)算機(jī)的一百年多前,不知道這個這個東西是怎么制造的仔引。
邊邊角角
涂鴉
教堂
一種可能的未來
我認(rèn)為扔仓,對人類集體行為的幾何描述褐奥,將是非常有潛力的一個大方向。具體到我本次報(bào)告的內(nèi)容翘簇,集體注意力的幾何模型撬码,也不是拍腦瓜想出來的,而是是我和Jake一起探索了若干年的結(jié)果版保。為
至于什么要走幾何化這條路呜笑,我以前在集智俱樂部人工智能郵件組(歡迎加入)里回答過一個朋友的問題:
“復(fù)雜網(wǎng)絡(luò)對于研究問題的優(yōu)勢在哪里呢?”
那個答案基本上把思路表達(dá)得比較清楚了彻犁。改編摘錄如下:
以前的“主流”科學(xué)道路是還原論的叫胁。從基本粒子的運(yùn)動規(guī)律出發(fā),希望能一路解釋化學(xué)反應(yīng)袖裕,大分子曹抬,生命機(jī)理,心理學(xué)急鳄,社會運(yùn)動谤民。所以人類要花那么多錢在歐洲大型強(qiáng)子對撞機(jī)上,因?yàn)橐詾榛玖W痈愣思埠辏O露际莇etails了张足。1987年美國做了幾十億預(yù)算要搞超級超導(dǎo)對撞機(jī)(SSC),就是被高能物理學(xué)家洗腦了坎藐,后來跳出來一個Anderson反對为牍,最后國會撤資,項(xiàng)目下馬了岩馍。
...
我覺得美國沒有被蘇聯(lián)拖垮碉咆,就是因?yàn)橛性S多Anderson這種聰明人。他1972年的More is different至今被圣塔菲內(nèi)部的讀書小組列為25篇必讀文獻(xiàn)之一蛀恩。這篇文章的觀點(diǎn)就是反擊粒子物理的霸權(quán)主義疫铜,說明我們關(guān)注的對象,能量級每上一個臺階双谆,其計(jì)算復(fù)雜性增加的程度使得你根本沒辦法靠底層知識來理解這個層次的行為壳咕。所以說,More is different顽馋,科學(xué)得各玩各的谓厘,不能大家都看你高能物理學(xué)家玩,把全社會的錢都給你買玩具寸谜。
...
Anderson的思想很先進(jìn)竟稳,也是比較早說涌現(xiàn)的人之一。但遺憾的是照他的看法,科學(xué)不可能統(tǒng)一了住练。這種放棄統(tǒng)一之路的挫折感是巨大的地啰。一個真正的求知者必然面對這個問題:A unified theory of everything到底存不存在愁拭?尋找事物之間的差異讲逛,那不是什么偉大科學(xué)洞察,那是任何一個原始人都能做出的自然觀察岭埠。古老的科學(xué)傳統(tǒng)中最核心的地方盏混,就是堅(jiān)信世界是可以被以簡單的方式理解的。
...
現(xiàn)在的復(fù)雜網(wǎng)絡(luò)惜论,就是另外一種道路的嘗試许赃。它使得我們對“涌現(xiàn)”的理解更深刻了。More is different, but massive is simple. 我們發(fā)現(xiàn)馆类,當(dāng)一個對象變得非常復(fù)雜的時候混聊,把大量這種對象放在一起,本來應(yīng)該是完全不可理解了才對乾巧,可是好像負(fù)負(fù)得正一樣句喜,它又變得簡單了。復(fù)雜網(wǎng)絡(luò)中到處出現(xiàn)的scaling laws沟于,就是一個證明咳胃。
...
那么,這種新科學(xué)路的期待旷太,對復(fù)雜網(wǎng)絡(luò)研究的要求是什么呢展懈? 天體物理經(jīng)歷了data - pattern (law) - mechanics (dynamics) - principle四個階段(參考集智俱樂部成員王雄的報(bào)告《暢游理論物理的天空之城》)。現(xiàn)在復(fù)雜網(wǎng)絡(luò)的階段差不多是天體物理里開普勒的階段供璧,也就是pattern這個階段存崖。優(yōu)先鏈接模型,小世界模型睡毒,都是mechanics的嘗試来惧,但并不成功,因?yàn)檫@些模型不能同時復(fù)現(xiàn)所有重要的pattern吕嘀。所以下一步需要一個模型來統(tǒng)一解釋所有重要pattern违寞,也就是需要一個牛頓式的工作。
...
舊牛頓統(tǒng)一了天上的規(guī)律和地上的規(guī)律偶房,新時代的牛頓要統(tǒng)一不同層次的復(fù)雜對象相互作用的規(guī)律趁曼。等新牛頓出現(xiàn)之后,要出現(xiàn)一個愛因斯坦式的人物棕洋,把這個動力學(xué)模型幾何化挡闰,或者邏輯化。幾何化的方向就是把動力學(xué)表達(dá)為結(jié)構(gòu),就像愛因斯坦把引力理解為時空彎曲一樣摄悯。網(wǎng)絡(luò)本身的動力學(xué)(節(jié)點(diǎn)和連邊的加加減減)和網(wǎng)絡(luò)上的動力學(xué)(疾病赞季、信息、貨幣奢驯、能量在固定的拓?fù)浣Y(jié)構(gòu)上的傳遞)在新牛頓的模型里應(yīng)該是已經(jīng)被統(tǒng)一起來了的申钩,而這個新愛因斯坦就要完成最終的任務(wù),把這個統(tǒng)一的動力表達(dá)為某種幾何結(jié)構(gòu)瘪阁。當(dāng)然撒遣,實(shí)際進(jìn)程可能不是這樣,新牛頓和新愛因斯坦可能是同一個人管跺,也可能是一群人义黎,或者好幾代人。現(xiàn)在的雙曲空間下的網(wǎng)絡(luò)演化模型豁跑,就兼具新牛頓和新愛因斯坦的味道廉涕,不過當(dāng)然美感還差得遠(yuǎn)。
...
也有可能到時候計(jì)算理論突飛猛進(jìn)艇拍,出現(xiàn)了一條和天體物理不一樣的道路狐蜕,到了新牛頓統(tǒng)一網(wǎng)絡(luò)動力之后,不是走幾何化的道路淑倾,而是走邏輯化的道路馏鹤。人類對通用計(jì)算的本質(zhì)完全理解了,哥德爾不完備定理的意義到時已經(jīng)非常明確了娇哆,甚至工程化了湃累。熵力不但成為主流,甚至人們已經(jīng)找到了它背后的第一計(jì)算原理碍讨。于是治力,動力學(xué)被描述為一種計(jì)算的結(jié)果。
...
不管是動力學(xué)幾何化勃黍,還是動力學(xué)邏輯化宵统,最終的道路就是人類完全突破了經(jīng)驗(yàn)世界的限制,因?yàn)閹缀?邏輯覆获,都是從某種規(guī)范約定出發(fā)马澈,完全是構(gòu)造出來的人造物。在愛因斯坦幾何化式道路那里弄息,這種規(guī)范約定可能是對稱性/各向同性痊班,在圖靈邏輯式道路哪里,這種規(guī)范約定可能是圖靈等價摹量。這兩種約定涤伐,其實(shí)都是同一個樸素信仰在不同符號體系下的表達(dá):我們相信看到的世界馒胆,不管怎么看,都是看到一樣的規(guī)律凝果。當(dāng)然祝迂,這個信仰必須是科學(xué)的核心,因?yàn)椴幌嘈胚@個器净,就沒有科學(xué)了型雳。
其他相關(guān)內(nèi)容,有興趣的可以看我報(bào)告的幻燈片掌动∷膯幻燈片的最后一頁,我為自己的免費(fèi)電子書粗恢,Data Mining in Social Science,做了廣告欧瘪。這本書專門針對沒有任何編程基礎(chǔ)的社會科學(xué)學(xué)生眷射,跟隨本書的例子,可以學(xué)會如何使用Python來獲取佛掖,分析妖碉,可視化互聯(lián)網(wǎng)數(shù)據(jù)。
最后芥被,歡迎中文世界的同學(xué)們持續(xù)關(guān)注集智俱樂部欧宜,關(guān)注計(jì)算社會科學(xué)和我們的人類行為幾何化研究。