文學(xué)研究的數(shù)學(xué)方法? ? ?課程分享32
這是通識(shí)選修課《社會(huì)科學(xué)與數(shù)學(xué)》第二講《文學(xué)與數(shù)學(xué)》的第五節(jié)济瓢,探討文學(xué)研究中的數(shù)學(xué)方法。
第二講?文學(xué)與數(shù)學(xué)
第五節(jié)?文學(xué)研究的數(shù)學(xué)方法
一棵帽、律詩(shī)和絕句的平仄格式的數(shù)學(xué)公式
律詩(shī)和絕句的平仄格式各有16種熄求,可以用一個(gè)公式來(lái)表示,而且逗概,只須知道第一句的平仄格式弟晚,就可以推出所有的平仄格式。
格律詩(shī)是在字?jǐn)?shù)逾苫、韻腳卿城、聲調(diào)、對(duì)仗各方面都有許多講究的詩(shī)铅搓。它規(guī)定詩(shī)有定句瑟押,句有定字,字講平仄星掰,嚴(yán)格押韻多望,而且律詩(shī)的中兩聯(lián)要對(duì)仗等嫩舟。格律詩(shī)對(duì)聲律的要求極為嚴(yán)格。聲律包括押韻和平仄怀偷,其中又以平仄最重要至壤。(王諒儒的論文)
我認(rèn)為對(duì)詩(shī)詞而言,寧失對(duì)仗枢纠,勿破平仄像街。
未知是否有此說(shuō)法,沒(méi)找到出處晋渺。沒(méi)有就是我的發(fā)現(xiàn)了镰绎。
例如,白居易的《長(zhǎng)恨歌》木西。
《長(zhǎng)恨歌》是中國(guó)唐朝詩(shī)人白居易的一首長(zhǎng)篇敘事詩(shī)畴栖。這首詩(shī)是作者的名篇,作于公元806年(元和元年)八千。全詩(shī)形象地?cái)⑹隽颂菩谂c楊貴妃的愛(ài)情悲劇吗讶。詩(shī)人借歷史人物和傳說(shuō),創(chuàng)造了一個(gè)回旋宛轉(zhuǎn)的動(dòng)人故事恋捆,并通過(guò)塑造的藝術(shù)形象照皆,再現(xiàn)了現(xiàn)實(shí)生活的真實(shí),感染了千百年來(lái)的讀者沸停。
……
在天愿作比翼鳥(niǎo)膜毁,在地愿為連理枝。
天長(zhǎng)地久有時(shí)盡愤钾,此恨綿綿無(wú)絕期瘟滨。
這是《長(zhǎng)恨歌》的最后幾句。如果保持對(duì)仗能颁,“有時(shí)盡”應(yīng)為“有盡時(shí)”杂瘸,與“無(wú)絕期”對(duì)應(yīng),而這兩句為了保平仄沒(méi)有這樣寫(xiě)伙菊,顯然是為了保平仄而失對(duì)仗的結(jié)果败玉。平平仄仄仄平仄,仄仄平平平仄平占业。古人吟詩(shī)像唱歌一樣绒怨,一點(diǎn)都不能走調(diào)。
將律詩(shī)和絕句的平仄格式數(shù)學(xué)化谦疾,方法很簡(jiǎn)單南蹂,首先約定,用0代表平念恍,用1代表仄六剥。然后規(guī)定兩種運(yùn)算:把0變?yōu)?晚顷,或把1變?yōu)?,叫做取補(bǔ)運(yùn)算疗疟,簡(jiǎn)稱(chēng)取補(bǔ)该默;把一句中最后一字與倒數(shù)的第3字的平仄對(duì)換,其余不變策彤,叫做對(duì)換運(yùn)算栓袖,簡(jiǎn)稱(chēng)對(duì)換。現(xiàn)舉例說(shuō)明如下店诗。
例1.唐詩(shī)?李商隱《無(wú)題》
無(wú)題 平仄格式 二進(jìn)制數(shù)表示
昨夜星辰昨夜風(fēng) 仄仄平平仄仄平 1100110(第1句)
畫(huà)樓西畔桂堂東 平平仄仄仄平平 0011100(第2句)
身無(wú)彩鳳雙飛翼 平平仄仄平平仄 0011001(第3句)
心有靈犀一點(diǎn)通 仄仄平平仄仄平 1100110(第4句)
隔座送鉤春酒暖 仄仄平平平仄仄 1100011(第5句)
分曹射覆蠟燈紅 平平仄仄仄平平 0011100(第6句)
嗟余聽(tīng)鼓應(yīng)官去 平平仄仄平平仄 0011001(第7句)
走馬蘭臺(tái)類(lèi)轉(zhuǎn)蓬 仄仄平平仄仄平 1100110(第8句)
例2.唐詩(shī)?杜甫《聞官兵收河南河北》
聞官兵收河南河北 平仄格式 二進(jìn)制數(shù)表示
劍外忽傳收薊北 仄仄平平平仄仄 1100011(第1句)
初聞涕淚滿衣裳 平平仄仄仄平平 0011100(第2句)
卻看妻子愁何在 平平仄仄平平仄 0011001(第3句)
漫卷詩(shī)書(shū)喜若狂 仄仄平平仄仄平 1100110(第4句)
白日放歌須縱酒 仄仄平平平仄仄 1100011(第5句)
青春作伴好還鄉(xiāng) 平平仄仄仄平平 0011100(第6句)
即從巴峽穿巫峽 平平仄仄平平仄 0011001(第7句)
便下襄陽(yáng)向洛陽(yáng) 仄仄平平仄仄平 1100110(第8句)
詩(shī)中第一句和第二句的最后一字有相同韻裹刮,就把第一句叫做入韻。第一句和第二句的最后一字有不同韻庞瘸,就把第一句叫做不入韻捧弃。例1的第一句入韻,例2的第一句不入韻擦囊。
設(shè)A1违霞、A2、 A3 瞬场、A4买鸽、 A5、 A6泌类、 A7癞谒、 A8分別表示第1、2刃榨、3、4双仍、5枢希、6、7朱沃、8句平仄格式的二進(jìn)制數(shù)苞轿。第一句A1只有四個(gè)值:{0011001,1100110逗物;0011100搬卒,1100011},其中0011001與1100110互補(bǔ)翎卓;0011100與1100011互補(bǔ),因此契邀,只需記住0011001、0011100和取補(bǔ)運(yùn)算失暴,也就記住了第一句A1的四個(gè)值坯门。
律詩(shī)和絕句的各種平仄格式可以用的統(tǒng)一的數(shù)學(xué)公式表示如下:
A1(入) A1(不入) A2 A3 A4 A5 A6 A7 A8
● 對(duì)換 ● 取補(bǔ) ● 對(duì)換 ● 取補(bǔ) ● 對(duì)換 ● 取補(bǔ) ● 對(duì)換 ● 取補(bǔ) ●
公式的用法:
①第一句A1的值微饥,可以作為A1(入)或是A1(不入)的值,按箭頭指示方向依次進(jìn)行對(duì)換取補(bǔ)運(yùn)算古戴。
②當(dāng)從A1(入)開(kāi)始計(jì)算時(shí)欠橘,必須經(jīng)過(guò)A1(不入),切不可由A1(入)直接計(jì)算出A2现恼。
③當(dāng)從A1(不入)開(kāi)始計(jì)算時(shí)肃续,則A1(入)可以略去不計(jì)。
④去掉七言A1的值最左邊的兩個(gè)數(shù)字叉袍,即為五言第一句A1的值始锚,公式依然成立。
⑤按“對(duì)換-取補(bǔ)”循環(huán)畦韭,可進(jìn)行任意次數(shù)運(yùn)算疼蛾。
二、計(jì)算風(fēng)格學(xué)
語(yǔ)體風(fēng)格是人們?cè)谡Z(yǔ)言表達(dá)活動(dòng)中的個(gè)人言語(yǔ)特征艺配,是人格在語(yǔ)言活動(dòng)中的某種體現(xiàn)察郁。這種風(fēng)格可在一定程度上通過(guò)數(shù)量特征來(lái)刻畫(huà)。計(jì)算風(fēng)格學(xué)就是通過(guò)量化的方法反映語(yǔ)體或作家風(fēng)格的研究转唉。
能夠區(qū)別文學(xué)作品的特征主要有:用詞皮钠、句式、修辭手法赠法、中心意象麦轰、主題等等。但是能用于統(tǒng)計(jì)的特征有語(yǔ)音砖织、字款侵、詞、句子侧纯、段落新锈,語(yǔ)篇結(jié)構(gòu)等等可以量化考察的信息。因此它反映的不是作者想表現(xiàn)的內(nèi)容眶熬,而是作者行文中不經(jīng)意間體現(xiàn)出的用詞造句習(xí)慣妹笆。
最常用的方法是字、詞頻率統(tǒng)計(jì)娜氏。
句長(zhǎng)是句子中的單詞數(shù)拳缠,詞長(zhǎng)是詞中的音節(jié)數(shù),反映作者風(fēng)格的不是單個(gè)詞的詞長(zhǎng)和單個(gè)句子的句長(zhǎng)贸弥,而是以一定數(shù)量的語(yǔ)料為基礎(chǔ)的平均句長(zhǎng)和平均詞長(zhǎng)窟坐。
平均詞長(zhǎng)M=語(yǔ)料中音節(jié)總數(shù)L/單詞總數(shù)N
平均句長(zhǎng)=語(yǔ)料中音節(jié)總數(shù)L/句子總數(shù)N
此外還有作者在同義詞使用中的傾向性,是值得利用但較困難的。
計(jì)算風(fēng)格學(xué)可用來(lái)解決“作者考證”的問(wèn)題狸涌。當(dāng)然切省,由于沒(méi)有嚴(yán)格的可行性標(biāo)準(zhǔn),操作要十分謹(jǐn)慎帕胆。
例1.《紅樓夢(mèng)》作者研究
我們知道朝捆,學(xué)界的主流觀點(diǎn)是,《紅樓夢(mèng)》后四十回并非出自原作者曹雪芹之手懒豹。下面讓我們通過(guò)一系列的研究來(lái)看計(jì)算風(fēng)格學(xué)是如何考證《紅樓夢(mèng)》作者的統(tǒng)一性的芙盘。
1970年,趙岡提出了使用“的”脸秽、“了”儒老、“在”、“幾”记餐、“著”5個(gè)字的出現(xiàn)頻率來(lái)研究《紅樓夢(mèng)》的作者問(wèn)題驮樊,得出了前80回和后40回出自不同人之手的結(jié)論。
陳炳藻教授的研究:
1980年片酝,在威斯康辛大學(xué)舉辦的首屆國(guó)際《紅樓夢(mèng)》研討會(huì)上 囚衔,陳炳藻發(fā)表《從詞匯上的統(tǒng)計(jì)論〈紅樓夢(mèng)〉的作者問(wèn)題》一文。
1986年雕沿,陳炳藻教授公開(kāi)發(fā)表了《電腦在文學(xué)上的應(yīng)用:〈紅樓夢(mèng)〉與〈兒女英雄傳〉兩書(shū)作者用詞的比較》一文练湿;之后又出版了《電腦紅學(xué):論〈紅樓夢(mèng)〉作者》的專(zhuān)著。
陳炳藻將《紅樓夢(mèng)》一百二十回本按順序編成三組审轮,每組四十回肥哎。并將《兒女英雄傳》作為第四組進(jìn)行比較研究。
從每組中任取八萬(wàn)字疾渣,分別挑出名詞篡诽、動(dòng)詞、形容詞榴捡、副詞霞捡、虛詞這五種詞,通過(guò)計(jì)算機(jī)程序?qū)@些詞進(jìn)行編排薄疚、統(tǒng)計(jì)、比較和處理赊琳,進(jìn)而找出各組相關(guān)程度街夭。
結(jié)果發(fā)現(xiàn)《紅樓夢(mèng)》前八十回與后四十回所用的詞匯正相關(guān)程度達(dá)78.57%,而《紅樓夢(mèng)》與《兒女英雄傳》所用詞的正相關(guān)程度是32.14%躏筏。由此推斷得出前八十回與后四十回的作者均為曹雪芹一人的結(jié)論板丽。
張衛(wèi)東、劉麗川的反駁:
深圳大學(xué)學(xué)報(bào)(人文社會(huì)科學(xué)版)1986年 01期 發(fā)表了《〈紅樓夢(mèng)〉前八十回與后四十回語(yǔ)言風(fēng)格差異初探》一文。利用某些用字埃碱、用詞及回尾處理等差異做了比較研究猖辫。
(一)、在錄入文本時(shí)使用了GB2312漢字編碼體系砚殿。在GB2312的6763個(gè)漢字以外啃憎,還有240個(gè)漢字,這其中只有10個(gè)字同時(shí)出現(xiàn)在前后兩部分似炎。其中210字只出現(xiàn)在前80回辛萍,20字只出現(xiàn)在后40回。而重要的是羡藐,有些字并非只出現(xiàn)了一次贩毕。
1偷溺、有些臟字在前80回多次出現(xiàn)向胡,且為日常罵人話厌均,然而在后40回根本沒(méi)有出現(xiàn)辛燥。
2殿托、???拣挪、嗐三幻、搳 (空白字可能不雅碍侦,所以未明寫(xiě)邢隧,下同)
“???”通“嘻”店印,前80回混用,后四十回統(tǒng)一為“嘻”
“嗐”與“咳”倒慧,前80回混用按摘,后40回只用“噯”
“搳”是“劃(拳)”的異體字,前80回用“劃”纫谅,后40回用“搳”
(二)炫贤、每一回結(jié)尾的格式
前八十回大致有五種
1.要知端的(端詳),(且聽(tīng))下回分解付秕。
2.正是—— (或者后跟一聯(lián)韻文)
3.自然終止行文
4.不知……兰珍,((且聽(tīng))下回分解。)
⊙狻(……)掠河,(且聽(tīng))下回分解。
5.后(下)回再(便)見(jiàn)
后四十回基本都是“未知(不知猛计、要知唠摹、欲知)……(如何),(且聽(tīng))下回分解奉瘤」蠢”
因此前后兩部分并非一人所作。
李賢平的進(jìn)展:
1987李賢平發(fā)表了《〈紅樓夢(mèng)〉成書(shū)新說(shuō)》作者選擇了四十七個(gè)虛字的出現(xiàn)頻率,有時(shí)還用到句長(zhǎng)分布藕赞。
(1)十三個(gè)文言虛字:之成肘、其、或斧蜕、亦双霍、方、于惩激、即店煞、皆、因风钻、仍顷蟀、故、尚骡技、乃
(2)九個(gè)句尾虛字:呀鸣个、嗎、咧布朦、罷咧囤萤、啊、罷是趴、罷了涛舍、么、呢唆途。
(3)十三個(gè)常用的白話虛字:了富雅、的、著肛搬、一没佑、不、把温赔、讓蛤奢、向、往陶贼、是啤贩、在、別拜秧、好瓜晤。 (4)十個(gè)表示轉(zhuǎn)折、程度腹纳、比較等意的虛字:可、便、就嘲恍、但足画、越、再佃牛、更淹辞、比、很俘侠、偏象缀。
(5)后綴于名詞的“兒”字和后綴于副詞、形容詞和動(dòng)詞的“兒”字爷速。
李賢平采用了各種統(tǒng)計(jì)分析方法(主要有主成份分析央星,典型相關(guān)分析,多維尺度法惫东,廣義線性模型莉给,類(lèi)卡方距離與相關(guān)系數(shù)等等) ,利用以上信息廉沮,推斷出結(jié)論:
《紅樓夢(mèng)》前八十回是曹雪芹據(jù)《石頭記》增刪而成颓遏,其中插入他早年著的《金瓶梅》式小說(shuō)《風(fēng)月寶鑒》,并增寫(xiě)了具有深刻內(nèi)涵的許多內(nèi)容滞时。
《紅樓夢(mèng)》后四十回是曹家親友在曹雪芹全書(shū)尚未完成就突然去世之后叁幢,搜集整理原稿并加工補(bǔ)寫(xiě)而成。程偉元將全稿以活字版印刷刊行坪稽。高鶚新妫勘異文補(bǔ)遺訂訛。
1)聚類(lèi)分析方法
所謂聚類(lèi)分析刽漂,就是按照某種量化標(biāo)準(zhǔn)演训,將樣本數(shù)據(jù)進(jìn)行分類(lèi)。舉個(gè)很通俗的例子贝咙,對(duì)某一人群進(jìn)行抽樣調(diào)查样悟,分別抽取100個(gè)男性和女性,記錄其身高和體重?cái)?shù)據(jù)庭猩,這樣共獲得200個(gè)樣本窟她。將200個(gè)樣本的性別標(biāo)簽去掉,混合在一起蔼水,對(duì)這200組數(shù)據(jù)進(jìn)行聚類(lèi)分析震糖,如果方法得當(dāng)?shù)脑挘@200組數(shù)據(jù)應(yīng)該聚集為兩類(lèi)趴腋,一類(lèi)為男性吊说,另一類(lèi)為女性论咏。
基本思想:我們所研究的樣品(網(wǎng)點(diǎn))或指標(biāo)(變量)之間存在程度不同的相似性(親疏關(guān)系——以樣品間距離衡量)。于是根據(jù)一批樣品的多個(gè)觀測(cè)指標(biāo)颁井,具體找出一些能夠度量樣品或指標(biāo)之間相似程度的統(tǒng)計(jì)量厅贪,以這些統(tǒng)計(jì)量為劃分類(lèi)型的依據(jù)。把一些相似程度較大的樣品(或指標(biāo))聚合為一類(lèi)雅宾,把另外一些彼此之間相似程度較大的樣品(或指標(biāo))又聚合為另一類(lèi)养涮,直到把所有的樣品(或指標(biāo))聚合完畢,這就是分類(lèi)的基本思想眉抬。
為了進(jìn)行聚類(lèi)分析贯吓,首先需要定義樣品間的距離。 常見(jiàn)的距離有 : ① 絕對(duì)值距離 ② 歐氏距離 ③ 明科夫斯基距離 ④ 切比雪夫距離
常用的幾種聚類(lèi)方法:
(1)直接聚類(lèi)法
先把各個(gè)分類(lèi)對(duì)象單獨(dú)視為一類(lèi)蜀变,然后根據(jù)距離最小的原則悄谐,依次選出一對(duì)分類(lèi)對(duì)象,并成新類(lèi)昏苏。如果其中一個(gè)分類(lèi)對(duì)象已歸于一類(lèi)尊沸,則把另一個(gè)也歸入該類(lèi);如果一對(duì)分類(lèi)對(duì)象正好屬于已歸的兩類(lèi)贤惯,則把這兩類(lèi)并為一類(lèi)洼专。每一次歸并,都劃去該對(duì)象所在的列與列序相同的行孵构。經(jīng)過(guò)m-1次就可以把全部分類(lèi)對(duì)象歸為一類(lèi)屁商,這樣就可以根據(jù)歸并的先后順序作出聚類(lèi)譜系圖。
(2)最短距離聚類(lèi)法
最短距離聚類(lèi)法颈墅,是在原來(lái)的m×m距離矩陣的非對(duì)角元素中找出 蜡镶,把分類(lèi)對(duì)象Gp和Gq歸并為一新類(lèi)Gr,然后按計(jì)算公式 計(jì)算原來(lái)各類(lèi)與新類(lèi)之間的距離恤筛,這樣就得到一個(gè)新的(m-1)階的距離矩陣官还;再?gòu)男碌木嚯x矩陣中選出最小者dij,把Gi和Gj歸并成新類(lèi)毒坛;再計(jì)算各類(lèi)與新類(lèi)的距離望伦,這樣一直下去,直至各分類(lèi)對(duì)象被歸為一類(lèi)為止煎殷。
(3)最遠(yuǎn)距離聚類(lèi)法
最遠(yuǎn)距離聚類(lèi)法與最短距離聚類(lèi)法的區(qū)別在于計(jì)算原來(lái)的類(lèi)與新類(lèi)距離時(shí)采用的公式不同屯伞。最遠(yuǎn)距離聚類(lèi)法所用的是最遠(yuǎn)距離來(lái)衡量樣本之間的距離。
2)相關(guān)分析方法
相關(guān)系數(shù)r的定義與說(shuō)明豪直。相關(guān)系數(shù)是變量之間相關(guān)程度的指標(biāo)劣摇。樣本相關(guān)
系數(shù)用r表示,總體相關(guān)系數(shù)用ρ表示,相關(guān)系數(shù)的取值范圍為[-1,1]。|r|值越大弓乙,誤差Q越小末融,變量之間的線性相關(guān)程度越高钧惧;|r|值越接近0,Q越大滑潘,變量之間的線性相關(guān)程度越低垢乙。
相關(guān)系數(shù),又稱(chēng)皮(爾生)氏積矩相關(guān)系數(shù)语卤,說(shuō)明兩個(gè)現(xiàn)象之間相關(guān)關(guān)系密切程度的統(tǒng)計(jì)分析指標(biāo)。
相關(guān)系數(shù)用希臘字母γ表示酪刀,γ值的范圍在-1和+1之間粹舵。
γ>0為正相關(guān),γ<0為負(fù)相關(guān)骂倘。γ=0表示不相關(guān)眼滤;
γ的絕對(duì)值越大,相關(guān)程度越高历涝。
兩個(gè)現(xiàn)象之間的相關(guān)程度诅需,一般劃分為四級(jí):
如兩者呈正相關(guān),r呈正值荧库,r=1時(shí)為完全正相關(guān)堰塌;如兩者呈負(fù)相關(guān)則r呈負(fù)值,而r=-1時(shí)為完全負(fù)相關(guān)分衫。完全正相關(guān)或負(fù)相關(guān)時(shí)场刑,所有圖點(diǎn)都在直線回歸線上;點(diǎn)子的分布在直線回歸線上下越離散蚪战,r的絕對(duì)值越小牵现。當(dāng)例數(shù)相等時(shí),相關(guān)系數(shù)的絕對(duì)值越接近1邀桑,相關(guān)越密切瞎疼;越接近于0,相關(guān)越不密切壁畸。當(dāng)r=0時(shí)贼急,說(shuō)明X和Y兩個(gè)變量之間無(wú)直線關(guān)系。通常|r|大于0.8時(shí)瓤摧,認(rèn)為兩個(gè)變量有很強(qiáng)的線性相關(guān)性竿裂。
相關(guān)矩陣(Correlation Matrix)
定義
相關(guān)矩陣也叫相關(guān)系數(shù)矩陣,是由矩陣各列間的相關(guān)系數(shù)構(gòu)成的照弥。也就是說(shuō)腻异,相關(guān)矩陣第i行第j列的元素是原矩陣第i列和第j列的相關(guān)系數(shù)。
性質(zhì)
相關(guān)矩陣的對(duì)角元素是1这揣。
相關(guān)矩陣是對(duì)稱(chēng)矩陣悔常。
例2.《靜靜的頓河》是不是抄襲影斑?
長(zhǎng)篇小說(shuō)《靜靜的頓河》是一部既磅礴壯觀又委婉細(xì)膩、扣人心弦的史詩(shī)性長(zhǎng)篇小說(shuō)机打,是當(dāng)代世界文學(xué)中流傳最廣泛矫户、讀者最多的名著之一。他的作者肖洛霍夫因此獲得1965年諾貝爾文學(xué)獎(jiǎng)残邀。但小說(shuō)出版后即有人說(shuō)這本書(shū)是肖洛霍夫從一位名不見(jiàn)經(jīng)傳的哥薩克作家克留柯夫那里抄襲來(lái)的皆辽。
俄國(guó)流亡在國(guó)外的一些作家如索爾仁尼琴、麥德維杰等芥挣,認(rèn)為《靜靜的頓河》的大部份內(nèi)容是抄襲哥薩克作家克留科夫的作品驱闷,理由是該書(shū)第一卷出版時(shí),肖洛霍夫年紀(jì)尚輕空免,并無(wú)生活經(jīng)歷空另;另外,他以后未能寫(xiě)出具有同樣文學(xué)價(jià)值的作品蹋砚。肖洛霍夫充其量是合作者罷了扼菠。
為了弄清楚誰(shuí)是《靜靜的頓河》的真正作者,捷澤等學(xué)者采用計(jì)算風(fēng)格學(xué)的方法進(jìn)行考證坝咐。具體辦法是把《靜靜的頓河》四卷本同肖洛霍夫循榆、克留柯夫這兩人的其他在作者問(wèn)題上沒(méi)有疑問(wèn)的作品都用計(jì)算機(jī)進(jìn)行分析,獲得可靠的數(shù)據(jù)畅厢,并加以比較冯痢,以期澄清疑問(wèn),得出誰(shuí)是真正作者的結(jié)論框杜。
捷澤等學(xué)者從〈靜靜的頓河》中隨機(jī)地挑選出2000個(gè)句子浦楣,再?gòu)男ぢ寤舴颉⒖肆艨路虻母饕黄≌f(shuō)中隨機(jī)地挑先500個(gè)句子咪辱,總共3組樣本振劳,3000個(gè)句子,輸入計(jì)算機(jī)進(jìn)行處理油狂。
根據(jù)6個(gè)方面的統(tǒng)計(jì)結(jié)果與分析历恐,捷澤等人已可以下結(jié)論:《靜靜的頓河》的真正作者是肖洛霍夫。然而专筷,捷澤等人對(duì)于這樣一部世界名著弱贼,這樣一個(gè)世界文學(xué)界的重大疑案,采取了十分謹(jǐn)慎的態(tài)度磷蛹,為了精益求精吮旅,他們?cè)诟笠?guī)模基礎(chǔ)上進(jìn)行研究味咳,最終確定《靜靜的頓河》確實(shí)是肖洛霍夫的作品庇勃,他在寫(xiě)作時(shí)或許參考過(guò)克留柯夫的手稿檬嘀。后來(lái),原蘇聯(lián)文學(xué)研究者從另外一些方面又進(jìn)一步證實(shí)了肖洛霍夫是《靜靜的頓河》的真正作者责嚷。
米哈依爾·肖洛霍夫(M.A.Sholokhov)(1905-1984)鸳兽,是二十世紀(jì)蘇聯(lián)文學(xué)的杰出代表,也是我國(guó)讀者十分熟悉且至今仍給予特殊關(guān)注的作家罕拂。這不僅僅因?yàn)樗o世界人民留下了《靜靜的頓河》揍异、《新墾地》(舊譯《被開(kāi)墾的處女地》)、《一個(gè)人的遭遇》等珍貴的文學(xué)遺產(chǎn)爆班,還因?yàn)樗簧膭?chuàng)作和文學(xué)活動(dòng)與我國(guó)文化事業(yè)的發(fā)展始終存在著或直接或間接的聯(lián)系蒿秦,并產(chǎn)生了一定影響。
計(jì)算風(fēng)格學(xué)不僅能考證作者蛋济,還作者一個(gè)清白,在更廣闊的范圍內(nèi)炮叶,通過(guò)對(duì)不同時(shí)期的文學(xué)家作品的統(tǒng)計(jì)計(jì)算碗旅,還可以反映一個(gè)時(shí)代的文化風(fēng)格變遷。曾有人對(duì)20位德語(yǔ)作者的22部著作的平均詞長(zhǎng)和平均句長(zhǎng)進(jìn)行過(guò)計(jì)算镜悉,從而發(fā)現(xiàn)了德語(yǔ)書(shū)面語(yǔ)言的句子有變短的趨勢(shì)祟辟。
現(xiàn)在用電腦通過(guò)數(shù)據(jù)處理分析的文學(xué)作品越來(lái)越多。日本有兩位作者多久正和安本美典大量應(yīng)用頻譜分析來(lái)研究各種文學(xué)作品侣肄,最后竟然達(dá)到這樣的程度:隨便拿一篇文章來(lái)旧困,不用講明作者,也可以知道作者是誰(shuí)稼锅,就像法醫(yī)根據(jù)指紋抓犯人一樣吼具,準(zhǔn)確無(wú)誤!
我們?cè)賮?lái)看兩個(gè)“作者考證”的例子:
例3.出現(xiàn)于16世紀(jì)90年代的一部五幕劇《愛(ài)德華三世》矩距,表現(xiàn)了14世紀(jì)英王愛(ài)德華三世統(tǒng)治時(shí)期勇武的騎士精神拗盒。但該劇作者究竟是誰(shuí),戲劇界爭(zhēng)論了幾百年锥债。不久前陡蝇,通過(guò)電腦對(duì)該劇的語(yǔ)言風(fēng)格進(jìn)行分析,莎翁作品的權(quán)威機(jī)構(gòu)——阿頓公司正式確認(rèn)哮肚,《愛(ài)德華三世》是莎士比亞的一部早期作品登夫。莎劇專(zhuān)家說(shuō),這部作品本身所表現(xiàn)出的深刻人性允趟、博大精神和文辭語(yǔ)言的華麗無(wú)可辯駁地“用莎士比亞自己的聲音”證明了它的來(lái)源恼策。
例4.1964年,美國(guó)統(tǒng)計(jì)學(xué)家摩斯泰勒和瑕萊斯考證了12篇署名“聯(lián)邦主義者”的文章作者拼窥,可能的作者是兩個(gè)人戏蔑,一個(gè)是美國(guó)開(kāi)國(guó)政治家漢密爾頓蹋凝,另一位是美國(guó)第四任總統(tǒng)麥迪遜。究竟是哪一位呢总棵?統(tǒng)計(jì)學(xué)家在進(jìn)行分析時(shí)發(fā)現(xiàn)漢密爾頓和麥迪遜在已有著作中的平均句長(zhǎng)幾乎完全相同鳍寂。這使得這一能反映寫(xiě)作風(fēng)格特征的數(shù)據(jù)此時(shí)失效了。于是情龄,統(tǒng)計(jì)學(xué)家轉(zhuǎn)而從用詞習(xí)慣上來(lái)找出這兩位作者的有區(qū)別性的風(fēng)格特征迄汛,而且終于找到了兩位作者在虛詞的使用上有明顯的不同。
漢密爾頓他已有的18篇文章中骤视,有14篇使用了“enough”一詞鞍爱;而麥迪遜在他的14篇文章中根本未使用“enough”一詞。漢密爾頓喜歡用“while”专酗,而麥迪遜總是用“whilst”睹逃。漢密爾頓喜歡用“upon”,而麥迪遜很少用祷肯。然后沉填,再把兩位可能的作者的上述風(fēng)格特征指標(biāo),與未知的12篇署名“聯(lián)邦主義者”的文章中表現(xiàn)出來(lái)的相應(yīng)的風(fēng)格特征進(jìn)行比較佑笋。結(jié)果發(fā)現(xiàn)那位署名“聯(lián)邦主義者”的作者就是美國(guó)第四任總統(tǒng)麥迪遜翼闹。這樣就了結(jié)了這一考據(jù)學(xué)上長(zhǎng)期懸而未決的公案。兩位統(tǒng)計(jì)學(xué)家所使用的數(shù)學(xué)方法也得到了學(xué)術(shù)界的好評(píng)蒋纬。