《全唐詩》文本分析

文本預(yù)處理

對于現(xiàn)代漢語的分詞扣汪,開源/免費的解決方案或工具很多,開源的解決方案如Jieba、HanLp拿撩、StanfordNLP和IKAnalyzer等,“傻瓜式”的免費操作工具的也有新浪微輿情文本挖掘工具如蚜,如果直接采用這些現(xiàn)代漢語分詞工具對古詩詞進行分詞压恒,結(jié)果會是這樣的:

然而影暴,對于古漢語(文言文),尤其是詩詞的分詞處理可沒有這么簡單探赫,因為單字詞占古漢語詞匯統(tǒng)計信息的80%以上型宙,再加上古漢語微言大義,字字千鈞伦吠,所以針對現(xiàn)代漢語的分詞技術(shù)往往不適用于它妆兑。鑒于此種情況,筆者采取的是逐字切分的處理方式毛仪,同時去掉一些常見的虛詞搁嗓,如“之”、“乎”箱靴、“者”腺逛、“也”。分詞和去停用詞處理如下所示:

經(jīng)過文本預(yù)處理后刨晴,就可以進行文本挖掘中最常規(guī)的分析---字頻統(tǒng)計屉来,看看《全唐詩》中出現(xiàn)最多的字有哪些。

字頻分析:唐詩常用高頻字分析

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 全局高頻字

首先狈癞,讓我們來看看去掉這些虛詞之后的全局高頻字有哪些茄靠,筆者這里展示的是TOP148〉埃“人”字排行第一慨绳,這體現(xiàn)了《說文解字》里所講的“人,天地之性最貴者也”真竖,說明唐詩很好的秉承了“以人為本”的中華文化脐雪。而后續(xù)的“山”、“風(fēng)”恢共、“月”战秋、“日”、“天”讨韭、“云”脂信、“春”等都是在寫景的詩句里經(jīng)常出現(xiàn)的意象

? ? ? ? ? ? ? ? ? ? ? ? ? ? 典型意象分析

所謂“意象”透硝,就是客觀物象經(jīng)過創(chuàng)作主體獨特的情感活動而創(chuàng)造出來的一種藝術(shù)形象狰闪。簡單地說,意象就是寓“意”之“象”濒生,就是用來寄托主觀情思的客觀物象埋泵。在比較文學(xué)中,意象的名詞解釋是---所謂“意象”簡單說來,可以說就是主觀的“意”和客觀的“象”的結(jié)合丽声,也就是融入詩人思想感情的“物象”礁蔗,是賦有某種特殊含義和文學(xué)意味的具體形象。簡單地說就是借物抒情雁社。

比如瘦麸,“月”這個古詩詞里常見的意象,就有如下內(nèi)涵:

表達思鄉(xiāng)歧胁、思親念友之情,暗寓羈旅情懷厉碟,寂寞孤獨之感喊巍;

歷史的見證今昔滄桑感;

冷寂箍鼓、凄清的感覺崭参;

清新感。

筆者在這里挑選的意象是關(guān)于季節(jié)和顏色的款咖。

? ? 物轉(zhuǎn)星移幾度秋---《全唐詩》中的季節(jié)

統(tǒng)計“春”何暮、“夏/暑”、“秋”铐殃、“冬”這4個字在《全唐詩》中出現(xiàn)的頻次海洼,“春”字排行榜首,“秋”字列第2位富腊,“夏”和“冬”出現(xiàn)的頻次則要少1個量級坏逢,在唐詩里,傷春赘被、惜春是常見的春詩題材是整,代表性的作品有朱淑真《賞春》、杜甫《麗春》民假、韓愈《春雪》浮入、張若虛《春江花月夜》等。也難怪羊异,在商代和西周前期事秀,一年只分為春秋二時,后世也常以春秋作為一年的代稱球化,約定俗成秽晚,由來已久,這兩個字的使用頻率很高也就不足為奇了筒愚。

? ? 萬紫千紅一片綠---《全唐詩》中的色彩

筆者在這里找了51個古語中常用的顏色的單字(注意是古漢語語境中的顏色稱謂)赴蝇,其中以紅色系(紅、丹巢掺、朱句伶、赤劲蜻、絳等)、黑色系(暗考余、玄先嬉、烏、冥楚堤、墨等)疫蔓、綠色系(綠、碧身冬、翠衅胀、蒼等)及白色系(白、素酥筝、皎滚躯、皓等)為主,這些顏色及其對應(yīng)的字頻如下表所示:

這里面“白”字的字頻最高嘿歌,本意是“日出與日落之間的天色”掸掏,筆者常見的有“白發(fā)”、“白云”宙帝、“白雪”丧凤,常渲染出一種韶華易逝、悲涼的氣氛茄唐,名句如“白頭搔更短息裸,渾欲不勝簪”、“白雪卻嫌春色晚沪编,故穿庭樹作飛花”呼盆、“君不見,高堂明鏡悲白發(fā)蚁廓,朝如青絲暮成雪”访圃、 “白云一片去悠悠,青楓浦上不勝愁”相嵌。

將上述主要的色系綜合統(tǒng)計一下腿时,得到下面的環(huán)形占比圖:

其中,綠色系的占比居多饭宾,“綠”“碧”“蒼”“翠”等大都用于寫景批糟,“綠樹”、“碧水”看铆、“蒼松”徽鼎、“翠柳”等,這些高頻字從側(cè)面反映出全唐詩中描寫景物、寄情山水的詩句占比很大否淤,透露出平靜悄但、清新和閑適之感。

詞匯探測:唐詩中的常用雙字詞發(fā)現(xiàn)

剛才筆者分析的是單字石抡,而漢語的語素大都是由單音節(jié)(字)表示檐嚣,即所謂的“一音一義”。當這些單音節(jié)語素啰扛,能夠獨立應(yīng)用的話嚎京,就是詞。古漢語中存在著許多單音節(jié)詞隐解,這也就是文言文翻譯中要經(jīng)常把一個字翻譯成現(xiàn)代漢語中的雙音節(jié)詞的原因挖藏。

然而,有些單音節(jié)語素厢漩,不能夠獨立使用,就不是詞岩臣,只能夠是語素溜嗜,如“第-“、”躊-“架谎、”- 們“炸宵。

鑒于此谷扣,筆者想發(fā)現(xiàn)一些唐詩中的常用雙字詞土全,看看其中的成詞規(guī)律是怎樣的。筆者在這里選取共現(xiàn)次數(shù)超過10次的詞匯会涎,并列出TOP200的共現(xiàn)雙字詞裹匙。關(guān)鍵操作步驟如下所示:

以下是TOP200的共現(xiàn)雙字詞:

從上面的雙詞探測結(jié)果中,筆者可以發(fā)現(xiàn)如下6類成詞規(guī)律:

(1)復(fù)合式(A+B等于C):由兩個字組成末秃,這兩個字分別代表意義概页,組成雙音節(jié)的詞,這類詞出現(xiàn)的頻次最多练慕。比如惰匙,弟兄、砧杵铃将、紀綱项鬼、捐軀、巡狩劲阎、犬吠绘盟。

(2)重疊式(AA等于A): 瑯瑯、肅肅、忻忻奥此、灼灼弧哎。

(3)疊音(AA不等于A):瑯瑯(單獨拆開不能組其他詞)、的的(拆開后的單字的詞義不同)等稚虎。

(4)雙聲(聲母相同): 躊躇(聲母都是c撤嫩,分開各自無法組詞)、參差(聲母都是c)蠢终、緬邈(聲母都是m)序攘。

(5)疊韻(韻母相同):噫嘻(韻母是i)、繚繞(韻母是ao)寻拂、妖嬈(韻母是ao)等程奠。

(6)雙音節(jié)擬聲詞:歔欷、咿啞等祭钉。

語義網(wǎng)絡(luò)分析:發(fā)現(xiàn)唐詩中的常用“字眼”

在這一部分瞄沙,筆者抽取的是上述高頻字TOP148中的字的共現(xiàn)關(guān)系

可以看到,上述的語義網(wǎng)絡(luò)可以分為3個簇群慌核,即橙系距境、紫系和綠系,TOP148高頻字中垮卓,字體清晰可見字的近40個垫桂。圓圈的大小表示該字在語義網(wǎng)絡(luò)中的影響力大小,也就是“Betweenness Centrality(中介核心性)粟按,”學(xué)術(shù)的說法是“兩個非鄰接的成員間的相互作用依賴于網(wǎng)絡(luò)中的其他成員诬滩,特別是位于兩成員之間路徑上的那些成員,他們對這兩個非鄰接成員的相互作用具有某種控制和制約作用”灭将。在詩句中疼鸟,這些字常以“字眼”的形式呈現(xiàn),也就是詩文中精要的字庙曙。3類中:

橙系:北愚臀、流、馬矾利、草姑裂、閑、孤男旗、逢舶斧、云等;

紫系:游察皇、樹茴厉、雨泽台、回、笑矾缓、言怀酷、幽、清嗜闻、白蜕依、野、行等

綠系:知琉雳、金样眠、柳、難翠肘、愁檐束、舊、仙束倍、望被丧、客。

其中绪妹,根據(jù)字的構(gòu)成來看晚碾,綠系簇群中的字大多跟送別(好友)有關(guān)。

字向量分析:基于的Word2vec的關(guān)聯(lián)字分析

因為之前的文本預(yù)處理是按字來切分的喂急,所以這里進行的是基于Word2vec的字向量分析。

基于Word2vec的字向量能從大量未標注的普通文本數(shù)據(jù)中無監(jiān)督地學(xué)習(xí)到字向量笛求,而且這些字向量包含了字與字之間的語義關(guān)系廊移,正如現(xiàn)實世界中的“物以類聚,類以群分”一樣探入,字可以由它們身邊的字來定義狡孔。

從原理上講,基于字嵌入的Word2vec是指把一個維數(shù)為所有字的數(shù)量的高維空間嵌入到一個維數(shù)低得多的連續(xù)向量空間中蜂嗽,每個單字被映射為實數(shù)域上的向量苗膝。把每個單字變成一個向量,目的還是為了方便計算植旧,比如“求單字A的同義字”辱揭,就可以通過“求與單字A在cos距離下最相似的向量”來做到。下面是基于Word2vec的字向量模型原理示意圖病附。

下面问窃,筆者選取一些單字進行字向量關(guān)聯(lián)分析,展示如下:

與“梅”相關(guān)的字完沪,大致分為兩類:同屬植物域庇,如醾嵌戈、杏戏挡、梨郭怪、桃、榴炭懊、楊尉姨、柳庵朝、楝等;和“梅”相關(guān)的意象啊送,如春(梅)偿短、酴(酒)、(梅)花馋没、(梅)枝昔逗、殘(梅)、(梅)梢等篷朵。最相關(guān)的是“春”勾怒,吟詠春梅,在唐詩中極為常見声旺,賢相宋璟在東川官舍見梅花怒放于榛莽中笔链,歸而有感,作《梅花賦》腮猖,其中鉴扫,"獨步早春,自全其天"澈缺,贊賞梅花在早春中一枝獨秀坪创,自己安于凌寒而開的天命。

“靜”字則跟它的同音字“凈(連帶繁體姐赡,一共出現(xiàn)三次莱预,即“凈”、“淨”和“凈”)”的相關(guān)度最大项滑,結(jié)合“坐”依沮、“院”“梵”等字,可聯(lián)想到“凈院”(佛寺枪狂,亦稱“凈宇”)危喉、凈覺(謂心無妄念,對境不迷)州疾,這也說明姥饰,在唐詩里最能體現(xiàn)靜的,還是在寺廟里參禪孝治,感悟佛法列粪。

筆者還想看看唐詩里經(jīng)常出現(xiàn)的情緒审磁,即“悲”、“憂”岂座、“愁”态蒂、“怒”、“懼”费什,看看它們的相關(guān)字有哪些钾恢。這里就請讀者自行分析,筆者不做贅述鸳址。

注意瘩蚪,在這里得到的情緒相關(guān)字,筆者將收集整理它們稿黍,制成情緒詞典疹瘦,用于后面的詩詞情緒分類。

多維情緒分析:發(fā)現(xiàn)唐詩中的“七情”

王國維在《人間詞話》里曾提到:“境非獨謂景物也巡球,喜怒哀樂言沐,亦人心中之一境界。故能寫真景物酣栈、真感情者险胰,謂之有境界”,講的是"境"與"境界"通用---寫景亦可成境界矿筝,言情亦可成境界起便,因為景物是外在的世界,情感是內(nèi)在的世界窖维。所以榆综,在這里,筆者想分析一下全唐詩中詩詞所表達出來的內(nèi)在境界陈辱,也就是內(nèi)在情感,為了豐富分析維度细诸,不采用簡單的二元分析沛贪,即“積極”和“消極”2種情緒,而是7種細顆粒的情緒分類震贵,即悲利赋、懼、樂猩系、怒媚送、思、喜寇甸、憂塘偎。

根據(jù)上面獲取到的字向量疗涉,經(jīng)過人工遴選后,得到可以用于訓(xùn)練的“情緒字典”吟秩,根據(jù)詩歌中常見的主題類別咱扣,情緒類別分為:

悲:愁、慟涵防、痛闹伪、寡、哀壮池、傷偏瓤、嗟…

懼:讒、謗椰憋、患厅克、罪、詐熏矿、懼已骇、誣…

樂:悅、欣票编、樂褪储、怡、洽慧域、暢鲤竹、愉…

怒:怒、雷昔榴、吼辛藻、霆、霹互订、猛吱肌、轟…

思:思、憶仰禽、懷氮墨、恨、吟吐葵、逢规揪、期…

喜:喜、健温峭、倩猛铅、賀、好凤藏、良奸忽、善…

憂:恤堕伪、憂、痾月杉、慮刃跛、艱、遑苛萎、厄…

筆者在這里采用的是基于LSTM(LongShort-Term Memory桨昙,長短期記憶網(wǎng)絡(luò))的情緒分析模型。

在這里腌歉,我們會將文本傳遞給嵌入層(Embedding Layer)蛙酪,因為有數(shù)以萬計的字詞,所以我們需要比單編碼向量(One-Hot Encoded Vectors)更有效的表示來輸入數(shù)據(jù)翘盖。這里桂塞,筆者將使用上面訓(xùn)練得到的Word2vec字向量模型,用預(yù)先訓(xùn)練的詞嵌入(Word Embedding)來引入的外部語義信息馍驯,做遷移學(xué)習(xí)(Transfer Learning)阁危。

以下是簡要原理展示圖:

為了取得更好的效果,筆者采用最新的NestedLSTM+Conv1D的深度學(xué)習(xí)模型來做情緒判斷汰瘫,它能較好的提煉文本里的特征和語序信息狂打,記住更長的語義依賴關(guān)系,做出較為精確的情緒判斷混弥。其網(wǎng)絡(luò)結(jié)構(gòu)如下所示:

接著趴乡,來試試實際的效果:

筆者隨機測試了100句,判斷準確的有86條蝗拿,粗略的準確率估計是86%晾捏。當然,這只是一次不太嚴謹?shù)男L試哀托,在真實的業(yè)務(wù)場景里惦辛,這得花很多時間來做優(yōu)化,提高模型的準確率仓手。

下面是對《全唐詩》近5萬首詩的情緒分析結(jié)果胖齐,展示如下:

可能出乎很多人的意料,代表大唐氣象的唐詩應(yīng)該以積極昂揚的情緒為主俗或,怎么會是“悲”市怎、“思”岁忘、“憂”這樣的情緒占據(jù)主流呢辛慰?而 “喜”、“樂”這樣的情緒卻占據(jù)末流呢干像?

接下來帅腌,筆者著重來分析下“悲”這個情緒占據(jù)主流的原因驰弄。

從常見的唐詩寫作題材上說,帶有“悲”字基調(diào)的唐詩較多速客,也多出名詩佳句戚篙,比如唐詩中常見的幾種情結(jié),如”悲秋情結(jié)“溺职、”別離情結(jié)“岔擂、”薄暮情結(jié)“”悲怨情結(jié)“,都體現(xiàn)出濃重的“悲情”色彩浪耘。

古人云:“悲憤出詩人”乱灵,它點破了人的成就與所處的環(huán)境、心境有某種關(guān)系七冲。就像司馬遷所說:“夫《詩》痛倚、《書》隱約者,欲遂其志之思也澜躺。昔西伯拘羑里蝉稳,演《周易》;孔子厄陳掘鄙、蔡耘戚,作《春秋》…大抵賢圣發(fā)憤之所為作也。此人皆意有所郁結(jié)通铲,不得通其道也…”回顧古今中外的著名的詩人和作家毕莱,幾乎無一不是曾有一段被排擠,誹謗颅夺,不得志和身處逆境之經(jīng)歷朋截,有些甚至還很悲慘。正是在這種悲難吧黄,惡劣環(huán)境中部服,才使得其奮發(fā)圖強。

重要的是拗慨,唐詩中的“悲”不僅僅是做“兒女態(tài)”的悲廓八,更是具有超越時空、憐憫蒼生以及同情至美愛情的大慈大悲赵抢。如下:

陳子昂的《登幽州臺歌》剧蹂,“前不見古人,后不見來者烦却。念天地之悠悠宠叼,獨愴然而涕下。”從時間與空間兩個角度把悲涼拉長了。

李白的《將進酒》中“君不見明鏡高堂悲白發(fā)冒冬,朝如青絲暮成雪”伸蚯,以及《夢游天姥吟留別》中“世間行樂亦如此,古來萬事東流水”讓人唏噓简烤!還有《長相思》第一首中“天長路遠魂飛苦剂邮,夢魂不到關(guān)山難。長相思横侦,摧心肝挥萌。

杜甫的《登高》中“無邊落木蕭蕭下,不盡長江滾滾來枉侧。萬里悲秋常作客瑞眼,百年多病獨登臺。”老病殘軀棵逊,孤苦無依獨登臺伤疙,心中悲涼陡然而生×居埃《石壕吏》中“老嫗力雖衰徒像,請從吏夜歸。急應(yīng)河陽役蛙讥,猶得備晨炊”等句語言樸實锯蛀,但極具張力!

白居易的《長恨歌》末尾“七月七日長生殿次慢,夜半無人私語時旁涤。在天愿作比翼鳥,在地愿為連理枝迫像。天長地久有時盡劈愚,此恨綿綿無絕期。”相愛而不能相聚闻妓,生死遺恨菌羽,沒有盡頭!

詩歌生成:用深度循環(huán)神經(jīng)網(wǎng)絡(luò)自動寫唐詩

與上面情緒分析模型采用的內(nèi)部原理一致由缆,這里采用的還是LSTM注祖,2層網(wǎng)絡(luò)。

上圖是文本生成的簡要原理圖均唉,是基于字符(字母和標點符號等單個字符串是晨,以下統(tǒng)稱為字符)進行模型構(gòu)建,也就是說我們的輸入和輸出都是字符舔箭。舉個栗子罩缴,假如我們有一個一句詩“胸中穩(wěn)處即吾鄉(xiāng)”,我們想要基于這句詩來構(gòu)建LSTM,那么希望的到的結(jié)果是靴庆,輸入“胸”,預(yù)測下一個字符為“中”怒医;輸入“中”時炉抒,預(yù)測下一個字符為“穩(wěn)”…輸入“吾”,預(yù)測下一個字符為“鄉(xiāng)”稚叹,等等焰薄。

由于其中的原理過于繁復(fù),涉及大量的code和數(shù)學(xué)公式扒袖,故筆者僅展示生成的結(jié)果塞茅,訓(xùn)練的語料即經(jīng)過預(yù)處理的《全唐詩》。

以“春雨”打頭季率,生成500字的詩詞野瘦,結(jié)果如下:

可以看見,其中的詩詞大都圍繞著“春”來展開飒泻,也就是打頭的兩個字引導(dǎo)了后續(xù)結(jié)果的生成鞭光,這多虧了LSTM超強的“記憶能力”---記住了詩歌文本序列中的時空依賴關(guān)系。

在生成的詩句中泞遗,某些詩句還是蠻有意思的惰许,上下聯(lián)間的意象有很強的相關(guān)性。

下面是多次生成中產(chǎn)生的較優(yōu)秀的詩句(當然史辙,這是筆者認為的)汹买,其中有些學(xué)習(xí)到了高階的對仗技巧,如下:

白鷺驚孤島聊倔,朱旗出晚流晦毙。

筆者最喜歡的是這兩句,它們對仗工整:“白鷺”-“朱旗”耙蔑,“孤島”-“晚流”结序,“驚”-“出”。這里體現(xiàn)出《人間詞話》中的“無我之境”: “無我之境纵潦,以物觀物徐鹤,故不知何者為我,何者為物”邀层,也就是意境交融返敬、物我一體的優(yōu)美境界,其中的 “驚”寥院、“出”堪稱字眼劲赠,極具動感,煉字絕妙!

相似文本檢索:用WMD查找相似詩詞

最后凛澎,我們來看看詩歌的信息檢索問題霹肝,也就是筆者隨意輸入一句詩詞,然后機器會按照語義相似度在《全唐詩》中檢索出若干句符合要求的詩詞塑煎。

談到這里沫换,筆者不由得想起一個詞---“射覆”,射覆游戲早期的耍法主要是制謎猜謎和用盆盂碗等把某物件事先隱藏遮蓋起來最铁,讓人猜度讯赏。這兩種耍法都是比較直接的。后來冷尉,在此基礎(chǔ)上又產(chǎn)生了一種間接曲折的語言文字形式的射覆游戲漱挎,其法是用相連字句隱寓事物,令人猜度雀哨,若射者猜不出或猜錯以及覆者誤判射者的猜度時磕谅,都要罰酒。唐浩明的長篇小說《張之洞》中有對射覆游戲的精彩描寫:

寶竹坡突然對大家說雾棺,我有一覆怜庸,諸位誰可射中。不帶大家做聲垢村,他立刻說割疾,《左傳》曰:伯姬歸于宋。射唐人詩一句嘉栓。大家都低頭想宏榕。

張之洞不慌不忙地念著,白居易詩曰:老大嫁作商人婦侵佃。

如果對古文生疏麻昼,大家可能很難將這兩句聯(lián)想起來,但《張之洞》里接下來就有關(guān)于解謎的描述:

楊銳道:伯馋辈、仲抚芦、叔、季迈螟,這是中國兄弟姊妹得排行序列叉抡。伯姬是魯國的長公主,排行老大答毫。周公平定武庚叛亂后褥民,把商舊都周圍地區(qū)封給商紂王的庶子啟,定國名為宋洗搂,故宋國為商人后裔聚族之地消返。伯姬嫁到宋國载弄,不正是'老大嫁作商人婦'嗎?

大家可能會想撵颊,如果是自己來思索的話宇攻,不僅需要自己具備淵博的學(xué)識,更要有疾如閃電的反應(yīng)能力倡勇,這個非極頂聰明之人不可逞刷!

試想,機器來做译隘,可以做好嗎?能的話洛心,又會是如何操作固耘?

這里,筆者介紹基于WMD(Earth Mover’s Distance)的語義相似度算法词身,與上面的情緒分析類似厅目,還有用到之前訓(xùn)練得到的字向量模型,借助外部語義信息來應(yīng)對同義不同字的情形法严。

WMD(EarthMover’s Distance)是一種能使機器以有意義的方式(結(jié)合文本的語義特征)評估兩個文本之間的“距離(也就是文本間的相似度)”的方法损敷,即使二者沒有包含共同的詞匯。它使用基于word2vec的詞向量深啤,已被證明超越了k-近鄰分類中的許多現(xiàn)有技術(shù)方法拗馒。以下是基于WMD的“射覆”的機器解:

上面兩個句子沒有共同的詞匯,但通過匹配相關(guān)單字溯街,WMD能夠準確地測量兩個句子之間的(非)相似性诱桂。該方法還使用了基于詞袋模型的文本表示方法(簡單地說,就是詞匯在文本中的頻率)呈昔,如下圖所示挥等。該方法的直覺是最小化2段文本間的“旅行距離(traveling distance)”,換句話說堤尾,該方法是將文檔A的分布“移動”到文檔B分布的最有效方式。

簡要的解釋了相關(guān)原理后辞槐,筆者緊接著展現(xiàn)最后的分析效果粘室。由于對《妖貓傳》中的那首線索式的《清平樂》印象深刻催蝗,筆者讓機器在《全唐詩》+《全宋詞》中查找與它相關(guān)性最大的TOP9詩詞育特。結(jié)果如下:

查找的結(jié)果排行第一的是原句先朦,但有一個字不同(其實古語中“花”、“華”互通犬缨,華字的繁體是會意字,本意是“花”)刺彩,略微差異導(dǎo)致相似度不為1.0枝恋。第二相似的是一首宋詞焚碌,林正大的《括酹江月(七)》,其實這整首詞可以作為李白《清平樂》的注解知押,因為全篇都是對它的化用:即將《清平樂》中的句鹃骂、段化解開來,增加了新的聯(lián)想静盅,重新組合寝殴,靈活運用杯矩,對原詩的表達進行了情感上的升華史隆。隨后的兩句詩詞也是類似的情況,只是相似度上略有差異罷了粘姜。

緊接著孤紧,是剛才機器生成的詩句拒秘,看看與它內(nèi)涵相近的詩句有哪些:

再看看筆者較為欣賞的2句名句,機器很好的捕捉到了它們之間的相似語義關(guān)系押蚤,即使詞匯不盡相同揽碘,但仍能從語義上檢索相似詩句雳刺。

寫到這里掖桦,關(guān)于《全唐詩》單獨的文本挖掘已經(jīng)完成,但筆者又想到一個有趣的分析維度---從文本挖掘的角度來比較《全唐詩》凛俱、《全宋詞》和《全元曲》之間用字的差異,借助字這種基本符號來分析各自的文學(xué)藝術(shù)特征岸啡。

文本對比:用Semiotic Squares比較《全唐詩》巡蘸、《全宋詞》和《全元曲》

因為分析的對象涉及3個擂送,常規(guī)的二元對比分析方法難以得出有效的結(jié)論嘹吨。因此,筆者在這里跨界采用來自符號學(xué)領(lǐng)域的研究成果--- Semiotic Squares碰纬。

Semiotic Squares(筆者譯作‘符號方塊’)”悦析,是由知名符號學(xué)大師Greimas和Rastier發(fā)明强戴,是一種提煉式的對比分析(Oppositional Analyses)方法,通過將給定的兩個相反的概念/事例(如 “生命(Life)”和“死亡(Death)”)的分析類型(通過‘或’媒佣、‘與’默伍、‘非’的邏輯)拓展到4類(如“生命(Life)”也糊、“死亡(Death)”羡宙、“生死相間(也就是活死人狗热,The Living Dead)”匿刮、“非生非死(天使,Angels)”训措,有時還可以拓展到8個或10個分析維度绩鸣。以下是符號方塊的結(jié)構(gòu)示意圖:

說明:“+”符號將2個詞項組合成一個“元詞項(Metaterm)”(復(fù)合詞呀闻,Compound Term)捡多,例如勘纯,5是1和2的復(fù)合結(jié)果驳遵。

Semiotic Squares的構(gòu)成要素

Semiotic Squares主要包含以下2種元素(我們正在避開方塊的組成關(guān)系:對立堤结,矛盾鸭丛、互補或包含):

(1)詞項(Terms):

Semiotic Square 由4個詞項組成::

位置1 (Term 1):詞項A(Term A)

位置 2(Term 2):詞項B(Term B)

位置 3 (Term Not-2):非B詞項(Term Not-B)

位置 4 (Term Not-1):非A詞項(Term Not-A)

Term A和TermB是相反的兩個概念鳞溉,二者是對立關(guān)系熟菲,這是“符號方塊”的基礎(chǔ)抄罕,另外兩項是通過對Term A和Term B取反而獲得于颖。

(2)元詞項 (Metaterms)

Semiotic Square囊括6個元詞項森渐。這些元詞項由上面的4個基礎(chǔ)詞項組合而成同衣,其中的絕大部分元詞項已被命名。

位置5 (Term 1 + Term 2):復(fù)合詞項(Complex Term)

位置6 (Term 3 + Term 4):中立詞項(Neutral Term)

位置7 (Term 1 + Term 3):正向系(Positive Deixis)

位置8 (Term 2 + Term 4):負向系(Negative Deixis)

位置9(Term 1 + Term 4):未命名(Unnamed)

位置10(Term 2 + Term 3):未命名(Unnamed)

下面以“男性”和“女性”這兩個相對的概念來舉個例子彩郊,注意其中錯綜復(fù)雜的邏輯關(guān)系/類型。

說完了分析的大致原理询枚,筆者這里就來實戰(zhàn)一番金蜀,與上述原始模型不同的是渊抄,筆者在這里除了基本的二元對立分析外护桦,還新增了一個分析維度煎娇,總體是關(guān)于《全唐詩》赵誓、《全宋詞》和《全元曲》的三元文本對比分析。

預(yù)處理前的文本是這樣的:

預(yù)處理后是這樣的形式:

用Semiotic Squares進行分析的結(jié)果如下圖所示:

從上面呈現(xiàn)的TOP10高頻字和象限區(qū)塊(左上角“唐詩”荐操、右上角“宋詞”和正下方“元曲”)來看攀涵,唐詩汁果、宋詞、元曲中出現(xiàn)的獨有高頻字依次是:

唐詩:唯鳄乏、馀橱野、始水援、鳥茅郎、含系冗、爾掌敬、昔奔害、茲、忽棋弥、棲、川振亮、旌、戎死相、秦…

宋詞:闌倒彰、沈、匆碧浊、簾幢哨、濃、約岸售、淡凸丸、觴屎慢、蕊、屏环肘、凝悔雹、笙腌零、瑤益涧、柔…

元曲:哥、俺饰躲、咱嘹裂、孩寄狼、姐泊愧、吃删咱、哩痰滋、科、廝团搞、拿逻恐、你复隆、叫昏名、呀、呵…

從上面的關(guān)鍵字來看,唐詩仑扑、宋詞和元曲各自的特征很鮮明:

唐詩:用字清澹高華镇饮、含蓄储藐,詩味較濃钙勃,寄情山水和金戈鐵馬的特征明顯辖源,可以聯(lián)想到唐詩流派中典型的山水田園派盛唐邊塞詩克饶,它們大都反映大唐詩人志趣高遠矾湃、投效報國的情懷洲尊。

宋詞:所用的字體現(xiàn)出婉約坞嘀、宛轉(zhuǎn)柔美丽涩,表現(xiàn)的多是兒女情長矢渊,生活點滴枉证,這也難怪室谚,由于長期以來詞多趨于宛轉(zhuǎn)柔美,人們便形成了以婉約為正宗的觀念憎瘸。

元曲:所用的字生活氣息濃重幌甘,通俗易懂锅风、接地氣皱埠、詼諧漱逸、灑脫和率真饰抒,充分反映了其民間戲曲的特征袋坑,這與蒙元治下的漢族知識分子被打壓,很多文人郁郁不得志枣宫、轉(zhuǎn)入到民間戲曲的創(chuàng)作中來有關(guān)也颤。

此外翅娶,正上方的“復(fù)合”中竭沫,表征的是三者皆常用的字蜕提,即共性特征谎势,主要涉及寫景(如 “晴”它浅、“幽”姐霍、“溪”镊折、“洲”恨胚、“霜”赃泡、“浦”升熊、“露”级野、 “碧”蓖柔、“帆”况鸣、“峰”等)和抒情(等“悵”镐捧、“憶”愤估、“寂”玩焰、“悠”等)蔓榄。

下方的兩個象限甥郑,“Not 唐詩”和“Not 宋詞”分別代表的“宋詞+元曲”、“唐詩+元曲”荤西,三者之二的共性高頻字澜搅,中的兩項也以此類推。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末邪锌,一起剝皮案震驚了整個濱河市勉躺,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌觅丰,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,546評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件妇萄,死亡現(xiàn)場離奇詭異蜕企,居然都是意外死亡,警方通過查閱死者的電腦和手機冠句,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,224評論 3 395
  • 文/潘曉璐 我一進店門轻掩,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人轩端,你說我怎么就攤上這事放典。” “怎么了基茵?”我有些...
    開封第一講書人閱讀 164,911評論 0 354
  • 文/不壞的土叔 我叫張陵奋构,是天一觀的道長。 經(jīng)常有香客問我拱层,道長弥臼,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,737評論 1 294
  • 正文 為了忘掉前任根灯,我火速辦了婚禮径缅,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘烙肺。我一直安慰自己纳猪,他們只是感情好,可當我...
    茶點故事閱讀 67,753評論 6 392
  • 文/花漫 我一把揭開白布桃笙。 她就那樣靜靜地躺著氏堤,像睡著了一般。 火紅的嫁衣襯著肌膚如雪搏明。 梳的紋絲不亂的頭發(fā)上鼠锈,一...
    開封第一講書人閱讀 51,598評論 1 305
  • 那天闪檬,我揣著相機與錄音,去河邊找鬼购笆。 笑死粗悯,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的同欠。 我是一名探鬼主播样傍,決...
    沈念sama閱讀 40,338評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼行您!你這毒婦竟也來了铭乾?” 一聲冷哼從身側(cè)響起剪廉,我...
    開封第一講書人閱讀 39,249評論 0 276
  • 序言:老撾萬榮一對情侶失蹤娃循,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后斗蒋,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體捌斧,經(jīng)...
    沈念sama閱讀 45,696評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,888評論 3 336
  • 正文 我和宋清朗相戀三年泉沾,在試婚紗的時候發(fā)現(xiàn)自己被綠了捞蚂。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,013評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡跷究,死狀恐怖姓迅,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情俊马,我是刑警寧澤丁存,帶...
    沈念sama閱讀 35,731評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站柴我,受9級特大地震影響解寝,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜艘儒,卻給世界環(huán)境...
    茶點故事閱讀 41,348評論 3 330
  • 文/蒙蒙 一聋伦、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧界睁,春花似錦觉增、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,929評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至杨赤,卻和暖如春敞斋,著一層夾襖步出監(jiān)牢的瞬間截汪,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,048評論 1 270
  • 我被黑心中介騙來泰國打工植捎, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留衙解,地道東北人。 一個月前我還...
    沈念sama閱讀 48,203評論 3 370
  • 正文 我出身青樓焰枢,卻偏偏與公主長得像蚓峦,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子济锄,可洞房花燭夜當晚...
    茶點故事閱讀 44,960評論 2 355

推薦閱讀更多精彩內(nèi)容