2018年1月28日
Emerson_G
《全唐詩(shī)》是唐代詩(shī)歌全面的收錄提前,全書包括四萬(wàn)多首詩(shī)詞吗货,兩千多位作者,非常好地覆蓋了唐朝知名的詩(shī)歌狈网。
這里整理了一份全唐詩(shī)的結(jié)構(gòu)化的語(yǔ)料宙搬,包括簡(jiǎn)體版本和繁體版本的一一對(duì)照。
全唐詩(shī)總計(jì)900卷拓哺,每首詩(shī)的結(jié)構(gòu)包括標(biāo)題勇垛、作者、詩(shī)三部分士鸥。其中“卷七百九十五”和“卷七百九十六”是輯錄的“佚句”闲孤,只是零散的句子,沒有作者或獨(dú)立成篇烤礁。所以讼积,處理的時(shí)候肥照,這兩卷沒做處理。
附語(yǔ)料地址:https://github.com/dream-catcher/learning_blogs/tree/master/Quantangshi_Corpus
結(jié)構(gòu)化格式
整理的結(jié)構(gòu)化JSON信息格式如下:
[
???????? "index",?? #索引id
???????? "volume_num",#原書的“卷名”
???????? "simplified_author",?#簡(jiǎn)體版作者
???????? "simplified_title",? #簡(jiǎn)體版標(biāo)題
???????? "simplified_poem",? #簡(jiǎn)體版詩(shī)正文
???????? "simplified_poem_orig",#簡(jiǎn)體版詩(shī)原始正文
???????? "tradtional_author",?#繁體版作者
???????? "tradtional_title",??#繁體版標(biāo)題
???????? "tradtional_poem",?#繁體版詩(shī)
???????? "tradtional_poem_orig"? #繁體版詩(shī)原始正文
]
默認(rèn)情況下勤众,simplified_poem_orig及tradtional_poem_orig兩個(gè)字段為null舆绎。
如果原始的詩(shī)正文中包含說明文字,如括號(hào)內(nèi)的說明或破折號(hào)說明聯(lián)句的作者這類情況们颜,已經(jīng)對(duì)這類句子進(jìn)行了清洗吕朵,把清洗后的詩(shī)正文放在simplified_poem及tradtional_poem兩個(gè)位置,而原始正文放在simplified_poem_orig及tradtional_poem_orig位置窥突。
簡(jiǎn)單統(tǒng)計(jì)
整理的唐詩(shī)總計(jì)41560首努溃,2317位詩(shī)人,簡(jiǎn)單的統(tǒng)計(jì)如下:
白居易:2620
杜甫:1144
李白:847
齊己:779
無(wú)名氏:765
劉禹錫:694
元稹:588
貫休:546
韋應(yīng)物:543
李商隱:530
陸龜蒙:518
許渾:507
劉長(zhǎng)卿:502
皎然:492
杜牧:490
羅隱:468
姚合:455
張籍:445
錢起:429
賈島:401
孟郊:391
岑參:386
王建:379
韓愈:368
張祜:360
皮日休:353
王維:345
溫庭筠:343
權(quán)德輿:338
方干:336