用文言文寫Python

懶得看文章直接找repo的話點(diǎn)這里

前言

最近想到了文言文編程這個(gè)腦洞,正好又看到Haskell里面有Parsec這個(gè)包滓侍,然后就決定試一下了orz
所以打算從最簡(jiǎn)單的開始入手蒋川,也就是將有一定格式的文言文翻譯成Python的代碼,比如像下面這個(gè)(插入排序):

有略名 排序 其參名 數(shù)列 其文曰
    凡 巡 之于 數(shù)數(shù)自 1 至 求長(zhǎng)于 數(shù)列 之中 所得之?dāng)?shù) 是也 為
        媒 者 數(shù)列 諸 巡 位之?dāng)?shù) 也
        今 者 巡 減 1 也
        復(fù)為之撩笆,方 今 非小于 0 與 媒 小于 數(shù)列 諸 今 位之?dāng)?shù) 乃止
            數(shù)列 諸 今 加 1 所得之?dāng)?shù) 位之?dāng)?shù) 換作 數(shù)列 諸 今 位之?dāng)?shù)
            今 謫 1 也
        數(shù)列 諸 今 加 1 位之?dāng)?shù) 換作 媒 也

可以看到整體的樣式是和Python的代碼是一致的捺球,這樣的話可以減少我們寫的解釋器的工作量,但缺點(diǎn)的話夕冲,很明顯氮兵,并不像自然語(yǔ)言。歹鱼。泣栈。

一開始看上去很簡(jiǎn)單

首先我們來(lái)看看Text.ParserCombinators.Parsec這一Package,它可以將一大段文字的每一行和每一個(gè)單詞提取出來(lái)建成一個(gè)二維數(shù)組,這歌其實(shí)和

parse :: String -> [[String]]
parse x = map words $ lines x

這樣的一段代碼差不多南片,不過(guò)有一個(gè)區(qū)別就是Parsec里面的parse會(huì)把每一個(gè)空格也記錄起來(lái)掺涛,這樣我們家可以寫出這樣的一個(gè)函數(shù)將輸入的內(nèi)容分成每一個(gè)詞:

wyFile = endBy line eol
line   = sepBy cell (char ' ')
cell   = many (noneOf " \n")
eol    = char '\n'

-- convert to single word
parseTo :: String -> Either ParseError [[String]]
parseTo = parse wyFile "(unknown)"

然后我們要建立一個(gè)文言文和Python代碼之間對(duì)應(yīng)的一個(gè)表,這個(gè)在Words.hs里面疼进,簡(jiǎn)單來(lái)說(shuō)就是一個(gè)tuple的數(shù)組而已(像下面這個(gè))

keywords :: [(String, String)]
keywords = 
    [
        ("者", "="),
        ("今乃", "="),
        ("換作", "="),
        ("也", " ")
        -- etc
]

然后我們要做的就是寫一個(gè)將識(shí)別到的文言指令替換成Python代碼的函數(shù):

-- replace Wenyan sytax with Python syntax
replace :: (Eq a) => a -> [(a, a)] -> a
replace x ((a, b):ys)
    | x == a             = b
    | x /= a && ys /= [] = replace x ys
    | otherwise          = x

replaceList :: (Eq a) => [a] -> [(a, a)] -> [a]
replaceList [] _  = []
replaceList xs ys = map (`replace` ys) xs

這段代碼也不難理解薪缆,簡(jiǎn)單來(lái)說(shuō)就是歷盡里面的每一個(gè)詞語(yǔ)然后將符合的詞進(jìn)行替換。
最后我們只要將這個(gè)List轉(zhuǎn)換回有格式的String再輸出就可以了

-- convert back to normal format
parseBack :: [[String]] -> String
parseBack x = unlines $ map unwords x

但是事實(shí)并非如此

因?yàn)镻ython并不支持中文的變量名和函數(shù)名颠悬,所以我們還要進(jìn)一步操作矮燎。

首先是變量名定血, 因?yàn)镻ython定義變量并不需要在前面加上如let之類的赔癌,所以一個(gè)折中的辦法就是讓寫代碼的人先在一行提前聲明之后需要用到的中文變量名,也就是所提到的:有參者 <變量1> <變量2> <...>這個(gè)語(yǔ)句澜沟。尋找這個(gè)語(yǔ)句的方式其實(shí)也是歷遍灾票。。茫虽。

findVar :: [[String]] -> [String]
findVar (x:xs)
    | null x           = findVar xs
    | head x == varkey = tail x
    | otherwise        = findVar xs

transVar :: [String] -> [(String,String)]
transVar []             = []
transVar (x:xs) = let l = length xs in (x, "var" ++ show l) : transVar xs

接下來(lái)便是將中文的變量名轉(zhuǎn)換成英文刊苍,我選擇的辦法是數(shù)出有多少個(gè)變量然后統(tǒng)一以var為開頭命名,后面加上編號(hào)濒析。
同樣會(huì)遇到問(wèn)題的就是函數(shù)和類的命名正什,這里的話方法也是類似的,感興趣的話可以參考一下源代碼這里就不展示了号杏。
到了這里整個(gè)程序基本上是寫完了的婴氮。
最后翻譯出來(lái)長(zhǎng)這個(gè)樣子:

def fun0 ( var4 ): 
    for var3 in range( 1 , len( var4 )  ) : 
        var2 = var4 [ var3 ]  
        var1 = var3 - 1  
        while var1 >= 0 and var2 < var4 [ var1 ] :
            var4 [ var1 + 1  ] = var4 [ var1 ]
            var1 -= 1  
        var4 [ var1 + 1 ] = var2 

結(jié)語(yǔ)

總的來(lái)說(shuō)整個(gè)程序要的思路其實(shí)并不難,加上Haskell的Higher Order Function這一個(gè)利器盾致,整個(gè)主程序的代碼才80行不到XD
當(dāng)然這個(gè)程序還是存在相當(dāng)多的不足主经,像是只是支持很少的函數(shù),以及非常多不符合自然語(yǔ)言習(xí)慣的內(nèi)容庭惜。不過(guò)最麻煩的還是縮進(jìn)罩驻,這個(gè)在未來(lái)的版本肯定是要去掉的!

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末护赊,一起剝皮案震驚了整個(gè)濱河市惠遏,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌骏啰,老刑警劉巖节吮,帶你破解...
    沈念sama閱讀 219,539評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異器一,居然都是意外死亡课锌,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,594評(píng)論 3 396
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)渺贤,“玉大人雏胃,你說(shuō)我怎么就攤上這事≈景埃” “怎么了瞭亮?”我有些...
    開封第一講書人閱讀 165,871評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)固棚。 經(jīng)常有香客問(wèn)我统翩,道長(zhǎng),這世上最難降的妖魔是什么此洲? 我笑而不...
    開封第一講書人閱讀 58,963評(píng)論 1 295
  • 正文 為了忘掉前任厂汗,我火速辦了婚禮,結(jié)果婚禮上呜师,老公的妹妹穿的比我還像新娘娶桦。我一直安慰自己,他們只是感情好汁汗,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,984評(píng)論 6 393
  • 文/花漫 我一把揭開白布衷畦。 她就那樣靜靜地躺著,像睡著了一般知牌。 火紅的嫁衣襯著肌膚如雪祈争。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,763評(píng)論 1 307
  • 那天角寸,我揣著相機(jī)與錄音菩混,去河邊找鬼。 笑死袭厂,一個(gè)胖子當(dāng)著我的面吹牛墨吓,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播纹磺,決...
    沈念sama閱讀 40,468評(píng)論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼帖烘,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了橄杨?” 一聲冷哼從身側(cè)響起秘症,我...
    開封第一講書人閱讀 39,357評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎式矫,沒(méi)想到半個(gè)月后乡摹,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,850評(píng)論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡采转,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,002評(píng)論 3 338
  • 正文 我和宋清朗相戀三年聪廉,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了瞬痘。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,144評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡板熊,死狀恐怖框全,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情干签,我是刑警寧澤津辩,帶...
    沈念sama閱讀 35,823評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站容劳,受9級(jí)特大地震影響喘沿,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜竭贩,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,483評(píng)論 3 331
  • 文/蒙蒙 一蚜印、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧娶视,春花似錦晒哄、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,026評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)柒傻。三九已至孝赫,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間红符,已是汗流浹背青柄。 一陣腳步聲響...
    開封第一講書人閱讀 33,150評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留预侯,地道東北人致开。 一個(gè)月前我還...
    沈念sama閱讀 48,415評(píng)論 3 373
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像萎馅,于是被迫代替她去往敵國(guó)和親双戳。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,092評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容