懶得看文章直接找repo的話點(diǎn)這里
前言
最近想到了文言文編程這個(gè)腦洞,正好又看到Haskell里面有Parsec
這個(gè)包滓侍,然后就決定試一下了orz
所以打算從最簡(jiǎn)單的開始入手蒋川,也就是將有一定格式的文言文翻譯成Python的代碼,比如像下面這個(gè)(插入排序):
有略名 排序 其參名 數(shù)列 其文曰
凡 巡 之于 數(shù)數(shù)自 1 至 求長(zhǎng)于 數(shù)列 之中 所得之?dāng)?shù) 是也 為
媒 者 數(shù)列 諸 巡 位之?dāng)?shù) 也
今 者 巡 減 1 也
復(fù)為之撩笆,方 今 非小于 0 與 媒 小于 數(shù)列 諸 今 位之?dāng)?shù) 乃止
數(shù)列 諸 今 加 1 所得之?dāng)?shù) 位之?dāng)?shù) 換作 數(shù)列 諸 今 位之?dāng)?shù)
今 謫 1 也
數(shù)列 諸 今 加 1 位之?dāng)?shù) 換作 媒 也
可以看到整體的樣式是和Python的代碼是一致的捺球,這樣的話可以減少我們寫的解釋器的工作量,但缺點(diǎn)的話夕冲,很明顯氮兵,并不像自然語(yǔ)言。歹鱼。泣栈。
一開始看上去很簡(jiǎn)單
首先我們來(lái)看看Text.ParserCombinators.Parsec
這一Package,它可以將一大段文字的每一行和每一個(gè)單詞提取出來(lái)建成一個(gè)二維數(shù)組,這歌其實(shí)和
parse :: String -> [[String]]
parse x = map words $ lines x
這樣的一段代碼差不多南片,不過(guò)有一個(gè)區(qū)別就是Parsec
里面的parse會(huì)把每一個(gè)空格也記錄起來(lái)掺涛,這樣我們家可以寫出這樣的一個(gè)函數(shù)將輸入的內(nèi)容分成每一個(gè)詞:
wyFile = endBy line eol
line = sepBy cell (char ' ')
cell = many (noneOf " \n")
eol = char '\n'
-- convert to single word
parseTo :: String -> Either ParseError [[String]]
parseTo = parse wyFile "(unknown)"
然后我們要建立一個(gè)文言文和Python代碼之間對(duì)應(yīng)的一個(gè)表,這個(gè)在Words.hs
里面疼进,簡(jiǎn)單來(lái)說(shuō)就是一個(gè)tuple的數(shù)組而已(像下面這個(gè))
keywords :: [(String, String)]
keywords =
[
("者", "="),
("今乃", "="),
("換作", "="),
("也", " ")
-- etc
]
然后我們要做的就是寫一個(gè)將識(shí)別到的文言指令替換成Python代碼的函數(shù):
-- replace Wenyan sytax with Python syntax
replace :: (Eq a) => a -> [(a, a)] -> a
replace x ((a, b):ys)
| x == a = b
| x /= a && ys /= [] = replace x ys
| otherwise = x
replaceList :: (Eq a) => [a] -> [(a, a)] -> [a]
replaceList [] _ = []
replaceList xs ys = map (`replace` ys) xs
這段代碼也不難理解薪缆,簡(jiǎn)單來(lái)說(shuō)就是歷盡里面的每一個(gè)詞語(yǔ)然后將符合的詞進(jìn)行替換。
最后我們只要將這個(gè)List轉(zhuǎn)換回有格式的String再輸出就可以了
-- convert back to normal format
parseBack :: [[String]] -> String
parseBack x = unlines $ map unwords x
但是事實(shí)并非如此
因?yàn)镻ython并不支持中文的變量名和函數(shù)名颠悬,所以我們還要進(jìn)一步操作矮燎。
首先是變量名定血, 因?yàn)镻ython定義變量并不需要在前面加上如let
之類的赔癌,所以一個(gè)折中的辦法就是讓寫代碼的人先在一行提前聲明之后需要用到的中文變量名,也就是所提到的:有參者 <變量1> <變量2> <...>
這個(gè)語(yǔ)句澜沟。尋找這個(gè)語(yǔ)句的方式其實(shí)也是歷遍灾票。。茫虽。
findVar :: [[String]] -> [String]
findVar (x:xs)
| null x = findVar xs
| head x == varkey = tail x
| otherwise = findVar xs
transVar :: [String] -> [(String,String)]
transVar [] = []
transVar (x:xs) = let l = length xs in (x, "var" ++ show l) : transVar xs
接下來(lái)便是將中文的變量名轉(zhuǎn)換成英文刊苍,我選擇的辦法是數(shù)出有多少個(gè)變量然后統(tǒng)一以var為開頭命名,后面加上編號(hào)濒析。
同樣會(huì)遇到問(wèn)題的就是函數(shù)和類的命名正什,這里的話方法也是類似的,感興趣的話可以參考一下源代碼這里就不展示了号杏。
到了這里整個(gè)程序基本上是寫完了的婴氮。
最后翻譯出來(lái)長(zhǎng)這個(gè)樣子:
def fun0 ( var4 ):
for var3 in range( 1 , len( var4 ) ) :
var2 = var4 [ var3 ]
var1 = var3 - 1
while var1 >= 0 and var2 < var4 [ var1 ] :
var4 [ var1 + 1 ] = var4 [ var1 ]
var1 -= 1
var4 [ var1 + 1 ] = var2
結(jié)語(yǔ)
總的來(lái)說(shuō)整個(gè)程序要的思路其實(shí)并不難,加上Haskell的Higher Order Function這一個(gè)利器盾致,整個(gè)主程序的代碼才80行不到XD
當(dāng)然這個(gè)程序還是存在相當(dāng)多的不足主经,像是只是支持很少的函數(shù),以及非常多不符合自然語(yǔ)言習(xí)慣的內(nèi)容庭惜。不過(guò)最麻煩的還是縮進(jìn)罩驻,這個(gè)在未來(lái)的版本肯定是要去掉的!