使用python統(tǒng)計(jì)tex字?jǐn)?shù)（一）：最精簡(jiǎn)版本

人生苦短，我用Python！

tex大法好熏版，適合科技論文的寫作，不用每次看著word奔潰或者是占據(jù)很大的內(nèi)存缀匕。就像寫一個(gè)txt文檔一樣的簡(jiǎn)潔優(yōu)雅纳决，用命令行編譯就能編譯出pdf文件。但是同時(shí)沒有所見即所得的方便和字?jǐn)?shù)統(tǒng)計(jì)等功能乡小。

由于Tex的是一種標(biāo)記語(yǔ)言阔加，所以是語(yǔ)法、命令和內(nèi)容混合在一起的满钟。想要統(tǒng)計(jì)純內(nèi)容的字?jǐn)?shù)胜榔，需要解決的問題如下：

區(qū)分語(yǔ)法和內(nèi)容
統(tǒng)計(jì)語(yǔ)法調(diào)用
統(tǒng)計(jì)文章結(jié)構(gòu)
在網(wǎng)上下載了texcount軟件，試用之后發(fā)現(xiàn)這貨竟然沒法統(tǒng)計(jì)input文件的任何數(shù)據(jù)湃番。所以就萌生了想自己寫個(gè)tex解析的腳本來(lái)統(tǒng)計(jì)tex源文件的字?jǐn)?shù)夭织。

因?yàn)閠ex文件可以通過include和input兩個(gè)命令來(lái)添加外部的文件，所以這里可以使用遞歸的方式將所有的主文件包括加載的其它所有文件進(jìn)行匯總吠撮。為之后的統(tǒng)計(jì)提供文件讀取支持尊惰。

下面是一個(gè)最精簡(jiǎn)版本的tex統(tǒng)計(jì)代碼，旨在說(shuō)明運(yùn)行過程，在后續(xù)的過程中我會(huì)逐漸完善這個(gè)統(tǒng)計(jì)工具弄屡。

#coding:utf-8

import os,sys

def readTex(fileName):
    curPath=os.path.dirname(fileName)
    lineArray=[]
    with open(fileName,'r') as f:
        lines=f.readlines()
        for line in lines:
            line=line.strip()
            if '\include' in line or '\input' in line:
                fileName=line.split("{")[1][0:-1]+".tex"
                lineArray.extend(readTex(os.path.join(curPath,fileName)))
            else:
                lineArray.append(line)
    return lineArray
    
def count(lineArray):
    count=0
    for line in lineArray:
        if not line.startswith("\\"):
            count+=len(line.split(" "))
    return count

if __name__ == '__main__':
    texFile=sys.argv[1]
    print count(readTex(texFile))

上面的代碼已經(jīng)可以統(tǒng)計(jì)出來(lái)了tex中正文內(nèi)容的字?jǐn)?shù)题禀，但是是不準(zhǔn)確的，主要原因有以下幾點(diǎn)：

基本沒做語(yǔ)法剔除膀捷，只是將\為一行開頭的語(yǔ)法直接去除了迈嘹。
正文中可能使用了一些其他的語(yǔ)法，比如\site,\label,\ref等全庸。這些都對(duì)最終的字?jǐn)?shù)產(chǎn)生了影響秀仲。
只統(tǒng)計(jì)了正文，一個(gè)健全的tex統(tǒng)計(jì)工具還需要有語(yǔ)法元素的統(tǒng)計(jì)壶笼。

預(yù)告：下一節(jié)中神僵，我們會(huì)增加部分功能，具體的功能的增加視情況而定拌消。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末挑豌，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子墩崩，更是在濱河造成了極大的恐慌氓英，老刑警劉巖，帶你破解...
沈念sama閱讀 218,682評(píng)論 6贊 507
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件鹦筹，死亡現(xiàn)場(chǎng)離奇詭異铝阐，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)铐拐，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,277評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門徘键，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)，“玉大人遍蟋，你說(shuō)我怎么就攤上這事吹害。” “怎么了虚青？”我有些...
開封第一講書人閱讀 165,083評(píng)論 0贊 355
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵它呀，是天一觀的道長(zhǎng)。經(jīng)常有香客問我棒厘，道長(zhǎng)纵穿，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,763評(píng)論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任奢人，我火速辦了婚禮谓媒，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘何乎。我一直安慰自己句惯，他們只是感情好土辩，可當(dāng)我...
茶點(diǎn)故事閱讀 67,785評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開白布。她就那樣靜靜地躺著宗弯，像睡著了一般脯燃。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上蒙保，一...
開封第一講書人閱讀 51,624評(píng)論 1贊 305
城市分裂傳說(shuō)
那天，我揣著相機(jī)與錄音欲主，去河邊找鬼邓厕。笑死，一個(gè)胖子當(dāng)著我的面吹牛扁瓢，可吹牛的內(nèi)容都是我干的详恼。我是一名探鬼主播，決...
沈念sama閱讀 40,358評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼引几，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼昧互！你這毒婦竟也來(lái)了？” 一聲冷哼從身側(cè)響起伟桅，我...
開封第一講書人閱讀 39,261評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤敞掘，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后楣铁，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體玖雁，經(jīng)...
沈念sama閱讀 45,722評(píng)論 1贊 315
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,900評(píng)論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年盖腕，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了赫冬。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 40,030評(píng)論 1贊 350
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡溃列，死狀恐怖劲厌，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情听隐，我是刑警寧澤补鼻，帶...
沈念sama閱讀 35,737評(píng)論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站遵绰，受9級(jí)特大地震影響辽幌，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜椿访，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,360評(píng)論 3贊 330
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一乌企、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧成玫，春花似錦加酵、人聲如沸拳喻。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,941評(píng)論 0贊 22
一樁弒父案猪腕，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)冗澈。三九已至，卻和暖如春陋葡，著一層夾襖步出監(jiān)牢的瞬間亚亲，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,057評(píng)論 1贊 270
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工腐缤，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留捌归，地道東北人。一個(gè)月前我還...
沈念sama閱讀 48,237評(píng)論 3贊 371
代替公主和親
正文我出身青樓岭粤，卻偏偏與公主長(zhǎng)得像惜索，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子剃浇，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,976評(píng)論 2贊 355

使用python統(tǒng)計(jì)tex字?jǐn)?shù)（一）：最精簡(jiǎn)版本

推薦閱讀更多精彩內(nèi)容