使用python統(tǒng)計(jì)tex字?jǐn)?shù)(一):最精簡(jiǎn)版本

人生苦短,我用Python!

tex大法好熏版,適合科技論文的寫作,不用每次看著word奔潰或者是占據(jù)很大的內(nèi)存缀匕。就像寫一個(gè)txt文檔一樣的簡(jiǎn)潔優(yōu)雅纳决,用命令行編譯就能編譯出pdf文件。但是同時(shí)沒有所見即所得的方便和字?jǐn)?shù)統(tǒng)計(jì)等功能乡小。

由于Tex的是一種標(biāo)記語(yǔ)言阔加,所以是語(yǔ)法、命令和內(nèi)容混合在一起的满钟。想要統(tǒng)計(jì)純內(nèi)容的字?jǐn)?shù)胜榔,需要解決的問題如下:

  1. 區(qū)分語(yǔ)法和內(nèi)容
  2. 統(tǒng)計(jì)語(yǔ)法調(diào)用
  3. 統(tǒng)計(jì)文章結(jié)構(gòu)
    在網(wǎng)上下載了texcount軟件,試用之后發(fā)現(xiàn)這貨竟然沒法統(tǒng)計(jì)input文件的任何數(shù)據(jù)湃番。所以就萌生了想自己寫個(gè)tex解析的腳本來(lái)統(tǒng)計(jì)tex源文件的字?jǐn)?shù)夭织。

因?yàn)閠ex文件可以通過include和input兩個(gè)命令來(lái)添加外部的文件,所以這里可以使用遞歸的方式將所有的主文件包括加載的其它所有文件進(jìn)行匯總吠撮。為之后的統(tǒng)計(jì)提供文件讀取支持尊惰。

下面是一個(gè)最精簡(jiǎn)版本的tex統(tǒng)計(jì)代碼,旨在說(shuō)明運(yùn)行過程,在后續(xù)的過程中我會(huì)逐漸完善這個(gè)統(tǒng)計(jì)工具弄屡。

#coding:utf-8

import os,sys

def readTex(fileName):
    curPath=os.path.dirname(fileName)
    lineArray=[]
    with open(fileName,'r') as f:
        lines=f.readlines()
        for line in lines:
            line=line.strip()
            if '\include' in line or '\input' in line:
                fileName=line.split("{")[1][0:-1]+".tex"
                lineArray.extend(readTex(os.path.join(curPath,fileName)))
            else:
                lineArray.append(line)
    return lineArray
    
def count(lineArray):
    count=0
    for line in lineArray:
        if not line.startswith("\\"):
            count+=len(line.split(" "))
    return count

if __name__ == '__main__':
    texFile=sys.argv[1]
    print count(readTex(texFile))

上面的代碼已經(jīng)可以統(tǒng)計(jì)出來(lái)了tex中正文內(nèi)容的字?jǐn)?shù)题禀,但是是不準(zhǔn)確的,主要原因有以下幾點(diǎn):

  1. 基本沒做語(yǔ)法剔除膀捷,只是將\為一行開頭的語(yǔ)法直接去除了迈嘹。
  2. 正文中可能使用了一些其他的語(yǔ)法,比如\site,\label,\ref等全庸。這些都對(duì)最終的字?jǐn)?shù)產(chǎn)生了影響秀仲。
  3. 只統(tǒng)計(jì)了正文,一個(gè)健全的tex統(tǒng)計(jì)工具還需要有語(yǔ)法元素 的統(tǒng)計(jì)壶笼。

預(yù)告:下一節(jié)中神僵,我們會(huì)增加部分功能,具體的功能的增加視情況而定拌消。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末挑豌,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子墩崩,更是在濱河造成了極大的恐慌氓英,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,682評(píng)論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件鹦筹,死亡現(xiàn)場(chǎng)離奇詭異铝阐,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)铐拐,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,277評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門徘键,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人遍蟋,你說(shuō)我怎么就攤上這事吹害。” “怎么了虚青?”我有些...
    開封第一講書人閱讀 165,083評(píng)論 0 355
  • 文/不壞的土叔 我叫張陵它呀,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我棒厘,道長(zhǎng)纵穿,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,763評(píng)論 1 295
  • 正文 為了忘掉前任奢人,我火速辦了婚禮谓媒,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘何乎。我一直安慰自己句惯,他們只是感情好土辩,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,785評(píng)論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著宗弯,像睡著了一般脯燃。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上蒙保,一...
    開封第一講書人閱讀 51,624評(píng)論 1 305
  • 那天,我揣著相機(jī)與錄音欲主,去河邊找鬼邓厕。 笑死,一個(gè)胖子當(dāng)著我的面吹牛扁瓢,可吹牛的內(nèi)容都是我干的详恼。 我是一名探鬼主播,決...
    沈念sama閱讀 40,358評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼引几,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼昧互!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起伟桅,我...
    開封第一講書人閱讀 39,261評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤敞掘,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后楣铁,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體玖雁,經(jīng)...
    沈念sama閱讀 45,722評(píng)論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,900評(píng)論 3 336
  • 正文 我和宋清朗相戀三年盖腕,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了赫冬。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,030評(píng)論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡溃列,死狀恐怖劲厌,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情听隐,我是刑警寧澤补鼻,帶...
    沈念sama閱讀 35,737評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站遵绰,受9級(jí)特大地震影響辽幌,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜椿访,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,360評(píng)論 3 330
  • 文/蒙蒙 一乌企、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧成玫,春花似錦加酵、人聲如沸拳喻。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,941評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)冗澈。三九已至,卻和暖如春陋葡,著一層夾襖步出監(jiān)牢的瞬間亚亲,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,057評(píng)論 1 270
  • 我被黑心中介騙來(lái)泰國(guó)打工腐缤, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留捌归,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,237評(píng)論 3 371
  • 正文 我出身青樓岭粤,卻偏偏與公主長(zhǎng)得像惜索,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子剃浇,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,976評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容

  • linux資料總章2.1 1.0寫的不好抱歉 但是2.0已經(jīng)改了很多 但是錯(cuò)誤還是無(wú)法避免 以后資料會(huì)慢慢更新 大...
    數(shù)據(jù)革命閱讀 12,168評(píng)論 2 33
  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理巾兆,服務(wù)發(fā)現(xiàn),斷路器虎囚,智...
    卡卡羅2017閱讀 134,659評(píng)論 18 139
  • Ubuntu的發(fā)音 Ubuntu,源于非洲祖魯人和科薩人的語(yǔ)言适揉,發(fā)作 oo-boon-too 的音留攒。了解發(fā)音是有意...
    螢火蟲de夢(mèng)閱讀 99,274評(píng)論 9 467
  • 這一系列(將來(lái))的文章充分證明了我的迷茫。 我很確信:想不清楚自己未來(lái)想要的生活嫉嘀、想不清楚自己的人生炼邀、不知道自己喜...
    keep十四君閱讀 136評(píng)論 0 0
  • 每個(gè)孩子的降臨都是上帝對(duì)父母的恩賜,那如果這個(gè)孩子有一堆爸媽呢剪侮? 曬娃時(shí)間到J媚!瓣俯! 一群熱血的咖啡瘋子們經(jīng)過了幾個(gè)...
    楊四壺閱讀 235評(píng)論 0 0