Python中文件的讀取

讀寫文件是數(shù)據(jù)分析中常用的操作。Python內(nèi)置了讀寫文件的函數(shù)。
需要了解的是虽画,在磁盤上讀寫文件的功能都是由操作系統(tǒng)提供的,現(xiàn)代操作系統(tǒng)不允許普通的程序直接操作磁盤荣病,所以码撰,讀寫文件就是請(qǐng)求操作系統(tǒng)打開一個(gè)文件對(duì)象(通常稱為文件描述符),然后个盆,通過操作系統(tǒng)提供的接口從這個(gè)文件對(duì)象中讀取數(shù)據(jù)(讀文件)脖岛,或者把數(shù)據(jù)寫入這個(gè)文件對(duì)象(寫文件)。

讀文件
  1. open
    使用open打開文件后一定要記得調(diào)用文件對(duì)象的close()方法颊亮。比如可以用try/finally語(yǔ)句來確保最后能關(guān)閉文件柴梆。
file_object = open('thefile.txt')
try:
     all_the_text = file_object.read( )
finally:
     file_object.close( )

注:不能把open語(yǔ)句放在try塊里,因?yàn)楫?dāng)打開文件出現(xiàn)異常時(shí)终惑,文件對(duì)象file_object無法執(zhí)行close()方法绍在。

  1. read
    讀文本文件
input = open('data', 'r')
# 第二個(gè)參數(shù)默認(rèn)為r
input = open('data')

讀二進(jìn)制文件

input = open('data', 'rb')
讀取所有內(nèi)容
file_object = open('thefile.txt')
try:
    all_the_text = file_object.read()
finally:
    file_object.close()

讀固定字節(jié)

file_object = open('abinfile', 'rb')
try:
    while True:
        chunk = file_object.read(100)
    if not chunk:
        break
    do_something_with(chunk)
finally:
    file_object.close()

讀每行

list_of_all_the_lines = file_object.readlines()

如果文件是文本文件,還可以直接遍歷文件對(duì)象獲取每行:

for line in file_object:
    process line
寫文件

寫文本文件

output = open('data', 'w')

寫二進(jìn)制文件

output = open('data', 'wb')

追加寫文件

output = open('data', 'w+')

寫數(shù)據(jù)

file_object = open('thefile.txt', 'w')
file_object.write(all_the_text)
file_object.close()

寫入多行

file_object.writelines(list_of_text_strings)

注意雹有,調(diào)用writelines寫入多行在性能上會(huì)比使用write一次性寫入要高偿渡。

FILE

在處理日志文件的時(shí)候,常常會(huì)遇到這樣的情況:日志文件巨大件舵,不可能一次性把整個(gè)文件讀入到內(nèi)存中進(jìn)行處理卸察,例如需要在一臺(tái)物理內(nèi)存為 2GB 的機(jī)器上處理一個(gè) 2GB 的日志文件,我們可能希望每次只處理其中 200MB 的內(nèi)容铅祸。
在 Python 中坑质,內(nèi)置的 File 對(duì)象直接提供了一個(gè) readlines(sizehint) 函數(shù)來完成這樣的事情。以下面的代碼為例:

file = open('test.log', 'r')
sizehint = 209715200   # 200M
position = 0
lines = file.readlines(sizehint)
while not file.tell() - position < 0:
       position = file.tell()
       lines = file.readlines(sizehint)

每次調(diào)用 readlines(sizehint) 函數(shù)临梗,會(huì)返回大約 200MB 的數(shù)據(jù)涡扼,而且所返回的必然都是完整的行數(shù)據(jù),大多數(shù)情況下盟庞,返回的數(shù)據(jù)的字節(jié)數(shù)會(huì)稍微比sizehint 指定的值大一點(diǎn)(除最后一次調(diào)用 readlines(sizehint)函數(shù)的時(shí)候)吃沪。通常情況下,Python 會(huì)自動(dòng)將用戶指定的 sizehint 的值調(diào)整成內(nèi)部緩存大小的整數(shù)倍什猖。

file在python是一個(gè)特殊的類型票彪,它用于在python程序中對(duì)外部的文件進(jìn)行操作红淡。在python中一切都是對(duì)象,file也不例外降铸,filefile的方法和屬性在旱。下面先來看如何創(chuàng)建一個(gè)file對(duì)象:

file(name[, mode[, buffering]])
file()函數(shù)用于創(chuàng)建一個(gè)file對(duì)象,它有一個(gè)別名叫open()推掸,可能更形象一些桶蝎,它們是內(nèi)置函數(shù)。來看看它的參數(shù)谅畅。它參數(shù)都是以字符串的形式傳遞的登渣。name是文件的名字。mode是打開的模式毡泻,可選的值為r w a U胜茧,分別代表讀(默認(rèn)) 寫 添加支持各種換行符的模式。用wa模式打開文件的話牙捉,如果文件不存在竹揍,那么就自動(dòng)創(chuàng)建。此外邪铲,用w模式打開一個(gè)已經(jīng)存在的文件時(shí),原有文件的內(nèi)容會(huì)被清空无拗,因?yàn)橐婚_始文件的操作的標(biāo)記是在文件的開頭的带到,這時(shí)候進(jìn)行寫操作,無疑會(huì)把原有的內(nèi)容給抹掉英染。由于歷史的原因揽惹,換行符在不同的系統(tǒng)中有不同模式,比如在 unix中是一個(gè)/n四康,而在windows中是‘/r/n’搪搏,用U模式打開文件,就是支持所有的換行模式闪金,也就說‘/r’ '/n' '/r/n'都可表示換行疯溺,會(huì)有一個(gè)tuple用來存貯這個(gè)文件中用到過的換行符。不過哎垦,雖說換行有多種模式囱嫩,讀到python中統(tǒng)一用/n代替。在模式字符的后面漏设,還可以加上+ b t這兩種標(biāo)識(shí)墨闲,分別表示可以對(duì)文件同時(shí)進(jìn)行讀寫操作和用二進(jìn)制模式、文本模式(默認(rèn))打開文件郑口。
buffering如果為0表示不進(jìn)行緩沖;如果為1表示進(jìn)行“行緩沖“;如果是一個(gè)大于1的數(shù)表示緩沖區(qū)的大小鸳碧,應(yīng)該是以字節(jié)為單位的盾鳞。

file對(duì)象有自己的屬性和方法。先來看看file的屬性瞻离。

closed #標(biāo)記文件是否已經(jīng)關(guān)閉雁仲,由close()改寫
encoding #文件編碼
mode #打開模式
name #文件名
newlines #文件中用到的換行模式,是一個(gè)tuple
softspace #boolean型琐脏,一般為0攒砖,據(jù)說用于print

file的讀寫方法:

F.read([size]) #size為讀取的長(zhǎng)度,以byte為單位
F.readline([size])
#讀一行日裙,如果定義了size吹艇,有可能返回的只是一行的一部分
F.readlines([size])
#把文件每一行作為一個(gè)list的一個(gè)成員,并返回這個(gè)list昂拂。其實(shí)它的內(nèi)部是通過循環(huán)調(diào)用readline()來實(shí)現(xiàn)的受神。如果提供size參數(shù),size是表示讀取內(nèi)容的總長(zhǎng)格侯,也就是說可能只讀到文件的一部分鼻听。
F.write(str)
#把str寫到文件中,write()并不會(huì)在str后加上一個(gè)換行符
F.writelines(seq)
#把seq的內(nèi)容全部寫到文件中联四。這個(gè)函數(shù)也只是忠實(shí)地寫入撑碴,不會(huì)在每行后面加上任何東西。

file的其他方法:

F.close()
#關(guān)閉文件朝墩。python會(huì)在一個(gè)文件不用后自動(dòng)關(guān)閉文件醉拓,不過這一功能沒有保證,最好還是養(yǎng)成自己關(guān)閉的習(xí)慣收苏。如果一個(gè)文件在關(guān)閉后還對(duì)其進(jìn)行操作會(huì)產(chǎn)生ValueError
F.flush()
#把緩沖區(qū)的內(nèi)容寫入硬盤
F.fileno()
#返回一個(gè)長(zhǎng)整型的”文件標(biāo)簽“
F.isatty()
#文件是否是一個(gè)終端設(shè)備文件(unix系統(tǒng)中的)
F.tell()
#返回文件操作標(biāo)記的當(dāng)前位置亿卤,以文件的開頭為原點(diǎn)
F.next()
#返回下一行,并將文件操作標(biāo)記位移到下一行鹿霸。把一個(gè)file用于for ... in file這樣的語(yǔ)句時(shí)排吴,就是調(diào)用next()函數(shù)來實(shí)現(xiàn)遍歷的。
F.seek(offset[,whence])
#將文件打操作標(biāo)記移到offset的位置懦鼠。這個(gè)offset一般是相對(duì)于文件的開頭來計(jì)算的钻哩,一般為正數(shù)。但如果提供了whence參數(shù)就不一定了葛闷,whence可以為0表示從頭開始計(jì)算憋槐,1表示以當(dāng)前位置為原點(diǎn)計(jì)算。2表示以文件末尾為原點(diǎn)進(jìn)行計(jì)算淑趾。需要注意阳仔,如果文件以a或a+的模式打開,每次進(jìn)行寫操作時(shí),文件操作標(biāo)記會(huì)自動(dòng)返回到文件末尾近范。
F.truncate([size])
#把文件裁成規(guī)定的大小嘶摊,默認(rèn)的是裁到當(dāng)前文件操作標(biāo)記的位置。如果size比文件的大小還要大评矩,依據(jù)系統(tǒng)的不同可能是不改變文件叶堆,也可能是用0把文件補(bǔ)到相應(yīng)的大小,也可能是以一些隨機(jī)的內(nèi)容加上去斥杜。
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末虱颗,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子蔗喂,更是在濱河造成了極大的恐慌忘渔,老刑警劉巖,帶你破解...
    沈念sama閱讀 207,113評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件缰儿,死亡現(xiàn)場(chǎng)離奇詭異畦粮,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)乖阵,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,644評(píng)論 2 381
  • 文/潘曉璐 我一進(jìn)店門宣赔,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人瞪浸,你說我怎么就攤上這事儒将。” “怎么了默终?”我有些...
    開封第一講書人閱讀 153,340評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵椅棺,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我齐蔽,道長(zhǎng),這世上最難降的妖魔是什么床估? 我笑而不...
    開封第一講書人閱讀 55,449評(píng)論 1 279
  • 正文 為了忘掉前任含滴,我火速辦了婚禮,結(jié)果婚禮上丐巫,老公的妹妹穿的比我還像新娘谈况。我一直安慰自己,他們只是感情好递胧,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,445評(píng)論 5 374
  • 文/花漫 我一把揭開白布碑韵。 她就那樣靜靜地躺著,像睡著了一般缎脾。 火紅的嫁衣襯著肌膚如雪祝闻。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,166評(píng)論 1 284
  • 那天遗菠,我揣著相機(jī)與錄音联喘,去河邊找鬼华蜒。 笑死,一個(gè)胖子當(dāng)著我的面吹牛豁遭,可吹牛的內(nèi)容都是我干的叭喜。 我是一名探鬼主播,決...
    沈念sama閱讀 38,442評(píng)論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼蓖谢,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼捂蕴!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起闪幽,我...
    開封第一講書人閱讀 37,105評(píng)論 0 261
  • 序言:老撾萬榮一對(duì)情侶失蹤啥辨,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后沟使,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體委可,經(jīng)...
    沈念sama閱讀 43,601評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,066評(píng)論 2 325
  • 正文 我和宋清朗相戀三年腊嗡,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了着倾。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,161評(píng)論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡燕少,死狀恐怖卡者,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情客们,我是刑警寧澤崇决,帶...
    沈念sama閱讀 33,792評(píng)論 4 323
  • 正文 年R本政府宣布,位于F島的核電站底挫,受9級(jí)特大地震影響恒傻,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜建邓,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,351評(píng)論 3 307
  • 文/蒙蒙 一盈厘、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧官边,春花似錦沸手、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,352評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至诡渴,卻和暖如春捐晶,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,584評(píng)論 1 261
  • 我被黑心中介騙來泰國(guó)打工租悄, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留谨究,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,618評(píng)論 2 355
  • 正文 我出身青樓泣棋,卻偏偏與公主長(zhǎng)得像胶哲,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子潭辈,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,916評(píng)論 2 344

推薦閱讀更多精彩內(nèi)容

  • 第六章:數(shù)字 第七章:序列鸯屿,列表,元組 1.序列 序列類型有著相同的訪問模式:它的每一個(gè)元素可以通過指定一個(gè)偏移量...
    m風(fēng)滿樓閱讀 874評(píng)論 0 2
  • 一把敢、文件對(duì)象 文件對(duì)象是Python代碼訪問寄摆、操作磁盤上文件的主要接口。文件對(duì)象不僅可以用來訪問普通的磁盤文件修赞,而...
    常大鵬閱讀 1,924評(píng)論 0 9
  • 一個(gè)人的習(xí)慣不容易養(yǎng)成柏副,但某些改變卻可能在瞬間完成勾邦,比如方向感比較弱的我第一次坐在駕駛座上突然頓悟了方位,責(zé)任感讓...
    jasmine南京閱讀 1,436評(píng)論 13 6
  • 那天割择,看山是山眷篇,看水是水,如今荔泳,看山不是山蕉饼,看水不是水,山山路人往玛歌,水水魚兒游昧港,游山玩水君顏過,留往問個(gè)路支子,你不拒...
    杰杰6889閱讀 397評(píng)論 0 0
  • 完善系統(tǒng)客戶信息慨飘,平安和其他保險(xiǎn)的終于錄完了,只剩下人保的還未錄了译荞。 人保看系統(tǒng)資料太麻煩了休弃,我是不是該把筆記本電...
    捌柒玖零閱讀 110評(píng)論 0 0