讀寫文件是數(shù)據(jù)分析中常用的操作。Python內(nèi)置了讀寫文件的函數(shù)。
需要了解的是虽画,在磁盤上讀寫文件的功能都是由操作系統(tǒng)提供的,現(xiàn)代操作系統(tǒng)不允許普通的程序直接操作磁盤荣病,所以码撰,讀寫文件就是請(qǐng)求操作系統(tǒng)打開一個(gè)文件對(duì)象(通常稱為文件描述符),然后个盆,通過操作系統(tǒng)提供的接口從這個(gè)文件對(duì)象中讀取數(shù)據(jù)(讀文件)脖岛,或者把數(shù)據(jù)寫入這個(gè)文件對(duì)象(寫文件)。
讀文件
-
open
使用open
打開文件后一定要記得調(diào)用文件對(duì)象的close()
方法颊亮。比如可以用try/finally
語(yǔ)句來確保最后能關(guān)閉文件柴梆。
file_object = open('thefile.txt')
try:
all_the_text = file_object.read( )
finally:
file_object.close( )
注:不能把open
語(yǔ)句放在try
塊里,因?yàn)楫?dāng)打開文件出現(xiàn)異常時(shí)终惑,文件對(duì)象file_objec
t無法執(zhí)行close()
方法绍在。
-
read
讀文本文件
input = open('data', 'r')
# 第二個(gè)參數(shù)默認(rèn)為r
input = open('data')
讀二進(jìn)制文件
input = open('data', 'rb')
讀取所有內(nèi)容
file_object = open('thefile.txt')
try:
all_the_text = file_object.read()
finally:
file_object.close()
讀固定字節(jié)
file_object = open('abinfile', 'rb')
try:
while True:
chunk = file_object.read(100)
if not chunk:
break
do_something_with(chunk)
finally:
file_object.close()
讀每行
list_of_all_the_lines = file_object.readlines()
如果文件是文本文件,還可以直接遍歷文件對(duì)象獲取每行:
for line in file_object:
process line
寫文件
寫文本文件
output = open('data', 'w')
寫二進(jìn)制文件
output = open('data', 'wb')
追加寫文件
output = open('data', 'w+')
寫數(shù)據(jù)
file_object = open('thefile.txt', 'w')
file_object.write(all_the_text)
file_object.close()
寫入多行
file_object.writelines(list_of_text_strings)
注意雹有,調(diào)用writelines寫入多行在性能上會(huì)比使用write一次性寫入要高偿渡。
FILE
在處理日志文件的時(shí)候,常常會(huì)遇到這樣的情況:日志文件巨大件舵,不可能一次性把整個(gè)文件讀入到內(nèi)存中進(jìn)行處理卸察,例如需要在一臺(tái)物理內(nèi)存為 2GB 的機(jī)器上處理一個(gè) 2GB 的日志文件,我們可能希望每次只處理其中 200MB 的內(nèi)容铅祸。
在 Python 中坑质,內(nèi)置的 File
對(duì)象直接提供了一個(gè) readlines(sizehint)
函數(shù)來完成這樣的事情。以下面的代碼為例:
file = open('test.log', 'r')
sizehint = 209715200 # 200M
position = 0
lines = file.readlines(sizehint)
while not file.tell() - position < 0:
position = file.tell()
lines = file.readlines(sizehint)
每次調(diào)用 readlines(sizehint)
函數(shù)临梗,會(huì)返回大約 200MB 的數(shù)據(jù)涡扼,而且所返回的必然都是完整的行數(shù)據(jù),大多數(shù)情況下盟庞,返回的數(shù)據(jù)的字節(jié)數(shù)會(huì)稍微比sizehint
指定的值大一點(diǎn)(除最后一次調(diào)用 readlines(sizehint)
函數(shù)的時(shí)候)吃沪。通常情況下,Python 會(huì)自動(dòng)將用戶指定的 sizehint
的值調(diào)整成內(nèi)部緩存大小的整數(shù)倍什猖。
file
在python是一個(gè)特殊的類型票彪,它用于在python程序中對(duì)外部的文件進(jìn)行操作红淡。在python中一切都是對(duì)象,file
也不例外降铸,file
有file
的方法和屬性在旱。下面先來看如何創(chuàng)建一個(gè)file
對(duì)象:
file(name[, mode[, buffering]])
file()
函數(shù)用于創(chuàng)建一個(gè)file
對(duì)象,它有一個(gè)別名叫open()
推掸,可能更形象一些桶蝎,它們是內(nèi)置函數(shù)。來看看它的參數(shù)谅畅。它參數(shù)都是以字符串的形式傳遞的登渣。name
是文件的名字。mode
是打開的模式毡泻,可選的值為r
w
a
U
胜茧,分別代表讀(默認(rèn)) 寫 添加支持各種換行符的模式。用w
或a
模式打開文件的話牙捉,如果文件不存在竹揍,那么就自動(dòng)創(chuàng)建。此外邪铲,用w
模式打開一個(gè)已經(jīng)存在的文件時(shí),原有文件的內(nèi)容會(huì)被清空无拗,因?yàn)橐婚_始文件的操作的標(biāo)記是在文件的開頭的带到,這時(shí)候進(jìn)行寫操作,無疑會(huì)把原有的內(nèi)容給抹掉英染。由于歷史的原因揽惹,換行符在不同的系統(tǒng)中有不同模式,比如在 unix中是一個(gè)/n
四康,而在windows中是‘/r/n’
搪搏,用U模式打開文件,就是支持所有的換行模式闪金,也就說‘/r’
'/n'
'/r/n'
都可表示換行疯溺,會(huì)有一個(gè)tuple用來存貯這個(gè)文件中用到過的換行符。不過哎垦,雖說換行有多種模式囱嫩,讀到python中統(tǒng)一用/n
代替。在模式字符的后面漏设,還可以加上+ b
t
這兩種標(biāo)識(shí)墨闲,分別表示可以對(duì)文件同時(shí)進(jìn)行讀寫操作和用二進(jìn)制模式、文本模式(默認(rèn))打開文件郑口。
buffering如果為0表示不進(jìn)行緩沖;如果為1表示進(jìn)行“行緩沖“;如果是一個(gè)大于1的數(shù)表示緩沖區(qū)的大小鸳碧,應(yīng)該是以字節(jié)為單位的盾鳞。
file
對(duì)象有自己的屬性和方法。先來看看file的屬性瞻离。
closed #標(biāo)記文件是否已經(jīng)關(guān)閉雁仲,由close()改寫
encoding #文件編碼
mode #打開模式
name #文件名
newlines #文件中用到的換行模式,是一個(gè)tuple
softspace #boolean型琐脏,一般為0攒砖,據(jù)說用于print
file的讀寫方法:
F.read([size]) #size為讀取的長(zhǎng)度,以byte為單位
F.readline([size])
#讀一行日裙,如果定義了size吹艇,有可能返回的只是一行的一部分
F.readlines([size])
#把文件每一行作為一個(gè)list的一個(gè)成員,并返回這個(gè)list昂拂。其實(shí)它的內(nèi)部是通過循環(huán)調(diào)用readline()來實(shí)現(xiàn)的受神。如果提供size參數(shù),size是表示讀取內(nèi)容的總長(zhǎng)格侯,也就是說可能只讀到文件的一部分鼻听。
F.write(str)
#把str寫到文件中,write()并不會(huì)在str后加上一個(gè)換行符
F.writelines(seq)
#把seq的內(nèi)容全部寫到文件中联四。這個(gè)函數(shù)也只是忠實(shí)地寫入撑碴,不會(huì)在每行后面加上任何東西。
file的其他方法:
F.close()
#關(guān)閉文件朝墩。python會(huì)在一個(gè)文件不用后自動(dòng)關(guān)閉文件醉拓,不過這一功能沒有保證,最好還是養(yǎng)成自己關(guān)閉的習(xí)慣收苏。如果一個(gè)文件在關(guān)閉后還對(duì)其進(jìn)行操作會(huì)產(chǎn)生ValueError
F.flush()
#把緩沖區(qū)的內(nèi)容寫入硬盤
F.fileno()
#返回一個(gè)長(zhǎng)整型的”文件標(biāo)簽“
F.isatty()
#文件是否是一個(gè)終端設(shè)備文件(unix系統(tǒng)中的)
F.tell()
#返回文件操作標(biāo)記的當(dāng)前位置亿卤,以文件的開頭為原點(diǎn)
F.next()
#返回下一行,并將文件操作標(biāo)記位移到下一行鹿霸。把一個(gè)file用于for ... in file這樣的語(yǔ)句時(shí)排吴,就是調(diào)用next()函數(shù)來實(shí)現(xiàn)遍歷的。
F.seek(offset[,whence])
#將文件打操作標(biāo)記移到offset的位置懦鼠。這個(gè)offset一般是相對(duì)于文件的開頭來計(jì)算的钻哩,一般為正數(shù)。但如果提供了whence參數(shù)就不一定了葛闷,whence可以為0表示從頭開始計(jì)算憋槐,1表示以當(dāng)前位置為原點(diǎn)計(jì)算。2表示以文件末尾為原點(diǎn)進(jìn)行計(jì)算淑趾。需要注意阳仔,如果文件以a或a+的模式打開,每次進(jìn)行寫操作時(shí),文件操作標(biāo)記會(huì)自動(dòng)返回到文件末尾近范。
F.truncate([size])
#把文件裁成規(guī)定的大小嘶摊,默認(rèn)的是裁到當(dāng)前文件操作標(biāo)記的位置。如果size比文件的大小還要大评矩,依據(jù)系統(tǒng)的不同可能是不改變文件叶堆,也可能是用0把文件補(bǔ)到相應(yīng)的大小,也可能是以一些隨機(jī)的內(nèi)容加上去斥杜。