1、查詢/切換操作目錄
Python有默認執(zhí)行的操作目錄痹升,可以用以下代碼進行操作目錄切換建炫。
import os
>>> import os
>>> os.chdir(路徑) #切換操作目錄
>>> os.getcwd() #獲取當前的工作目錄
2、路徑的表達方式
三種:
1. ”c:\\path\\data.txt” #雙斜杠
2. r”c:\path\data.txt” #用r视卢,就直接正常復制路徑就可以踱卵。
3. “data.txt” #如果文件就在當前工作目錄下,直接寫文件名就可以据过。
3惋砂、文件讀取
(1) open 和 withopen
open()的操作如下:
file_path = ’c:\\path\\data.txt‘
f = open(file_path,'r')
print (f.read())
f.close() #open操作以后,一定要close绳锅,這是跟withopen最大的區(qū)別
withopen()的操作如下:
file_path = ’c:\\path\\data.txt‘
withopen(file_path,'r') as f: #記住此處要有冒號
print (f.read())
推薦使用 withopen 方法西饵。
(2)read() 、readline() 和readlines()
read():
該函數(shù)會一次性讀取文件的全部內(nèi)容鳞芙,如果能確保文件的大小眷柔,自然可以。但若文件過大原朝,內(nèi)存就爆了(如果文件大小>2倍內(nèi)存則有問題)驯嘱,所以,可以反復調(diào)用read(size)方法喳坠,每次最多讀取size個字節(jié)的內(nèi)容鞠评。如果數(shù)據(jù)是中文,由于一個中文會占多個字節(jié)壕鹉,故read(size) 部分會亂碼.
返回的是str剃幌。
readline():
該函數(shù)每次只讀取一行內(nèi)容聋涨,返回的也是str。
readlines():
可以一次讀取所有內(nèi)容负乡,并按行返回list牍白。所以,應該它是最常用的抖棘。readlines(數(shù)字)茂腥,則不知道表示什么,以后再研究钉答。
(3)利用pandas讀取數(shù)據(jù)(主要采用的方法)
包括read_csv础芍、read_table杈抢、read_excel数尿、read_sql等,但是沒有read_txt惶楼,txt文件一般就用read_table讀取了右蹦。
基本操作:
import pandas as pd
data = pd.read_table('data.txt') #讀取數(shù)據(jù),默認將第一行作為標簽
data = pd.read_table('data.txt',names=['miles','times','p','likes']) #如果數(shù)據(jù)沒有變量名歼捐,需要添加何陆,則使用names方法。
data.head() #顯示數(shù)據(jù)的前五行
主要參數(shù)設置介紹:
sep 用于設置數(shù)據(jù)分割豹储,在read_table中默認的是'\t'贷盲,空格;在read_csv中默認是','剥扣,逗號
header 巩剖,int or list of ints,表示選擇第幾行作為表頭钠怯,如果是第n行佳魔,則前面n-1行數(shù)據(jù)去掉。如果數(shù)據(jù)中沒有變量名晦炊,可以寫為header=None鞠鲜,則把所有的行都作為數(shù)據(jù)。
names 用于設置變量名断国,具體用法參考上面贤姆,如果不設置,默認第一行稳衬。
還可以采用.columns來為設置變量名霞捡,如
df.columns = ['a','b','c','d']
Python數(shù)據(jù)分析Pandas04本地數(shù)據(jù)的導入導出
本文只介紹了常用的一些函數(shù),更具體的可以參考:pandas關于數(shù)據(jù)輸入輸出I/O的官方說明文檔宋彼,各種函數(shù)和變量解釋更為詳細弄砍。