python數(shù)據(jù)分析的一些基本概念

數(shù)據(jù)分析

定義:

商業(yè)分析是基于商業(yè)目的,有目的的進行收集捧弃、整理赠叼、加工和分析數(shù)據(jù),提煉有價值信息的一個過程违霞。

過程:

明確分析目的與框架嘴办、數(shù)據(jù)收集、數(shù)據(jù)處理(數(shù)據(jù)清洗买鸽、數(shù)據(jù)轉(zhuǎn)換)涧郊、數(shù)據(jù)分析、數(shù)據(jù)展現(xiàn)和撰寫報告等6個階段

數(shù)據(jù)類型:

  • 表格型數(shù)據(jù)
  • 多維數(shù)組(矩陣)
  • 通過關(guān)鍵列
  • 間隔平均或不平均的時間序列

excel是最廣泛的數(shù)據(jù)分析工具

為什么用python進行數(shù)據(jù)分析

  • 擁有巨大活躍的科學(xué)計算社區(qū)
  • 數(shù)據(jù)科學(xué)眼五、機器學(xué)習(xí)妆艘、學(xué)界和工業(yè)界開發(fā)重要語言
  • 膠水語言彤灶,輕松集成舊有算法和系統(tǒng)
  • 不僅適用于研究和原型構(gòu)建,同時也適用于構(gòu)建生產(chǎn)系統(tǒng)

重要的python庫

1.Numpy(Numerical python)

python科學(xué)計算的基礎(chǔ)包

  • 快速高效的多維數(shù)組對象ndarray
  • 用于對數(shù)組執(zhí)行元素級計算以及直接對數(shù)組執(zhí)行數(shù)學(xué)運算的函數(shù)
  • 用于讀寫硬盤上基于數(shù)組的數(shù)據(jù)集的工具
  • 線性代數(shù)運算批旺、傅里葉變換幌陕,以及隨機數(shù)生成
  • 成熟的C API,用于python插件和原生C汽煮、C++搏熄、Fortran代碼訪問Numpy的數(shù)據(jù)結(jié)構(gòu)和計算工具
  • 對于數(shù)值型數(shù)據(jù),Numpy數(shù)組在存儲和處理數(shù)據(jù)時要比內(nèi)置的python數(shù)據(jù)結(jié)構(gòu)高效的多暇赤。
  1. pandas
    pandas提供了快速便捷處理結(jié)構(gòu)化數(shù)據(jù)的?量數(shù)據(jù)結(jié)構(gòu)和函數(shù)心例。
    pandas兼具NumPy?性能的數(shù)組計算功能以及電?表格和關(guān)系型數(shù)據(jù)庫(如SQL)靈活的數(shù)據(jù)處理功能。它提供了復(fù)雜精細的索引功能鞋囊,能更加便捷地完成重塑契邀、切?和切塊、聚合以及選取數(shù)據(jù)?集等操作
    數(shù)據(jù)操作失暴、準備坯门、清洗是數(shù)據(jù)分析最重要的技能(耗時最?)
  1. matplotlib
    最流行的用于繪制圖表和其他二維數(shù)據(jù)可視化的python庫
    適合創(chuàng)建出版物上用的圖表
  1. ipython 和 jupyter
    執(zhí)行 → 探索 工作流(探索、試錯逗扒、重復(fù))
    ipython web notebook → jupyter notebook(支持40多種編程語言)
  2. Scipy
    一組專門解決科學(xué)計算中各種標準問題域的包的集合
  3. scikit-learm
    scikit-learm成為python的通用機器學(xué)習(xí)的工具包
  4. statsmofels
    statsmodels包含經(jīng)典統(tǒng)計學(xué)和經(jīng)濟計量學(xué)的算法

運行Jupyter Notebook

pip install ipython
pip install numpy
pip install jupyter
pip install pandas
pip install matplotlib
pip install scikitlearn

notebook是Jupyter項?的重要組件之?古戴,它是?個代碼、?本(有標記或?標記)矩肩、數(shù)據(jù)可

視化或其它輸出的交互式?檔现恼。

Python的Jupyter內(nèi)核是使?IPython。

Numpy

Numpy:數(shù)組和矢量計算

  • NumPy之于數(shù)值計算特別重要的原因之?黍檩,是因為它可以?效處理?數(shù)組的數(shù)據(jù)
  • NumPy是在?個連續(xù)的內(nèi)存塊中存儲數(shù)據(jù)叉袍,獨?于其他Python內(nèi)置對象。NumPy的C語?編
  • 寫的算法庫可以操作內(nèi)存刽酱,?不必進?類型檢查或其它前期?作喳逛。?起Python的內(nèi)置序列,
  • NumPy數(shù)組使?的內(nèi)存更少棵里。

NumPy的ndarray:?種多維數(shù)組對象

NumPy最重要的?個特點就是其N維數(shù)組對象(即ndarray)润文, 該對象是?個快速?靈活的?

數(shù)據(jù)集容器。你可以利?這種數(shù)組對整塊數(shù)據(jù)執(zhí)??些數(shù)學(xué)運算殿怜,其語法跟標量元素之間的運

算?樣典蝌。

NumPy數(shù)組的運算

不?編寫循環(huán)即可對數(shù)據(jù)執(zhí)?批量運算。NumPy?戶稱其為?量化(vectorization)头谜。??相等的數(shù)組之間的任何算術(shù)運算都會將運算應(yīng)?到元素級

pandas

pandas是專?為處理表格和混雜數(shù)據(jù)設(shè)計的骏掀,?NumPy更適合處理統(tǒng)?

的數(shù)值數(shù)組數(shù)據(jù)。

兩個主要數(shù)據(jù)結(jié)構(gòu):Series和DataFrame

Series

Series是?種類似于?維數(shù)組的對象,它由?組數(shù)據(jù)(各種NumPy數(shù)據(jù)類型)以及?組與之相關(guān)的數(shù)據(jù)標簽(即索引)組成

DataFrame

DataFrame是?個表格型的數(shù)據(jù)結(jié)構(gòu)截驮,它含有?組有序的列笑陈,每列可以是不同的值類型(數(shù)

值、字符串侧纯、布爾值等),DataFrame既有?索引也有列索引甲脏。

data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
 'year': [2000, 2001, 2002, 2001, 2002, 2003],
 'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data)

數(shù)據(jù)加載眶熬、存儲和?件格式

讀寫?本格式的數(shù)據(jù)

pandas提供了?些?于將表格型數(shù)據(jù)讀取為DataFrame對象的函數(shù),其中read_csv和

read_table?得最多

read_csv  # 從文件块请、url娜氏、文件型對象中加載帶分割符的數(shù)據(jù)。默認分割符為逗號
read_table # 從文件墩新、url贸弥、文件型對象中加載帶分割符的數(shù)據(jù)。默認分割符為制表符(‘\t’)
read_fwf  # 讀取定寬列格式數(shù)據(jù)(也就是說海渊,沒有分割符)
read_clipboard  #讀取剪貼板中的數(shù)據(jù)绵疲,可以看作read_table的剪貼板。再將網(wǎng)頁轉(zhuǎn)換為表格時很有用
read_excel #從Excel Xls或XLSX file讀取表格數(shù)據(jù)
read_hdf #讀取pandas寫的HDF5文件
read_html 讀取HTML文檔中的所有表格
read_json  #讀取JSON(JAVAScript Object Notation)字符串中的數(shù)據(jù)
read_msgpack #二進制格式編碼的pandas數(shù)據(jù)
read_pickle  #讀取python pickle格式中存儲的任意對象
read_sas  # 讀取存儲于SAS系統(tǒng)自定義存儲格式的任意對象
read_sql  # (使用SQLAlchemy)讀取SQL查詢結(jié)果為pandas的DateFrame
read_stata  # 讀取stata文件格式的數(shù)據(jù)集
read_feather # 讀取Feather二進制文件格式

需要詳細知識留言整理臣疑。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末盔憨,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子讯沈,更是在濱河造成了極大的恐慌郁岩,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,839評論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件缺狠,死亡現(xiàn)場離奇詭異问慎,居然都是意外死亡,警方通過查閱死者的電腦和手機挤茄,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,543評論 2 382
  • 文/潘曉璐 我一進店門如叼,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人穷劈,你說我怎么就攤上這事薇正。” “怎么了囚衔?”我有些...
    開封第一講書人閱讀 153,116評論 0 344
  • 文/不壞的土叔 我叫張陵挖腰,是天一觀的道長。 經(jīng)常有香客問我练湿,道長猴仑,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,371評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮辽俗,結(jié)果婚禮上疾渣,老公的妹妹穿的比我還像新娘。我一直安慰自己崖飘,他們只是感情好榴捡,可當我...
    茶點故事閱讀 64,384評論 5 374
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著朱浴,像睡著了一般吊圾。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上翰蠢,一...
    開封第一講書人閱讀 49,111評論 1 285
  • 那天项乒,我揣著相機與錄音,去河邊找鬼梁沧。 笑死檀何,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的廷支。 我是一名探鬼主播频鉴,決...
    沈念sama閱讀 38,416評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼恋拍!你這毒婦竟也來了砚殿?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,053評論 0 259
  • 序言:老撾萬榮一對情侶失蹤芝囤,失蹤者是張志新(化名)和其女友劉穎似炎,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體悯姊,經(jīng)...
    沈念sama閱讀 43,558評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡羡藐,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,007評論 2 325
  • 正文 我和宋清朗相戀三年蘸嘶,在試婚紗的時候發(fā)現(xiàn)自己被綠了棒搜。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,117評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡练链,死狀恐怖先壕,靈堂內(nèi)的尸體忽然破棺而出瘩扼,到底是詐尸還是另有隱情,我是刑警寧澤垃僚,帶...
    沈念sama閱讀 33,756評論 4 324
  • 正文 年R本政府宣布集绰,位于F島的核電站,受9級特大地震影響谆棺,放射性物質(zhì)發(fā)生泄漏栽燕。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,324評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望碍岔。 院中可真熱鬧浴讯,春花似錦、人聲如沸蔼啦。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,315評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽捏肢。三九已至奈籽,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間猛计,已是汗流浹背唠摹。 一陣腳步聲響...
    開封第一講書人閱讀 31,539評論 1 262
  • 我被黑心中介騙來泰國打工爆捞, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留奉瘤,地道東北人。 一個月前我還...
    沈念sama閱讀 45,578評論 2 355
  • 正文 我出身青樓煮甥,卻偏偏與公主長得像盗温,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子成肘,可洞房花燭夜當晚...
    茶點故事閱讀 42,877評論 2 345

推薦閱讀更多精彩內(nèi)容