在平常的一些的小規(guī)模的數(shù)據(jù)的過濾、清洗過程中使用最多的就是正則表達式嚎研,但是隨著數(shù)據(jù)規(guī)模的增大蓖墅,正則表達式就顯得有些心有余力不足了。 【閱讀全文】[https://mp.wei...
早晨起床的時候贪壳,發(fā)現(xiàn)自己尿分叉,我沒有多想蚜退,簡單洗洗就匆忙出門闰靴。路過早餐店,我看到師傅熟練的拉扯一小塊面團钻注,拉至細長條蚂且,然后放入油鍋中,不一會功夫队寇,一根屎黃色的油條便出鍋了膘掰,...
用Python處理數(shù)據(jù)大家都不陌生了佳遣,屬于常規(guī)操作,但常規(guī)之下也還是暗藏技巧的凡伊,本篇就來分享6個好玩高效的操作零渐,幫助大家提高效率。 一系忙、Pandas Profiling Pa...
一、為什么要學(xué)習(xí)Spark SQL 我們已經(jīng)學(xué)習(xí)了Hive风宁,它是將Hive SQL轉(zhuǎn)換成MapReduce然后提交到集群上執(zhí)行洁墙,大大簡化了編寫MapReduce的程序的...
作者:hooly微信公眾號:一口袋星光 購物籃分析 利用關(guān)聯(lián)分析的方法可以發(fā)現(xiàn)聯(lián)系如關(guān)聯(lián)規(guī)則或頻繁項集戒财。 二元表示 每一行對應(yīng)一個事務(wù)热监,每列對應(yīng)一個項,項用二元變量表示 項在...
《Pandas 1.x Cookbook》這本書一年前就出版了饮寞,關(guān)注的人不算多孝扛,但評價很高,而我也很喜歡Cookbook的系列幽崩。其實半年前就想做下這本書苦始,無奈太忙,春節(jié)總算有...
我們做數(shù)據(jù)分析柠贤,在第一次拿到數(shù)據(jù)集的時候,一般會用統(tǒng)計學(xué)或可視化方法來了解原始數(shù)據(jù)类缤。 了解列數(shù)臼勉、行數(shù)、取值分布餐弱、缺失值宴霸、列之間的相關(guān)關(guān)系等等,這個過程叫做 EDA(Explo...