在平常的一些的小規(guī)模的數(shù)據(jù)的過濾嫉沽、清洗過程中使用最多的就是正則表達(dá)式,但是隨著數(shù)據(jù)規(guī)模的增大俏竞,正則表達(dá)式就顯得有些心有余力不足了绸硕。 【閱讀全文】[https://mp.wei...
早晨起床的時(shí)候席楚,發(fā)現(xiàn)自己尿分叉咬崔,我沒有多想,簡單洗洗就匆忙出門烦秩。路過早餐店刁赦,我看到師傅熟練的拉扯一小塊面團(tuán),拉至細(xì)長條闻镶,然后放入油鍋中甚脉,不一會(huì)功夫,一根屎黃色的油條便出鍋了铆农,...
用Python處理數(shù)據(jù)大家都不陌生了,屬于常規(guī)操作墩剖,但常規(guī)之下也還是暗藏技巧的猴凹,本篇就來分享6個(gè)好玩高效的操作,幫助大家提高效率岭皂。 一郊霎、Pandas Profiling Pa...
一书劝、為什么要學(xué)習(xí)Spark SQL 我們已經(jīng)學(xué)習(xí)了Hive进倍,它是將Hive SQL轉(zhuǎn)換成MapReduce然后提交到集群上執(zhí)行,大大簡化了編寫MapReduce的程序的...
作者:hooly微信公眾號:一口袋星光 購物籃分析 利用關(guān)聯(lián)分析的方法可以發(fā)現(xiàn)聯(lián)系如關(guān)聯(lián)規(guī)則或頻繁項(xiàng)集猾昆。 二元表示 每一行對應(yīng)一個(gè)事務(wù),每列對應(yīng)一個(gè)項(xiàng)骡苞,項(xiàng)用二元變量表示 項(xiàng)在...
《Pandas 1.x Cookbook》這本書一年前就出版了垂蜗,關(guān)注的人不算多,但評價(jià)很高解幽,而我也很喜歡Cookbook的系列贴见。其實(shí)半年前就想做下這本書,無奈太忙躲株,春節(jié)總算有...
我們做數(shù)據(jù)分析,在第一次拿到數(shù)據(jù)集的時(shí)候然爆,一般會(huì)用統(tǒng)計(jì)學(xué)或可視化方法來了解原始數(shù)據(jù)站粟。 了解列數(shù)、行數(shù)曾雕、取值分布奴烙、缺失值、列之間的相關(guān)關(guān)系等等剖张,這個(gè)過程叫做 EDA(Explo...