在平常的一些的小規(guī)模的數(shù)據(jù)的過濾命斧、清洗過程中使用最多的就是正則表達(dá)式,但是隨著數(shù)據(jù)規(guī)模的增大玄括,正則表達(dá)式就顯得有些心有余力不足了冯丙。 【閱讀全文】[https://mp.wei...
早晨起床的時(shí)候哪雕,發(fā)現(xiàn)自己尿分叉船殉,我沒有多想,簡(jiǎn)單洗洗就匆忙出門斯嚎。路過早餐店利虫,我看到師傅熟練的拉扯一小塊面團(tuán),拉至細(xì)長(zhǎng)條堡僻,然后放入油鍋中糠惫,不一會(huì)功夫,一根屎黃色的油條便出鍋了钉疫,...
用Python處理數(shù)據(jù)大家都不陌生了,屬于常規(guī)操作牲阁,但常規(guī)之下也還是暗藏技巧的固阁,本篇就來分享6個(gè)好玩高效的操作壤躲,幫助大家提高效率。 一备燃、Pandas Profiling Pa...
一并齐、為什么要學(xué)習(xí)Spark SQL 我們已經(jīng)學(xué)習(xí)了Hive漏麦,它是將Hive SQL轉(zhuǎn)換成MapReduce然后提交到集群上執(zhí)行,大大簡(jiǎn)化了編寫MapReduce的程序的...
作者:hooly微信公眾號(hào):一口袋星光 購(gòu)物籃分析 利用關(guān)聯(lián)分析的方法可以發(fā)現(xiàn)聯(lián)系如關(guān)聯(lián)規(guī)則或頻繁項(xiàng)集唁奢。 二元表示 每一行對(duì)應(yīng)一個(gè)事務(wù),每列對(duì)應(yīng)一個(gè)項(xiàng)窝剖,項(xiàng)用二元變量表示 項(xiàng)在...
《Pandas 1.x Cookbook》這本書一年前就出版了麻掸,關(guān)注的人不算多,但評(píng)價(jià)很高赐纱,而我也很喜歡Cookbook的系列脊奋。其實(shí)半年前就想做下這本書,無(wú)奈太忙疙描,春節(jié)總算有...
我們做數(shù)據(jù)分析,在第一次拿到數(shù)據(jù)集的時(shí)候效五,一般會(huì)用統(tǒng)計(jì)學(xué)或可視化方法來了解原始數(shù)據(jù)地消。 了解列數(shù)、行數(shù)畏妖、取值分布脉执、缺失值、列之間的相關(guān)關(guān)系等等戒劫,這個(gè)過程叫做 EDA(Explo...