在平常的一些的小規(guī)模的數(shù)據(jù)的過濾缸兔、清洗過程中使用最多的就是正則表達(dá)式荠察,但是隨著數(shù)據(jù)規(guī)模的增大铭拧,正則表達(dá)式就顯得有些心有余力不足了蕾域。 【閱讀全文】[https://mp.wei...
在平常的一些的小規(guī)模的數(shù)據(jù)的過濾缸兔、清洗過程中使用最多的就是正則表達(dá)式荠察,但是隨著數(shù)據(jù)規(guī)模的增大铭拧,正則表達(dá)式就顯得有些心有余力不足了蕾域。 【閱讀全文】[https://mp.wei...
早晨起床的時(shí)候捻悯,發(fā)現(xiàn)自己尿分叉憔杨,我沒有多想馁启,簡(jiǎn)單洗洗就匆忙出門。路過早餐店芍秆,我看到師傅熟練的拉扯一小塊面團(tuán),拉至細(xì)長(zhǎng)條翠勉,然后放入油鍋中妖啥,不一會(huì)功夫,一根屎黃色的油條便出鍋了对碌,...
用Python處理數(shù)據(jù)大家都不陌生了,屬于常規(guī)操作,但常規(guī)之下也還是暗藏技巧的怀读,本篇就來分享6個(gè)好玩高效的操作诉位,幫助大家提高效率。 一菜枷、Pandas Profiling Pa...
一苍糠、為什么要學(xué)習(xí)Spark SQL 我們已經(jīng)學(xué)習(xí)了Hive,它是將Hive SQL轉(zhuǎn)換成MapReduce然后提交到集群上執(zhí)行啤誊,大大簡(jiǎn)化了編寫MapReduce的程序的...
作者:hooly微信公眾號(hào):一口袋星光 購(gòu)物籃分析 利用關(guān)聯(lián)分析的方法可以發(fā)現(xiàn)聯(lián)系如關(guān)聯(lián)規(guī)則或頻繁項(xiàng)集。 二元表示 每一行對(duì)應(yīng)一個(gè)事務(wù)蚊锹,每列對(duì)應(yīng)一個(gè)項(xiàng)瞳筏,項(xiàng)用二元變量表示 項(xiàng)在...
《Pandas 1.x Cookbook》這本書一年前就出版了,關(guān)注的人不算多牡昆,但評(píng)價(jià)很高姚炕,而我也很喜歡Cookbook的系列丢烘。其實(shí)半年前就想做下這本書柱宦,無奈太忙,春節(jié)總算有...
我們做數(shù)據(jù)分析,在第一次拿到數(shù)據(jù)集的時(shí)候狐史,一般會(huì)用統(tǒng)計(jì)學(xué)或可視化方法來了解原始數(shù)據(jù)痒给。 了解列數(shù)、行數(shù)骏全、取值分布苍柏、缺失值、列之間的相關(guān)關(guān)系等等姜贡,這個(gè)過程叫做 EDA(Explo...
Python 代碼閱讀合集介紹:為什么不推薦Python初學(xué)者直接看項(xiàng)目源碼[https://mp.weixin.qq.com/s/7RqixavOlghqrTnr5GFee...
一试吁、數(shù)據(jù)指標(biāo)體系建設(shè)的意義 1.通過指標(biāo)體系的梳理搭建能夠更加全面的監(jiān)控業(yè)務(wù)發(fā)展,及時(shí)準(zhǔn)確的發(fā)現(xiàn)業(yè)務(wù)機(jī)會(huì)/問題楼咳。2.統(tǒng)一指標(biāo)口徑熄捍,降低公司內(nèi)部數(shù)據(jù)對(duì)接時(shí)的溝通成本。 二母怜、數(shù)據(jù)...