隨著Apache Parquet和Apache ORC等存儲(chǔ)格式以及Presto和Apache Impala等查詢(xún)引擎的發(fā)展畦娄,Hadoop生態(tài)系統(tǒng)有潛力作為面向分鐘級(jí)延時(shí)場(chǎng)景...

隨著Apache Parquet和Apache ORC等存儲(chǔ)格式以及Presto和Apache Impala等查詢(xún)引擎的發(fā)展畦娄,Hadoop生態(tài)系統(tǒng)有潛力作為面向分鐘級(jí)延時(shí)場(chǎng)景...
1、背景 實(shí)際生產(chǎn)中,我們經(jīng)常會(huì)面臨導(dǎo)入Excel數(shù)據(jù)到數(shù)據(jù)庫(kù)的需求轩勘,在沒(méi)有編寫(xiě)導(dǎo)入程序,數(shù)據(jù)庫(kù)客戶(hù)端工具導(dǎo)入情況下怯邪。我們可以通過(guò)Excel本身的公式構(gòu)建出sql語(yǔ)句绊寻,可復(fù)制...
庫(kù)名稱(chēng)簡(jiǎn)介 Chardet 字符編碼探測(cè)器和泌,可以自動(dòng)檢測(cè)文本村缸、網(wǎng)頁(yè)、xml的編碼武氓。 colorama 主要用來(lái)給文本添加各種顏色梯皿,并且非常簡(jiǎn)單易用搪柑。 Prettytable ...
開(kāi)始時(shí)間: 2019-11-26 預(yù)計(jì)時(shí)間7天。作者:托馬茲[美] 本書(shū)常用下載地址:1.RDD章節(jié)文件下載:http://tomdrabas.com/data/VS14M...
數(shù)據(jù)傾斜是大數(shù)據(jù)計(jì)算中一個(gè)最棘手的問(wèn)題寿弱,出現(xiàn)數(shù)據(jù)傾斜后犯眠,Spark 作業(yè)的性能會(huì)比期望值差很多。數(shù)據(jù)傾斜的調(diào)優(yōu)症革,就是利用各種技術(shù)方案解決不同類(lèi)型的數(shù)據(jù)傾斜問(wèn)題筐咧,保證 Spar...
柱形圖因其一目了然的特點(diǎn)艇挨,成為最常用的分析圖表之一残炮。而堆疊柱形圖則可以更清晰地比較某一個(gè)維度中不同類(lèi)型數(shù)據(jù)之間的差異,也深受分析用戶(hù)推崇雷袋。 很多 Tableau 用戶(hù)在使用堆...
前言 近兩年楷怒,KUDU 在大數(shù)據(jù)平臺(tái)的應(yīng)用越來(lái)越廣泛。在阿里瓦灶、小米鸠删、網(wǎng)易等公司的大數(shù)據(jù)架構(gòu)中,KUDU 都有著不可替代的地位贼陶。本文通過(guò)分析 KUDU 的設(shè)計(jì)刃泡, 試圖解釋為什么...
1.模型的區(qū)分度 評(píng)分模型的作用是通過(guò)分?jǐn)?shù)將好壞樣本進(jìn)行區(qū)分桨踪。理想情況下老翘,所有非違約人群的分?jǐn)?shù)均高于違約人群的分?jǐn)?shù)。因此我們需要某些統(tǒng)計(jì)量來(lái)衡量好壞樣本的分?jǐn)?shù)差異性锻离,...
關(guān)于盒須圖如果你想顯示一組數(shù)據(jù)的分布情況:例如:一目了然地理解數(shù)據(jù),查看數(shù)據(jù)如何向某一段偏斜汽纠,查看數(shù)據(jù)中的異常值卫键。建議使用盒須圖,它是顯示數(shù)據(jù)分布情況的重要方式虱朵。 如果你想顯...