隨著Apache Parquet和Apache ORC等存儲格式以及Presto和Apache Impala等查詢引擎的發(fā)展,Hadoop生態(tài)系統(tǒng)有潛力作為面向分鐘級延時場景...

隨著Apache Parquet和Apache ORC等存儲格式以及Presto和Apache Impala等查詢引擎的發(fā)展,Hadoop生態(tài)系統(tǒng)有潛力作為面向分鐘級延時場景...
1益楼、背景 實際生產(chǎn)中氧秘,我們經(jīng)常會面臨導(dǎo)入Excel數(shù)據(jù)到數(shù)據(jù)庫的需求情臭,在沒有編寫導(dǎo)入程序省撑,數(shù)據(jù)庫客戶端工具導(dǎo)入情況下。我們可以通過Excel本身的公式構(gòu)建出sql語句俯在,可復(fù)制...
庫名稱簡介 Chardet 字符編碼探測器,可以自動檢測文本劈猿、網(wǎng)頁拙吉、xml的編碼潮孽。 colorama 主要用來給文本添加各種顏色,并且非常簡單易用筷黔。 Prettytable ...
開始時間: 2019-11-26 預(yù)計時間7天眼虱。作者:托馬茲[美] 本書常用下載地址:1.RDD章節(jié)文件下載:http://tomdrabas.com/data/VS14M...
數(shù)據(jù)傾斜是大數(shù)據(jù)計算中一個最棘手的問題,出現(xiàn)數(shù)據(jù)傾斜后润梯,Spark 作業(yè)的性能會比期望值差很多过牙。數(shù)據(jù)傾斜的調(diào)優(yōu),就是利用各種技術(shù)方案解決不同類型的數(shù)據(jù)傾斜問題仆救,保證 Spar...
柱形圖因其一目了然的特點庙洼,成為最常用的分析圖表之一顿痪。而堆疊柱形圖則可以更清晰地比較某一個維度中不同類型數(shù)據(jù)之間的差異,也深受分析用戶推崇油够。 很多 Tableau 用戶在使用堆...
前言 近兩年石咬,KUDU 在大數(shù)據(jù)平臺的應(yīng)用越來越廣泛揩悄。在阿里、小米鬼悠、網(wǎng)易等公司的大數(shù)據(jù)架構(gòu)中删性,KUDU 都有著不可替代的地位亏娜。本文通過分析 KUDU 的設(shè)計, 試圖解釋為什么...
1.模型的區(qū)分度 評分模型的作用是通過分?jǐn)?shù)將好壞樣本進(jìn)行區(qū)分。理想情況下榕茧,所有非違約人群的分?jǐn)?shù)均高于違約人群的分?jǐn)?shù)垃沦。因此我們需要某些統(tǒng)計量來衡量好壞樣本的分?jǐn)?shù)差異性,...
關(guān)于盒須圖如果你想顯示一組數(shù)據(jù)的分布情況:例如:一目了然地理解數(shù)據(jù)栏尚,查看數(shù)據(jù)如何向某一段偏斜,查看數(shù)據(jù)中的異常值只恨。建議使用盒須圖译仗,它是顯示數(shù)據(jù)分布情況的重要方式。 如果你想顯...