![240](https://cdn2.jianshu.io/assets/default_avatar/9-cceda3cf5072bcdd77e8ca4f21c40998.jpg?imageMogr2/auto-orient/strip|imageView2/1/w/240/h/240)
RDD的數(shù)據(jù)分區(qū)策略由Partitioner數(shù)據(jù)分區(qū)器控制剔猿,Spark提供兩個類型分片函數(shù)恶导,如下: Partitioner numPartitions:返回分區(qū)數(shù)量 key:...
Parquet調研報告 1. 概述 1.1 簡介 Apache Parquet是Hadoop生態(tài)圈中一種新型列式存儲格式厕隧,它可以兼容Hadoop生態(tài)圈中大多數(shù)計算框架(Had...
1. 概述 Kakfa起初是由LinkedIn公司開發(fā)的一個分布式的消息系統(tǒng),后成為Apache的一部分排龄,它使用Scala編寫波势,以可水平擴展和高吞吐率而被廣泛使用。目前越來越...
前言 假設現(xiàn)在我們要向mysql插入500萬條數(shù)據(jù)橄维,如何實現(xiàn)高效快速的插入進去尺铣?暫時不考慮數(shù)據(jù)的獲取、網(wǎng)絡I/O争舞、以及是否跨機操作凛忿,本文將在本地進行數(shù)據(jù)的插入,單純從mysq...
2018年從一所不知名的本科大學畢業(yè)遭贸,憑著對大城市的憧憬和一腔熱血我來到了北京戈咳。 面試兩天下來,我坐在出租屋里掉眼淚革砸,原來社會并沒有我想象的那般美好除秀。我一直認為自己是同學中的...
在一些物理內存為8g的服務器上,主要運行一個Java服務胖秒,系統(tǒng)內存分配如下:Java服務的JVM堆大小設置為6g缎患,一個監(jiān)控進程占用大約 600m,Linux自身使用大約800...
HashMap 如何解決沖突,擴容機制 我們來看看HashMap的put數(shù)據(jù)的時候判导,是怎么處理的: 計算HashCode的操作: 解決沖突的核心邏輯代碼: 這里再貼一下創(chuàng)建N...