![240](https://cdn2.jianshu.io/assets/default_avatar/9-cceda3cf5072bcdd77e8ca4f21c40998.jpg?imageMogr2/auto-orient/strip|imageView2/1/w/240/h/240)
RDD的數(shù)據(jù)分區(qū)策略由Partitioner數(shù)據(jù)分區(qū)器控制,Spark提供兩個類型分片函數(shù)阔墩,如下: Partitioner numPartitions:返回分區(qū)數(shù)量 key:...
Parquet調(diào)研報告 1. 概述 1.1 簡介 Apache Parquet是Hadoop生態(tài)圈中一種新型列式存儲格式稽屏,它可以兼容Hadoop生態(tài)圈中大多數(shù)計算框架(Had...
1. 概述 Kakfa起初是由LinkedIn公司開發(fā)的一個分布式的消息系統(tǒng)薄腻,后成為Apache的一部分收捣,它使用Scala編寫,以可水平擴展和高吞吐率而被廣泛使用庵楷。目前越來越...
前言 假設現(xiàn)在我們要向mysql插入500萬條數(shù)據(jù)罢艾,如何實現(xiàn)高效快速的插入進去?暫時不考慮數(shù)據(jù)的獲取尽纽、網(wǎng)絡I/O咐蚯、以及是否跨機操作,本文將在本地進行數(shù)據(jù)的插入弄贿,單純從mysq...
2018年從一所不知名的本科大學畢業(yè)能庆,憑著對大城市的憧憬和一腔熱血我來到了北京。 面試兩天下來脚线,我坐在出租屋里掉眼淚搁胆,原來社會并沒有我想象的那般美好。我一直認為自己是同學中的...
在一些物理內(nèi)存為8g的服務器上,主要運行一個Java服務挖胃,系統(tǒng)內(nèi)存分配如下:Java服務的JVM堆大小設置為6g杂靶,一個監(jiān)控進程占用大約 600m梆惯,Linux自身使用大約800...
HashMap 如何解決沖突,擴容機制 我們來看看HashMap的put數(shù)據(jù)的時候烁登,是怎么處理的: 計算HashCode的操作: 解決沖突的核心邏輯代碼: 這里再貼一下創(chuàng)建N...