![240](https://cdn2.jianshu.io/assets/default_avatar/9-cceda3cf5072bcdd77e8ca4f21c40998.jpg?imageMogr2/auto-orient/strip|imageView2/1/w/240/h/240)
RDD的數(shù)據(jù)分區(qū)策略由Partitioner數(shù)據(jù)分區(qū)器控制畏吓,Spark提供兩個(gè)類(lèi)型分片函數(shù),如下: Partitioner numPartitions:返回分區(qū)數(shù)量 key:...
Parquet調(diào)研報(bào)告 1. 概述 1.1 簡(jiǎn)介 Apache Parquet是Hadoop生態(tài)圈中一種新型列式存儲(chǔ)格式息堂,它可以兼容Hadoop生態(tài)圈中大多數(shù)計(jì)算框架(Had...
1. 概述 Kakfa起初是由LinkedIn公司開(kāi)發(fā)的一個(gè)分布式的消息系統(tǒng)持隧,后成為Apache的一部分,它使用Scala編寫(xiě)逃片,以可水平擴(kuò)展和高吞吐率而被廣泛使用屡拨。目前越來(lái)越...
前言 假設(shè)現(xiàn)在我們要向mysql插入500萬(wàn)條數(shù)據(jù),如何實(shí)現(xiàn)高效快速的插入進(jìn)去褥实?暫時(shí)不考慮數(shù)據(jù)的獲取呀狼、網(wǎng)絡(luò)I/O、以及是否跨機(jī)操作损离,本文將在本地進(jìn)行數(shù)據(jù)的插入哥艇,單純從mysq...
2018年從一所不知名的本科大學(xué)畢業(yè),憑著對(duì)大城市的憧憬和一腔熱血我來(lái)到了北京秉氧。 面試兩天下來(lái)眷昆,我坐在出租屋里掉眼淚,原來(lái)社會(huì)并沒(méi)有我想象的那般美好汁咏。我一直認(rèn)為自己是同學(xué)中的...
在一些物理內(nèi)存為8g的服務(wù)器上轰驳,主要運(yùn)行一個(gè)Java服務(wù),系統(tǒng)內(nèi)存分配如下:Java服務(wù)的JVM堆大小設(shè)置為6g,一個(gè)監(jiān)控進(jìn)程占用大約 600m级解,Linux自身使用大約800...
HashMap 如何解決沖突,擴(kuò)容機(jī)制 我們來(lái)看看HashMap的put數(shù)據(jù)的時(shí)候,是怎么處理的: 計(jì)算HashCode的操作: 解決沖突的核心邏輯代碼: 這里再貼一下創(chuàng)建N...