Spark通過(guò)jdbc采用分區(qū)的方式從oracle讀數(shù)據(jù)

spark通過(guò)jdbc可以從oracle中直接讀取數(shù)據(jù),返回dataframe。有時(shí)由于數(shù)據(jù)量較大酒甸,我們可以采用分區(qū)方式通過(guò)jdbc多線程并行從oracle中讀取數(shù)據(jù)。

- oracle中的數(shù)據(jù)如下

TIME字段是年月赋铝,為字符串類型插勤,ACCOUNT_BOOK為INT類型


image.png
object OraclePartitionReadTest {
  def main(args: Array[String]): Unit = {
    val spark = spark = SparkSession.builder()
        .appName(appName)
        .master("local")
        .getOrCreate()
// 1. 通過(guò)jdbc從oracle中直接讀取數(shù)據(jù),不分區(qū)
    val dfReadFromOra = spark.read.jdbc(url, "tableName", properties)
    println(dfReadFromOra.count())
/* 2. 通過(guò)設(shè)定字段的條件來(lái)劃分分區(qū)。
  如下把TIME字段饮六,按日期區(qū)間劃分為兩個(gè)子區(qū)間,[2018-01苛蒲,2018-12]為一個(gè)區(qū)間卤橄,[2019-01,2019-12]為一個(gè)區(qū)間臂外。定義一個(gè)字符串?dāng)?shù)組來(lái)存放區(qū)間窟扑,區(qū)間個(gè)數(shù)即為spark從oracle讀取數(shù)據(jù)時(shí)的分區(qū)個(gè)數(shù)。
*/
val whereClause = Array("TIME>='2018-01' AND TIME <= '2018-13'", "TIME >= '2019-01' AND TIME <= '2019-12'")
    val dfReadFromOraByPartUseWhereClause = spark.read.jdbc(url,"tableName", whereClause, oracleProp)
    println(dfReadFromOraByPartUseWhereClause.rdd.getNumPartitions) // 打印分區(qū)個(gè)數(shù)
    println(dfReadFromOraByPartUseWhereClause.count())
/* 3. 針對(duì)數(shù)值類型的字段ACCOUNT_BOOK漏健,設(shè)定上邊界和下邊界嚎货,并指定分區(qū)個(gè)數(shù),jdbc方法會(huì)根據(jù)這三個(gè)條件劃分分區(qū)從oracle讀取數(shù)據(jù)蔫浆。
*/
    val dfReadFromOraByPartitionUseBound = spark.read.jdbc(url, "tableName", "ACCOUNT_BOOK", 2000, 2500, 5殖属,oracleProp)
    println(dfReadFromOraByPartitionUseBound .rdd.getNumPartitions) // 打印分區(qū)個(gè)數(shù)
    println(dfReadFromOraByPartitionUseBound.count())
  }
}

通過(guò)驗(yàn)證,采用分區(qū)的方式從oracle中讀取數(shù)據(jù)瓦盛,提升讀取數(shù)據(jù)的效果很明顯洗显。 分區(qū)個(gè)數(shù)根據(jù)情況而定,如果分區(qū)個(gè)數(shù)較大原环,可能會(huì)影響oracle數(shù)據(jù)庫(kù)的正常運(yùn)行挠唆。百十個(gè)分區(qū)一般不會(huì)有問(wèn)題。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末嘱吗,一起剝皮案震驚了整個(gè)濱河市玄组,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌谒麦,老刑警劉巖俄讹,帶你破解...
    沈念sama閱讀 218,284評(píng)論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異弄匕,居然都是意外死亡颅悉,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,115評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門迁匠,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)剩瓶,“玉大人,你說(shuō)我怎么就攤上這事城丧⊙邮铮” “怎么了?”我有些...
    開封第一講書人閱讀 164,614評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵亡哄,是天一觀的道長(zhǎng)枝缔。 經(jīng)常有香客問(wèn)我,道長(zhǎng),這世上最難降的妖魔是什么愿卸? 我笑而不...
    開封第一講書人閱讀 58,671評(píng)論 1 293
  • 正文 為了忘掉前任灵临,我火速辦了婚禮,結(jié)果婚禮上趴荸,老公的妹妹穿的比我還像新娘儒溉。我一直安慰自己,他們只是感情好发钝,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,699評(píng)論 6 392
  • 文/花漫 我一把揭開白布顿涣。 她就那樣靜靜地躺著,像睡著了一般酝豪。 火紅的嫁衣襯著肌膚如雪涛碑。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,562評(píng)論 1 305
  • 那天孵淘,我揣著相機(jī)與錄音蒲障,去河邊找鬼。 笑死夺英,一個(gè)胖子當(dāng)著我的面吹牛晌涕,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播痛悯,決...
    沈念sama閱讀 40,309評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼余黎,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了载萌?” 一聲冷哼從身側(cè)響起惧财,我...
    開封第一講書人閱讀 39,223評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎扭仁,沒(méi)想到半個(gè)月后垮衷,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,668評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡乖坠,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,859評(píng)論 3 336
  • 正文 我和宋清朗相戀三年搀突,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片熊泵。...
    茶點(diǎn)故事閱讀 39,981評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡仰迁,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出顽分,到底是詐尸還是另有隱情徐许,我是刑警寧澤,帶...
    沈念sama閱讀 35,705評(píng)論 5 347
  • 正文 年R本政府宣布卒蘸,位于F島的核電站雌隅,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜恰起,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,310評(píng)論 3 330
  • 文/蒙蒙 一修械、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧检盼,春花似錦祠肥、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,904評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)县恕。三九已至东羹,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間忠烛,已是汗流浹背属提。 一陣腳步聲響...
    開封第一講書人閱讀 33,023評(píng)論 1 270
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留美尸,地道東北人冤议。 一個(gè)月前我還...
    沈念sama閱讀 48,146評(píng)論 3 370
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像师坎,于是被迫代替她去往敵國(guó)和親恕酸。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,933評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容