PySpark_Streaming+DBUtils+MySQL

Design Patterns for using foreachRDD
dstream.foreachRDD is a powerful primitive that allows data to be sent out to external systems.
However, it is important to understand how to use this primitive correctly and efficiently.

spark2.3.0版本的官網(wǎng)介紹說dstream.foreachRDD是一個功能強(qiáng)大的原語，允許將數(shù)據(jù)發(fā)送到外部系統(tǒng)烤芦。但是赚导，了解如何正確有效地使用此原語非常重要。

官網(wǎng)給出了foreachRDD的一些用法，但是沒有給出類似wordcount的完整代碼祭刚，在使用數(shù)據(jù)庫連接池的過程還是踩了一些坑宝泵，分享給大家。

示例代碼實(shí)現(xiàn)的是wordcount結(jié)果寫入數(shù)據(jù)庫洲守，并使用數(shù)據(jù)庫連接池疑务。我使用的spark版本是2.3.0沾凄，使用python編寫應(yīng)用程序，部署模式是on yarn client知允。

# foreachRDD_dbutils.py
import os
os.environ.setdefault('SPARK_HOME','/opt/appl/spark')

import findspark
findspark.init()

from pyspark import SparkContext
from pyspark.streaming import StreamingContext

import MySQLdb
from DBUtils.PooledDB import PooledDB

class Pool(object):
    # 創(chuàng)建一個類變量
    __pool = None

    def __init__(self):
        pass

    # 獲取連接池
    @staticmethod
    def get_connection():
        if Pool.__pool is None:
            Pool.__pool = PooledDB(MySQLdb,5,host='******',user='root',passwd='root',database='******',charset='utf8')
        return Pool.__pool.connection()

    # 關(guān)閉連接池
    @staticmethod
    def close():
        if Pool.__pool is not None:
            Pool.__pool.close()


def sendPartition(partition):
    connection = Pool.get_connection()
    cursor = connection.cursor()
    for record in partition:
        # python 必須用str將int轉(zhuǎn)換成string
        cursor.execute("insert into wordcount(word,wordcount) values('" + record[0] + "'," + str(record[1]) + ")")
    # 批量提交到數(shù)據(jù)庫執(zhí)行
    connection.commit()
    # 關(guān)閉連接是指把連接放回連接池撒蟀，而不是真正的關(guān)閉
    connection.close()

# 將wordcount統(tǒng)計結(jié)果寫到mysql中
if __name__ == "__main__":
    sc = SparkContext(appName='spark_streaming_test',master='yarn')
    ssc = StreamingContext(sc,5)

    lines = ssc.socketTextStream('172.30.1.243', 9999)

    counts = lines.flatMap(lambda line : line.split(' ')) \
            .map(lambda word : (word, 1)) \
            .reduceByKey(lambda a,b : a + b)

    counts.foreachRDD(lambda rdd : rdd.foreachPartition(sendPartition))

    counts.pprint()

    ssc.start()
    try:
        ssc.awaitTermination()
    except:
        pass
    finally:
        # 關(guān)閉連接池
        Pool.close()

提交程序執(zhí)行：

ssh://appl@172.30.1.243:22/opt/appl/anaconda3/bin/python -u /opt/appl/pycharm-projects/spark_streaming_test/foreachRDD_dbutils.py
/opt/appl/spark/conf/spark-env.sh: line 72: hadoop: command not found
2019-01-17 21:28:56 WARN  NativeCodeLoader:62 - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
2019-01-17 21:29:00 WARN  Client:66 - Neither spark.yarn.jars nor spark.yarn.archive is set, falling back to uploading libraries under SPARK_HOME.
-------------------------------------------
Time: 2019-01-17 21:29:25
-------------------------------------------

-------------------------------------------
Time: 2019-01-17 21:29:30
-------------------------------------------

注意：

數(shù)據(jù)庫連接池需要是靜態(tài)并且最好是懶加載的。
上面的數(shù)據(jù)庫連接池如果不是懶加載會發(fā)生連接池對象序列化異常温鸽。官網(wǎng)對于這點(diǎn)也有說明保屯。
數(shù)據(jù)庫連接池懶加載的過程有線程并發(fā)不同步的風(fēng)險，但是如果我加了鎖就會發(fā)生鎖序列化異常涤垫，所以這里沒有更好的解決方案姑尺。
可能會發(fā)生 Error from python worker: /bin/python: No module named pyspark 錯誤。

最后編輯于：2019.01.17 21:30:18

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末蝠猬，一起剝皮案震驚了整個濱河市切蟋，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌榆芦，老刑警劉巖柄粹，帶你破解...
沈念sama閱讀 206,968評論 6贊 482
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異匆绣，居然都是意外死亡驻右，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,601評論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門犬绒，熙熙樓的掌柜王于貴愁眉苦臉地迎上來旺入，“玉大人，你說我怎么就攤上這事凯力∫瘃” “怎么了？”我有些...
開封第一講書人閱讀 153,220評論 0贊 344
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長疫萤。經(jīng)常有香客問我贷帮，道長，這世上最難降的妖魔是什么雕旨？我笑而不...
開封第一講書人閱讀 55,416評論 1贊 279
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮捧请，結(jié)果婚禮上凡涩，老公的妹妹穿的比我還像新娘。我一直安慰自己疹蛉，他們只是感情好活箕，可當(dāng)我...
茶點(diǎn)故事閱讀 64,425評論 5贊 374
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著可款，像睡著了一般育韩。火紅的嫁衣襯著肌膚如雪克蚂。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 49,144評論 1贊 285
城市分裂傳說
那天筋讨，我揣著相機(jī)與錄音埃叭，去河邊找鬼。笑死悉罕，一個胖子當(dāng)著我的面吹牛赤屋，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播蛮粮，決...
沈念sama閱讀 38,432評論 3贊 401
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼益缎，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了然想？” 一聲冷哼從身側(cè)響起莺奔，我...
開封第一講書人閱讀 37,088評論 0贊 261
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎变泄，沒想到半個月后令哟，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 43,586評論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡妨蛹，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 36,028評論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年屏富，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片蛙卤。...
茶點(diǎn)故事閱讀 38,137評論 1贊 334
活死人
序言：一個原本活蹦亂跳的男人離奇死亡狠半，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出颤难，到底是詐尸還是另有隱情神年，我是刑警寧澤，帶...
沈念sama閱讀 33,783評論 4贊 324
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布行嗤，位于F島的核電站已日，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏栅屏。R本人自食惡果不足惜飘千，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,343評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望栈雳。院中可真熱鬧护奈，春花似錦、人聲如沸哥纫。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,333評論 0贊 19
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽磺箕。三九已至奖慌，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間松靡，已是汗流浹背简僧。一陣腳步聲響...
開封第一講書人閱讀 31,559評論 1贊 262
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留雕欺，地道東北人岛马。一個月前我還...
沈念sama閱讀 45,595評論 2贊 355
代替公主和親
正文我出身青樓，卻偏偏與公主長得像屠列，于是被迫代替她去往敵國和親啦逆。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,901評論 2贊 345

PySpark_Streaming+DBUtils+MySQL

推薦閱讀更多精彩內(nèi)容