前言 之前本來(lái)有一個(gè)個(gè)人博客禀忆,但是因?yàn)樘珣袥](méi)有維護(hù),就來(lái)投奔CSDN了。這幾天突然一時(shí)興起盆顾,讓好好弄一下自己的個(gè)人博客,因?yàn)镃SDN的廣告實(shí)在是....一言難盡...搜索了一...
前言 之前本來(lái)有一個(gè)個(gè)人博客禀忆,但是因?yàn)樘珣袥](méi)有維護(hù),就來(lái)投奔CSDN了。這幾天突然一時(shí)興起盆顾,讓好好弄一下自己的個(gè)人博客,因?yàn)镃SDN的廣告實(shí)在是....一言難盡...搜索了一...
前言 在使用Spark-shell做一些測(cè)試時(shí)候會(huì)產(chǎn)生大量無(wú)用的INFO級(jí)別的日志嘲玫,因此想把它們給禁用掉僧鲁。具體方法如下。 解決方法 - 使用自定義的Log4j.propert...
前言 Driver OutOfMemoryError或Driver Unresponsive是一個(gè)非常嚴(yán)重的問(wèn)題牧氮,因?yàn)樗鼤?huì)使我們的Spark應(yīng)用程序崩潰琼腔。 但這類問(wèn)題也經(jīng)常發(fā)...
前言 如果你程序中的聚合速度較慢,請(qǐng)先查看 Spark Stragglers/任務(wù)執(zhí)行緩慢部分踱葛。 主要癥狀 在執(zhí)行 groupby 操作時(shí)丹莲,任務(wù)執(zhí)行緩慢 聚合操作的后序操作也...
什么是RDD RDD(Resilient Distributed Datasets)光坝,彈性分布式數(shù)據(jù)集,是Spark的基本數(shù)據(jù)結(jié)構(gòu)甥材。它是一個(gè)不可變的分布式對(duì)象集合盯另。RDD中的...
前言 在我們提交spark程序時(shí)洲赵,應(yīng)該如何為Spark集群配置--num-executors鸳惯, - executor-memory和--execuor-cores 呢? 一...
什么是Checkpointing Checkpointing可以將RDD從其依賴關(guān)系中抽出來(lái)叠萍,保存到可靠的存儲(chǔ)系統(tǒng)(例如HDFS芝发,S3等), 即它可以將數(shù)據(jù)和元數(shù)據(jù)保存到檢查...
前言 學(xué)習(xí)Spark源代碼的過(guò)程中遇到了Typed transformations和Untyped transformations兩個(gè)概念苛谷,整理了以下相關(guān)的筆記辅鲸。對(duì)于這兩個(gè)概...
Spark中的多任務(wù)處理 Spark的一個(gè)非常常見(jiàn)的用例是并行運(yùn)行許多作業(yè)。 構(gòu)建作業(yè)DAG后腹殿,Spark將這些任務(wù)分配到多個(gè)Executor上并行處理独悴。但這并不能幫助我們?cè)?..
訪問(wèn) http://github.global.ssl.fastly.net.ipaddress.com/#ipinfo 獲取github的IP地址 在/etc/hosts中...
寫了一個(gè)簡(jiǎn)單腳本用來(lái)解決Mac上訪問(wèn)github慢的問(wèn)題,基本思路如下: 訪問(wèn) http://github.global.ssl.fastly.net.ipaddress.c...
查看了Anaconda 鏡像使用幫助 我們可以通過(guò)以下命令為Anaconda添加倉(cāng)庫(kù) 然后可以運(yùn)行 conda install pymongo安裝pymongo包交互的包測(cè)試...
Homebrew是Mac的軟件包管理器锣尉,我們可以通過(guò)它安裝大多數(shù)開(kāi)源軟件刻炒。但是在使用brew update更新的時(shí)候竟然要等待很久。猜測(cè)可能是因?yàn)閎rew的官方源被墻或或者響...
前言 之前已經(jīng)完成了hadoop集群的安裝悟耘,測(cè)試了HDFS的使用落蝙,現(xiàn)在準(zhǔn)備在此基礎(chǔ)上,繼續(xù)安裝Hive暂幼。 主要步驟 安裝mysql 安裝hive 配置hive 安裝mysql...
@[TOC] 前言 在Mac上搭建Hadoop環(huán)境(1) — 虛擬機(jī)的安裝及SSH免密設(shè)置中筏勒,我們已經(jīng)配置好了節(jié)點(diǎn)之間基本的網(wǎng)絡(luò)環(huán)境,接下來(lái)旺嬉,只要在master(MBP)上下...
前言 準(zhǔn)備在自己的MBP上搭建一個(gè)小的Hadoop集群玩玩管行,順便看看會(huì)遇到什么坑。初步打算設(shè)置三個(gè)節(jié)點(diǎn)邪媳,其中將MBP設(shè)置為master節(jié)點(diǎn)捐顷,另外用虛擬機(jī)創(chuàng)建兩個(gè)slave節(jié)點(diǎn)...
雖然在Pyspark中,驅(qū)動(dòng)程序是一個(gè)python進(jìn)程雨效,但是它創(chuàng)建的SparkSession對(duì)象以及其他DataFrames或者RDDs等都是利用Python封裝過(guò)的 JVM...
關(guān)于SparkSession 任何Spark程序的第一步都是先創(chuàng)建SparkSession迅涮。在Spark-Shell或者其他交互模式中,SparkSession已經(jīng)預(yù)先被創(chuàng)建...
解決方法 訪問(wèn) http://github.global.ssl.fastly.net.ipaddress.com/#ipinfo 獲取github的IP地址github.g...
Spark Application’s Configuration 提示:有關(guān)如何配置Spark和用戶程序的詳細(xì)信息徽龟,請(qǐng)參閱官方文檔中的Spark Configuration...