見豐 - 簡書

見豐

IP屬地：上海

一個Spark DataFrame操作的例子
1 定義數(shù)據(jù)庫連接 2 讀取兩個表 3 連接使用join警医，默認(rèn)是left out join萝衩。條件判斷是相等笙隙。然后刪除掉一個重復(fù)的列card_i...

883 0 1
使用bind架設(shè)內(nèi)網(wǎng)dns
在之前的spark on yarn集群配置中挟鸠，感覺最麻煩的就是各個機(jī)器之間的網(wǎng)絡(luò)配置了，一直想簡化這部分的工作。一開始的辦法是一臺機(jī)器一臺機(jī)器的...

2406 0 2

Spark On Yarn部署
本文使用的軟件環(huán)境同第一篇，另增加了hadoop的環(huán)境： Linux 4.4.0-62-generic #83-Ubuntu x86_64 GN...

3320 0 2
使用Spark KMeans對地點(diǎn)發(fā)生重量進(jìn)行聚類
聚類 Spark的機(jī)器學(xué)習(xí)庫分成兩類巴柿，一類是針對RDD的，在org.apache.spark.mllib包下死遭，另一類則是針對DataFrame的...

1543 0 2
使用Zeppelin代替spark-shell
部署把下載的bin-all.tgz上傳到服務(wù)器广恢，解壓放到自己常用的目錄下。為了使用spark.read.jdbc功能呀潭，需要上傳一份mysql ...

0.1 2768 0 10
Spark性能調(diào)優(yōu)
盡可能的過濾原始數(shù)據(jù)在上次實踐中钉迷，我們使用過濾并讀取了數(shù)據(jù)庫至非。如果我們要多加幾個過濾條件，要小心一個陷阱糠聪，Array[String]參數(shù)并不是...

161 0 1
Spark連接JDBC數(shù)據(jù)源
在實際的項目環(huán)境中荒椭，成熟的技術(shù)體系對關(guān)系型數(shù)據(jù)庫的依賴遠(yuǎn)遠(yuǎn)超過hdfs，而且對大數(shù)據(jù)運(yùn)算的結(jié)果舰蟆，實踐中也傾向于保存到數(shù)據(jù)庫中趣惠，以便進(jìn)行多種方式的...

2704 0 2

Spark RDD與本地容器交互
今天要從之前的數(shù)據(jù)中找出每個地點(diǎn)的一段時間內(nèi)的產(chǎn)品發(fā)生率，即某地點(diǎn)有產(chǎn)量的天數(shù)/總天數(shù)夭苗。在此之前信卡，為了輸出的可讀性隔缀，我們需要用地點(diǎn)別名代替地點(diǎn)...

670 0 2
使用Docker建立Mysql集群
軟件環(huán)境介紹操作系統(tǒng)：Ubuntu server 64bit 14.04.1Docker版本1.6.2數(shù)據(jù)庫：Mariadb 10.10（Ma...

1612 0 3