見豐 - 簡書

見豐

IP屬地：上海

一個Spark DataFrame操作的例子
1 定義數(shù)據(jù)庫連接 2 讀取兩個表 3 連接使用join侮东，默認是left out join伟姐。條件判斷是相等。然后刪除掉一個重復的列card_i...

886 0 1
使用bind架設內網dns
在之前的spark on yarn集群配置中氏豌，感覺最麻煩的就是各個機器之間的網絡配置了喉酌，一直想簡化這部分的工作。一開始的辦法是一臺機器一臺機器的...

2413 0 2

Spark On Yarn部署
本文使用的軟件環(huán)境同第一篇，另增加了hadoop的環(huán)境： Linux 4.4.0-62-generic #83-Ubuntu x86_64 GN...

3332 0 2
使用Spark KMeans對地點發(fā)生重量進行聚類
聚類 Spark的機器學習庫分成兩類泪电，一類是針對RDD的般妙，在org.apache.spark.mllib包下，另一類則是針對DataFrame的...

1547 0 2
使用Zeppelin代替spark-shell
部署把下載的bin-all.tgz上傳到服務器歪架，解壓放到自己常用的目錄下。為了使用spark.read.jdbc功能霹陡，需要上傳一份mysql ...

0.1 2776 0 10
Spark性能調優(yōu)
盡可能的過濾原始數(shù)據(jù)在上次實踐中和蚪，我們使用過濾并讀取了數(shù)據(jù)庫。如果我們要多加幾個過濾條件烹棉，要小心一個陷阱攒霹，Array[String]參數(shù)并不是...

161 0 1
Spark連接JDBC數(shù)據(jù)源
在實際的項目環(huán)境中，成熟的技術體系對關系型數(shù)據(jù)庫的依賴遠遠超過hdfs浆洗，而且對大數(shù)據(jù)運算的結果催束，實踐中也傾向于保存到數(shù)據(jù)庫中，以便進行多種方式的...

2715 0 2

Spark RDD與本地容器交互
今天要從之前的數(shù)據(jù)中找出每個地點的一段時間內的產品發(fā)生率伏社，即某地點有產量的天數(shù)/總天數(shù)抠刺。在此之前，為了輸出的可讀性摘昌，我們需要用地點別名代替地點...

677 0 2
使用Docker建立Mysql集群
軟件環(huán)境介紹操作系統(tǒng)：Ubuntu server 64bit 14.04.1Docker版本1.6.2數(shù)據(jù)庫：Mariadb 10.10（Ma...

1621 0 3