阿海與蝸牛 - 簡書

發(fā)簡信

阿海與蝸牛

0
關注
60
粉絲
16
文章
14938

字數(shù)
73

收獲喜歡
9

總資產(chǎn)

IP屬地：澳門

阿海與蝸牛

從Kylin入門到大數(shù)據(jù)老司機
一、UML基礎為什么要使用UML 對象是面向?qū)ο笫澜绲暮诵摹Ｃ嫦驅(qū)ο筌浖治龊驮O計赌结，最基本的需求是高效的識別對象,完成對象識別之后没陡，賦予每個對象相應的功能或職責衩藤。在完成以上...

1557 0 1
阿海與蝸牛

開源數(shù)據(jù)流管道-Luigi vs Azkaban vs Oozie vs Airflow
隨著企業(yè)的發(fā)展叠赦，他們的工作流程變得更加復雜纲缓，越來越多的有著錯綜復雜依賴關系的工作流需要增加監(jiān)控痘拆，故障排除仰禽。如果沒有明確的血緣關系。就可能出現(xiàn)問責問題纺蛆，對元數(shù)據(jù)的操作也可能丟失...

11207 0 5

阿海與蝸牛

由一條SQL分析SparkSQL執(zhí)行過程（三）
對于下面一段SQL 在由一條SQL分析SparkSQL執(zhí)行過程（二）中吐葵，我們分析到Spark如何封裝SessionState，使得用戶只需要通過SparkSQL入口Spark...

3787 0 9
阿海與蝸牛

由一條SQL分析SparkSQL執(zhí)行過程（二）
對于下面一段SQL 在上一部分桥氏，我們分析了SparkSQL的建議執(zhí)行流程圖温峭。我們知道一條SQL在Spark執(zhí)行要經(jīng)歷以下幾步：用戶提交SQL文本解析器將SQL文本解析成邏...

6444 3 12
阿海與蝸牛

由一條SQL分析SparkSQL執(zhí)行流程(一)
現(xiàn)有下面這段SQL語句這段SQL是從日志表中拿出用戶點擊PV（clk_pv），再去和用戶表關聯(lián)字支，按照用戶分組凤藏，再對點擊pv求和，同時堕伪，還過濾了fr(平臺)是android的...

2617 1 9
阿海與蝸牛

根據(jù)分子運動預測雙色球走勢（三）-數(shù)據(jù)清洗和機器學習
一揖庄、問題在爬取到雙色球開獎的歷史數(shù)據(jù)和開獎當日20-22點的氣候數(shù)據(jù)之后，我們面臨的問題是：選擇什么樣的算法尋找天氣數(shù)據(jù)和雙色球開獎結(jié)果的關系（只選擇藍球）為實現(xiàn)1的算...

2684 1 0
阿海與蝸牛

Spark On ElasticSearch初探
一欠雌、寫在前面 ElasticSearch 是一個快速索引檢索的庫蹄梢。在實踐中，我們用Hbase 存儲海量業(yè)務數(shù)據(jù)富俄，再通過ES存儲索引禁炒，以這種相互結(jié)合的方式而咆，將數(shù)據(jù)暴露給Web服...

1566 0 4

阿海與蝸牛

Hbase-Spark BulkLoad 解析
一、背景項目中有需求齐苛，要頻繁地翘盖、快速地向一個表中初始化數(shù)據(jù)桂塞。因此如何加載數(shù)據(jù)凹蜂，如何提高速度是需要解決的問題。一般來說阁危，作為數(shù)據(jù)存儲系統(tǒng)會分為檢索和存儲兩部分玛痊。檢索是對外暴露...

2380 0 2
阿海與蝸牛

Scala爬蟲刷博客閱讀量
一、寫在前面最近嘗試在簡書上寫一些技術博客狂打。每天看著可憐的閱讀量很是著急擂煞。剛好最近接觸爬蟲，有需求就有辦法趴乡。因此想到能否用爬蟲刷閱讀量呢对省？答案是可行的。友情提示：酒香不怕...

1640 1 2
阿海與蝸牛

構(gòu)建一個Spark project(Spark 開發(fā)入門)
一晾捏、寫在前面由于Spark 的速度蒿涎，API 的易用性，Spark在行業(yè)中的使用越來越廣泛惦辛。Hbase 在2.0 alpha 版之后也加入對Spark的支持劳秋；ElasticS...

993 0 2
阿海與蝸牛

一種Join時數(shù)據(jù)傾斜的解決方法
一、引子在用Spark SQL編程時胖齐，不論是執(zhí)行SQL語句玻淑，還是編寫算子提交SparkSubmit 執(zhí)行，在DataFrame 上的操作大致都會經(jīng)歷以下過程：在關系型數(shù)據(jù)...

2336 0 1
阿海與蝸牛

Spark SQL 多列聚合的幾種方法
一呀伙、引子項目中遇到這樣一張表：user 要求對這個表按照sid 進行聚合补履，將所有的id聚合成一個json，所有的tag聚合成一個json剿另。在hive和Spark中干像，對tag...

11924 0 4

阿海與蝸牛

Spark Sql Row 的解析
在Spark SQL 編程時，經(jīng)常需要對獲取的DataFrame 對象進行map 操作驰弄。map 基于的元素是Row. 那么如何操作Row呢麻汰？ 1. get 方法 2. 使用類...

24906 0 1
阿海與蝸牛

Spark使用GeoLiteCity字典庫解析IP
一、背景用戶畫像項目中戚篙，埋點數(shù)據(jù)獲取到移動端五鲫、PC端用戶IP，業(yè)務需求從IP解析出IP對應的地址岔擂。分析發(fā)現(xiàn)位喂，數(shù)據(jù)有以下特點：1. 用戶類型為Global浪耘，IP 為全球范圍...

1739 0 1
阿海與蝸牛

Hbase rowKey 設計與預分區(qū)建表
Hbase RowKey 設計使用Spark或通過REST/API 方式存取Hbase，性能影響最大的因素在于Hbase 的結(jié)構(gòu)設計塑崖。Hbase 結(jié)構(gòu)設計包括兩個方面 ro...

5656 0 10
阿海與蝸牛

Spark 操作hbase(構(gòu)建一個支持更新和快速檢索的數(shù)據(jù)庫)
一七冲、背景在用戶畫像的系統(tǒng)中，需要將用戶ID的拉通結(jié)果表和用戶標簽的結(jié)果表存入Hbase中规婆。組件如下：因而提出以下幾個問題： Spark 作為內(nèi)存計算引擎強于計算澜躺，Hbas...

3319 1 10
阿海與蝸牛

音樂
簡書編，10167 篇文章抒蚜，701968 人關注

音樂會友掘鄙，用筆尖記錄行走的音樂故事。投稿要求請參照音樂專題投稿要求:http://www.reibang.com/p/1a526dfdf1f5嗡髓。音樂是這里的一抹光芒操漠，不論你是喜歡暖心求真的民謠風情，還是追求熱情如火的搖滾巨星饿这，不管你想要高冷帥氣的爵士音樂浊伙，還是學習情滿全身的流行小曲，rap长捧、民歌嚣鄙。。只要有你喜歡音樂這里就會遇到唆姐。

阿海與蝸牛

創(chuàng)業(yè)
簡書編拗慨，10121 篇文章，2156571 人關注

本專題僅收錄與創(chuàng)業(yè)相關的內(nèi)容奉芦，如：創(chuàng)業(yè)者經(jīng)歷赵抢、大學生創(chuàng)客心得、電子商務声功、創(chuàng)業(yè)項目分析烦却、團隊管理、商業(yè)模式先巴、創(chuàng)客時評等其爵。投稿指南詳見：http://www.reibang.com/p/40acca11e9ee 投稿須知：? 1.??文章內(nèi)容必須原創(chuàng)。? 2.??字數(shù)在800—3000字（優(yōu)秀文章可放寬）伸蚯。圖片不宜過多摩渺，800字/圖?。 3.??文章內(nèi)容：思路清晰剂邮、一目了然摇幻、排版整潔? 4.??文章內(nèi)不得有任何推廣信息。包括但不限于公眾號、微博绰姻、微信枉侧，更不得在通過投稿后再修改文章加入推廣信息。你可以將這些推廣以及個人信息放在個人主頁介紹里狂芋。??