動態(tài)分區(qū) 參數(shù)說明hive.exec.dynamic.partition是否開啟動態(tài)分區(qū)税娜,默認(rèn)是false扎谎。如果要開啟動態(tài)分區(qū)萧豆,就設(shè)置為true...
RDD的創(chuàng)建和保存1.1 textFile從HDFS中讀取一個文本文件1.2 makeRDD亏掀、parallelize都會創(chuàng)建一個新的Parall...
注:這篇博客講的是自己對Spark的初步認(rèn)識和學(xué)習(xí)横缔,可能會有錯誤蔫磨。參考資料是廈門大學(xué)的Spark學(xué)習(xí)基礎(chǔ)纳寂,對應(yīng)網(wǎng)址上有關(guān)于Spark運行機制的6...
場景: ??讀取2g大小的文件主穗,做一些簡單的處理并將保存結(jié)果,為了方便的下載我將結(jié)果數(shù)據(jù)分成2個分區(qū)毙芜,分區(qū)方式是.coalesce(2).sav...
這里我主要是記錄在Scala中使用gson.JsonParser時碰到的一些問題忽媒,假設(shè)我已經(jīng)創(chuàng)建了一個JsonParser類,即val pars...
??本章講的是評分預(yù)測問題腋粥,也就是如何通過已知的用戶歷史評分記錄預(yù)測未知的用戶評分記錄晦雨。 評測算法 1. 平均值 ??取平均值作為預(yù)測結(jié)果是最簡...
??本章主要講了如何設(shè)計一個真實的推薦系統(tǒng)架曹。前面幾章都是從理論上講述了什么是推薦系統(tǒng)?如何利用用戶和物品的信息來設(shè)計和優(yōu)化推薦算法闹瞧?但推薦算法畢...
??第6章的標(biāo)題是“利用社交網(wǎng)絡(luò)數(shù)據(jù)”绑雄,為什么要用社交網(wǎng)絡(luò)數(shù)據(jù)?答:好友的推薦對于增加用戶對推薦結(jié)果的信任度非常重要奥邮。??社交網(wǎng)絡(luò)定義了用戶之間...
??本章主要講了利用用戶的上下文信息進行更加個性化的推薦万牺。上下文包括用戶訪問推薦系統(tǒng)的時間、地點洽腺、心情等脚粟,本章主要是講如何利用時間信息和地點信息...