最近,北大開源了一個中文分詞工具包,它在多個分詞數(shù)據(jù)集上都有非常高的分詞準(zhǔn)確率郁季。其中廣泛使用的結(jié)巴分詞誤差率高達(dá) 18.55% 和 20.42,而北大的 pkuseg 只有 ...
最近,北大開源了一個中文分詞工具包,它在多個分詞數(shù)據(jù)集上都有非常高的分詞準(zhǔn)確率郁季。其中廣泛使用的結(jié)巴分詞誤差率高達(dá) 18.55% 和 20.42,而北大的 pkuseg 只有 ...
user CF是基于相似用戶的推薦方法蛛倦,實現(xiàn)這種推薦的基本思路是:計算出相似用戶得分,獲取相似用戶的物品集合的打分啦桌,最后兩個得分相乘溯壶,得出相似用戶推薦的物品集合topN。 ...
余弦相似度用向量空間中兩個向量夾角的余弦值作為衡量兩個個體間差異的大小甫男。余弦值越接近1且改,就表明夾角越接近0度,也就是兩個向量越相似板驳,這就叫"余弦相似性"又跛。 對于兩個向量,如果...
推薦系統(tǒng)的目的是為客戶推薦最合適的同類產(chǎn)品若治,這些產(chǎn)品包括文章慨蓝、商品、音樂端幼、視頻等等礼烈,這些推薦系統(tǒng)比較成熟的例如淘寶、京東等各種電商的推薦(掌柜精選婆跑、相關(guān)產(chǎn)品推薦)济丘,各類門戶網(wǎng)...
Python 字典(Dictionary) keys() 函數(shù)以列表返回一個字典所有的鍵。 keys()方法語法: dict.keys() 參數(shù) NA。 返回值 返回一個字典...
iterrows():將DataFrame迭代為(insex, Series)對摹迷。 itertuples():將DataFrame迭代為元祖疟赊。 iteritems():將Da...
Hbase是被設(shè)計用來做K-V查詢,但有時候也會遇到基于Hbase表的復(fù)雜統(tǒng)計峡碉,寫MR很不方便近哟。hive考慮到這一點(diǎn),提供了操作Hbase表的接口鲫寄。hive讀取Hbase表吉执,...
hbase是列式數(shù)據(jù)庫,rowkey是字典序的地来。每個列族是一個文件戳玫,將經(jīng)常一起查詢的列放到同一個列族中,減少文件的尋址時間未斑。 數(shù)據(jù)模型: rowkey:是Bytearray咕宿,...
zookeeper是松散耦合的分布式系統(tǒng)中粗粒度鎖以及可靠性存儲的系統(tǒng),具有保管數(shù)據(jù)蜡秽、提供監(jiān)聽等功能府阀,存儲的容量不高,具有開源芽突、高效的试浙、可協(xié)同工作的特點(diǎn),其數(shù)據(jù)模型具有命名空...
一 Receiver方式 Receiver是使用Kafka的high level的consumer API來實現(xiàn)的寞蚌。Receiver從Kafka中獲取數(shù)據(jù)都是存儲在Spark...
實時流式處理系統(tǒng)是7*24小時運(yùn)行的田巴,同時可以從各種同時可以從各種各樣的系統(tǒng)錯誤中恢復(fù),在設(shè)計之處挟秤,Spark Streaing就支持driver和worker節(jié)點(diǎn)的錯誤恢復(fù)...
全局變量算子是updataStateByKey壹哺,需要設(shè)置checkpiont機(jī)制。 checkpoint的意思就是建立檢查點(diǎn),類似于快照,例如在spark計算里面計算流程DA...
streaming的窗口操作是對一定時間段內(nèi)的處理煞聪,主要是有兩個參數(shù):窗口長度和窗口滑動時間斗躏。 下圖中窗口長度是30秒,滑動時間是10秒昔脯,可以設(shè)置為分鐘 其他窗口函數(shù):
spark streaming是spark 核心API的拓展啄糙,是一個實時數(shù)據(jù)計算工具,具備高吞吐量云稚、容錯機(jī)制的特點(diǎn)隧饼,支持多種數(shù)據(jù)源獲取數(shù)據(jù),接受kafka静陈、flume燕雁、HDF...
kafka的特點(diǎn): 1.消息持久化:通過0(1)的磁盤數(shù)據(jù)結(jié)構(gòu)提供數(shù)據(jù)的持久化诞丽,kafka中可以存儲數(shù)據(jù),存儲量決定可以放多少數(shù)據(jù)拐格,數(shù)據(jù)按照接受順序發(fā)送給streaming僧免,...
flume是一款可以從不同的數(shù)據(jù)源把數(shù)據(jù)集中存到HDFS或者Hbase中,flume通過agent來完成接受收集數(shù)據(jù)捏浊,agent是一個獨(dú)立的守護(hù)進(jìn)程懂衩,從客戶端處接受數(shù)據(jù),傳給...
spark3.0版本可能不太公布底層的RDD金踪,以后使用dataframe將成為趨勢浊洞,現(xiàn)在大都數(shù)公司也多使用dataframe來處理數(shù)據(jù) RDD、DataFrame和DataS...
DataFrame 的函數(shù) Action 操作 1胡岔、collect() ,返回值是一個數(shù)組法希,返回dataframe集合所有的行 2、collectAsList() 返回值是一...