lerna 概要 lerna是GitHub上面開源的一款js代碼庫管理軟件, 用來對一系列相互耦合比較大、又相互獨立的js git庫進行管理钙勃。解決各個庫之間修改混亂笆搓、難以跟蹤...
![240](https://upload.jianshu.io/users/upload_avatars/23189635/03934c15-e4e0-47f0-af6d-27b9c1c005f7.jpg?imageMogr2/auto-orient/strip|imageView2/1/w/240/h/240)
lerna 概要 lerna是GitHub上面開源的一款js代碼庫管理軟件, 用來對一系列相互耦合比較大、又相互獨立的js git庫進行管理钙勃。解決各個庫之間修改混亂笆搓、難以跟蹤...
1.支持度(Support) 其中籽懦,I表示總事務集崩哩。num()表示求事務集里特定項集出現(xiàn)的次數(shù)档悠。 2.置信度 (Confidence) 置信度表示在先決條件X發(fā)生的情況下思喊,由...
淺談p值(p-value是什么) 當我們說到p-value時壁酬,我們在說什么? “這個變量的p-value小于0.05恨课,所以這個變量很重要” ........ 你真的知道自己在...
數(shù)據(jù)質(zhì)量:準確性舆乔,完整性,時效性剂公,一致性希俩,可信性,可解釋性 數(shù)據(jù)清理:填寫缺失值纲辽,光滑噪聲數(shù)據(jù)颜武,識別或刪除離群點1,缺失值 2拖吼,光滑2.1鳞上,分箱 2.2,回歸 2.3吊档,離群點...
Mahout 使用的算法 歐氏距離相似度:利用歐氏距離定義的相似度篙议,取值范圍在[0,1],其值越小籍铁,說明距離越近涡上,相似度越高。 余弦相似度:和向量空間模型(VSM)類似拒名,利用...
在數(shù)據(jù)分析和數(shù)據(jù)挖掘的過程中吩愧,我們經(jīng)常需要知道個體間差異的大小,進而評價個體的相似性和類別增显。最常見的是數(shù)據(jù)分析中的相關(guān)分析雁佳,數(shù)據(jù)挖掘中的分類和聚類算法脐帝,如K最近鄰(KNN)和...
數(shù)據(jù)對象與屬性類型 屬性 1)標稱屬性 2)二元屬性(布爾屬性 true or false) 3)序數(shù)屬性值之間具有有意義的序或級別評定(ranking)例如:小,中糖权,大 或...
推薦系統(tǒng)屬性: 系統(tǒng)角色 系統(tǒng)角色抽象來看堵腹,推薦系統(tǒng)中一般有四個重要的角色:用戶:用戶是系統(tǒng)的使用者物品:物品就是將要被推薦的候選對象情景:情景是推薦時所處的環(huán)境匹配引擎:而...
數(shù)據(jù)類型 1)關(guān)系型數(shù)據(jù)庫2)數(shù)據(jù)倉庫: 稱為 數(shù)據(jù)立方體. 3)事務數(shù)據(jù)一次事務作為一條數(shù)據(jù),例如:一次購物星澳,一次航班訂票疚顷,一次用戶網(wǎng)頁點擊 4)其他類型的數(shù)據(jù)時間相關(guān)或序...
基于 發(fā)布/訂閱 設計模式按需生產(chǎn),降低成本枷遂,提高效率 JMS(Java Message Service) Sun及其伙伴公司提出了Java消息服務JMS(Java Mess...
spark Spark是加州大學伯克利分校AMP實驗室所開源的類HadoopMapReduce的通用并行框架樱衷,擁有類似Hadoop MapReduce的并行處理模式。不同于M...
Google文件系統(tǒng)GFS來提供分布式數(shù)據(jù)存儲,類似地先慷,HBase是在Hadoop的HDFS基礎(chǔ)之上提供了Bigtable的能力饮笛。Hadoop和Database兩個英文單詞的...
增加協(xié)調(diào)部門:協(xié)同部門可以實時收集各個倉庫的運作情況,并決策將進貨存放在哪里更為合適论熙。 命名節(jié)點(Name Node) 在HDFS中福青,扮演這個角色的節(jié)點稱為命名節(jié)點(Name...
Apache Flume Flume的核心模塊有三個:源頭(Source):負責接收數(shù)據(jù)的模塊,它定義了數(shù)據(jù)的源頭脓诡,從源頭收集數(shù)據(jù)无午,傳遞給通道。源頭還可用于接收其他Flume...