奇點_wu123 - 簡書

發(fā)簡信

奇點_wu123

2
關(guān)注
4
粉絲
37
文章
33954

字數(shù)
10

收獲喜歡
1

總資產(chǎn)

IP屬地：廣東

奇點_wu123

lerna的基礎(chǔ)使用
lerna 概要 lerna是GitHub上面開源的一款js代碼庫管理軟件，用來對一系列相互耦合比較大、又相互獨立的js git庫進行管理钙勃。解決各個庫之間修改混亂笆搓、難以跟蹤...

sovran
89820 3 33
奇點_wu123

支持度置信度提升度
1.支持度（Support）其中籽懦，I表示總事務集崩哩。num()表示求事務集里特定項集出現(xiàn)的次數(shù)档悠。 2.置信度（Confidence）置信度表示在先決條件X發(fā)生的情況下思喊，由...

1719 0 0

奇點_wu123

（轉(zhuǎn)發(fā)）卡方分布 p 值與求證過程
淺談p值（p-value是什么）當我們說到p-value時壁酬，我們在說什么？ “這個變量的p-value小于0.05恨课，所以這個變量很重要” ........ 你真的知道自己在...

29963 0 3
奇點_wu123

(三) 數(shù)據(jù)預處理
數(shù)據(jù)質(zhì)量：準確性舆乔，完整性，時效性剂公，一致性希俩，可信性，可解釋性數(shù)據(jù)清理：填寫缺失值纲辽，光滑噪聲數(shù)據(jù)颜武，識別或刪除離群點1，缺失值 2拖吼，光滑2.1鳞上，分箱 2.2，回歸 2.3吊档，離群點...

273 0 0
奇點_wu123

推薦系統(tǒng) Mahout
Mahout 使用的算法歐氏距離相似度：利用歐氏距離定義的相似度篙议，取值范圍在[0,1]，其值越小籍铁，說明距離越近涡上，相似度越高。余弦相似度：和向量空間模型（VSM）類似拒名，利用...

803 0 0
奇點_wu123

推薦系統(tǒng)-- 歐式距離和相似度
在數(shù)據(jù)分析和數(shù)據(jù)挖掘的過程中吩愧，我們經(jīng)常需要知道個體間差異的大小，進而評價個體的相似性和類別增显。最常見的是數(shù)據(jù)分析中的相關(guān)分析雁佳，數(shù)據(jù)挖掘中的分類和聚類算法脐帝，如K最近鄰（KNN）和...

5825 0 1
奇點_wu123

（二）認識數(shù)據(jù)
數(shù)據(jù)對象與屬性類型屬性 1）標稱屬性 2）二元屬性（布爾屬性 true or false） 3）序數(shù)屬性值之間具有有意義的序或級別評定（ranking）例如：小，中糖权，大或...

926 0 0

奇點_wu123

推薦系統(tǒng)
推薦系統(tǒng)屬性：系統(tǒng)角色系統(tǒng)角色抽象來看堵腹，推薦系統(tǒng)中一般有四個重要的角色：用戶:用戶是系統(tǒng)的使用者物品:物品就是將要被推薦的候選對象情景:情景是推薦時所處的環(huán)境匹配引擎:而...

535 0 0
奇點_wu123

數(shù)據(jù)挖掘 (一）導論
數(shù)據(jù)類型 1）關(guān)系型數(shù)據(jù)庫2）數(shù)據(jù)倉庫：稱為數(shù)據(jù)立方體. 3）事務數(shù)據(jù)一次事務作為一條數(shù)據(jù)，例如：一次購物星澳，一次航班訂票疚顷，一次用戶網(wǎng)頁點擊 4）其他類型的數(shù)據(jù)時間相關(guān)或序...

562 0 0
奇點_wu123

信息檢索
搜索引擎、推薦系統(tǒng)和在線廣告布爾模型總體上來看禁偎，布爾模型的優(yōu)點是簡單易懂腿堤，系統(tǒng)實現(xiàn)的成本也較低。不過如暖，它的弱點就是對相關(guān)性的刻畫不足笆檀。相關(guān)與否是個模糊的概念，有的文章和查...

389 0 0
奇點_wu123

tsconfig json 配置詳解
版本1 版本2

1922 0 1
奇點_wu123

在線實時處理
實時性比較在線實時處理 > 消息機制（增量處理） > 全量批處理 Storm 首先來理解Storm體系中的一些重要概念和含義盒至，包括元組（Tuple）酗洒、數(shù)據(jù)流（Stream...

459 0 0

奇點_wu123

消息機制：提高及時性
基于發(fā)布/訂閱設計模式按需生產(chǎn)，降低成本枷遂，提高效率 JMS（Java Message Service） Sun及其伙伴公司提出了Java消息服務JMS（Java Mess...

704 0 0
奇點_wu123

spark,hive,pig,Impala 和 spark SQL
spark Spark是加州大學伯克利分校AMP實驗室所開源的類HadoopMapReduce的通用并行框架樱衷，擁有類似Hadoop MapReduce的并行處理模式。不同于M...

1092 0 0
奇點_wu123

MapReduce
1）按照Hadoop公司的品質(zhì)定義酒唉，鑒定水源的等級箫老，分為1等、2等黔州、3等和4等。1等水最優(yōu)阔籽，4等水最次流妻。2）按照鑒定的等級，將4種水源用于不同類型的飲料生產(chǎn)笆制。1等水用于生產(chǎn)純...

238 0 0
奇點_wu123

非持久化存儲
緩存和散列緩存（Cache）可以被看作計算機系統(tǒng)的偉大發(fā)明之一绅这，它的應用在該領(lǐng)域中是普遍存在的。小到計算機的中央處理器（CPU）在辆、主板证薇、顯卡等硬件，大到大規(guī)模的互聯(lián)網(wǎng)站點匆篓，...

685 0 0
奇點_wu123

MongoDB
數(shù)據(jù)模型：HBase的數(shù)據(jù)模型和關(guān)系型的二維表非常相似浑度，其靈活性體現(xiàn)在列式存儲上，它對列（或者說屬性鸦概、字段）的定義沒有嚴格要求箩张，而且可以通過超多的列族來構(gòu)建一個超寬的表格，代...

148 0 0

奇點_wu123

Hadoop hbase
Google文件系統(tǒng)GFS來提供分布式數(shù)據(jù)存儲，類似地先慷，HBase是在Hadoop的HDFS基礎(chǔ)之上提供了Bigtable的能力饮笛。Hadoop和Database兩個英文單詞的...

263 0 0
奇點_wu123

Hadoop hdfs
增加協(xié)調(diào)部門：協(xié)同部門可以實時收集各個倉庫的運作情況，并決策將進貨存放在哪里更為合適论熙。命名節(jié)點（Name Node）在HDFS中福青，扮演這個角色的節(jié)點稱為命名節(jié)點（Name...

167 0 0
奇點_wu123

內(nèi)部數(shù)據(jù)收集
Apache Flume Flume的核心模塊有三個：源頭（Source）：負責接收數(shù)據(jù)的模塊，它定義了數(shù)據(jù)的源頭脓诡，從源頭收集數(shù)據(jù)无午，傳遞給通道。源頭還可用于接收其他Flume...

218 0 0