240 發(fā)簡信
IP屬地:廣東
  • lerna的基礎(chǔ)使用

    lerna 概要 lerna是GitHub上面開源的一款js代碼庫管理軟件, 用來對一系列相互耦合比較大、又相互獨立的js git庫進行管理钙勃。解決各個庫之間修改混亂笆搓、難以跟蹤...

  • 支持度 置信度 提升度

    1.支持度(Support) 其中籽懦,I表示總事務集崩哩。num()表示求事務集里特定項集出現(xiàn)的次數(shù)档悠。 2.置信度 (Confidence) 置信度表示在先決條件X發(fā)生的情況下思喊,由...

  • 120
    (轉(zhuǎn)發(fā))卡方分布 p 值 與 求證過程

    淺談p值(p-value是什么) 當我們說到p-value時壁酬,我們在說什么? “這個變量的p-value小于0.05恨课,所以這個變量很重要” ........ 你真的知道自己在...

  • 120
    (三) 數(shù)據(jù)預處理

    數(shù)據(jù)質(zhì)量:準確性舆乔,完整性,時效性剂公,一致性希俩,可信性,可解釋性 數(shù)據(jù)清理:填寫缺失值纲辽,光滑噪聲數(shù)據(jù)颜武,識別或刪除離群點1,缺失值 2拖吼,光滑2.1鳞上,分箱 2.2,回歸 2.3吊档,離群點...

  • 120
    推薦系統(tǒng) Mahout

    Mahout 使用的算法 歐氏距離相似度:利用歐氏距離定義的相似度篙议,取值范圍在[0,1],其值越小籍铁,說明距離越近涡上,相似度越高。 余弦相似度:和向量空間模型(VSM)類似拒名,利用...

  • 120
    推薦系統(tǒng)-- 歐式距離和相似度

    在數(shù)據(jù)分析和數(shù)據(jù)挖掘的過程中吩愧,我們經(jīng)常需要知道個體間差異的大小,進而評價個體的相似性和類別增显。最常見的是數(shù)據(jù)分析中的相關(guān)分析雁佳,數(shù)據(jù)挖掘中的分類和聚類算法脐帝,如K最近鄰(KNN)和...

  • 120
    (二)認識數(shù)據(jù)

    數(shù)據(jù)對象與屬性類型 屬性 1)標稱屬性 2)二元屬性(布爾屬性 true or false) 3)序數(shù)屬性值之間具有有意義的序或級別評定(ranking)例如:小,中糖权,大 或...

  • 120
    推薦系統(tǒng)

    推薦系統(tǒng)屬性: 系統(tǒng)角色 系統(tǒng)角色抽象來看堵腹,推薦系統(tǒng)中一般有四個重要的角色:用戶:用戶是系統(tǒng)的使用者物品:物品就是將要被推薦的候選對象情景:情景是推薦時所處的環(huán)境匹配引擎:而...

  • 120
    數(shù)據(jù)挖掘 (一) 導論

    數(shù)據(jù)類型 1)關(guān)系型數(shù)據(jù)庫2)數(shù)據(jù)倉庫: 稱為 數(shù)據(jù)立方體. 3)事務數(shù)據(jù)一次事務作為一條數(shù)據(jù),例如:一次購物星澳,一次航班訂票疚顷,一次用戶網(wǎng)頁點擊 4)其他類型的數(shù)據(jù)時間相關(guān)或序...

  • 120
    信息檢索

    搜索引擎、推薦系統(tǒng)和在線廣告 布爾模型 總體上來看禁偎,布爾模型的優(yōu)點是簡單易懂腿堤,系統(tǒng)實現(xiàn)的成本也較低。不過如暖,它的弱點就是對相關(guān)性的刻畫不足笆檀。相關(guān)與否是個模糊的概念,有的文章和查...

  • 120
    在線實時處理

    實時性比較 在線實時處理 > 消息機制(增量處理) > 全量批處理 Storm 首先來理解Storm體系中的一些重要概念和含義盒至,包括元組(Tuple)酗洒、數(shù)據(jù)流(Stream...

  • 120
    消息機制:提高及時性

    基于 發(fā)布/訂閱 設計模式按需生產(chǎn),降低成本枷遂,提高效率 JMS(Java Message Service) Sun及其伙伴公司提出了Java消息服務JMS(Java Mess...

  • 120
    spark,hive,pig,Impala 和 spark SQL

    spark Spark是加州大學伯克利分校AMP實驗室所開源的類HadoopMapReduce的通用并行框架樱衷,擁有類似Hadoop MapReduce的并行處理模式。不同于M...

  • 120
    MapReduce

    1)按照Hadoop公司的品質(zhì)定義酒唉,鑒定水源的等級箫老,分為1等、2等黔州、3等和4等。1等水最優(yōu)阔籽,4等水最次流妻。2)按照鑒定的等級,將4種水源用于不同類型的飲料生產(chǎn)笆制。1等水用于生產(chǎn)純...

  • 120
    非持久化存儲

    緩存和散列 緩存(Cache)可以被看作計算機系統(tǒng)的偉大發(fā)明之一绅这,它的應用在該領(lǐng)域中是普遍存在的。小到計算機的中央處理器(CPU)在辆、主板证薇、顯卡等硬件,大到大規(guī)模的互聯(lián)網(wǎng)站點匆篓,...

  • 120
    MongoDB

    數(shù)據(jù)模型:HBase的數(shù)據(jù)模型和關(guān)系型的二維表非常相似浑度,其靈活性體現(xiàn)在列式存儲上,它對列(或者說屬性鸦概、字段)的定義沒有嚴格要求箩张,而且可以通過超多的列族來構(gòu)建一個超寬的表格,代...

  • 120
    Hadoop hbase

    Google文件系統(tǒng)GFS來提供分布式數(shù)據(jù)存儲,類似地先慷,HBase是在Hadoop的HDFS基礎(chǔ)之上提供了Bigtable的能力饮笛。Hadoop和Database兩個英文單詞的...

  • 120
    Hadoop hdfs

    增加協(xié)調(diào)部門:協(xié)同部門可以實時收集各個倉庫的運作情況,并決策將進貨存放在哪里更為合適论熙。 命名節(jié)點(Name Node) 在HDFS中福青,扮演這個角色的節(jié)點稱為命名節(jié)點(Name...

  • 120
    內(nèi)部數(shù)據(jù)收集

    Apache Flume Flume的核心模塊有三個:源頭(Source):負責接收數(shù)據(jù)的模塊,它定義了數(shù)據(jù)的源頭脓诡,從源頭收集數(shù)據(jù)无午,傳遞給通道。源頭還可用于接收其他Flume...

亚洲A日韩AV无卡,小受高潮白浆痉挛av免费观看,成人AV无码久久久久不卡网站,国产AV日韩精品