##數(shù)據(jù)挖掘平臺分析與設(shè)計(jì)--基于HADOOP的

基于HADOOP的數(shù)據(jù)挖掘平臺分析與設(shè)計(jì) http://www.dzsc.com/data/html/2013-12-12/104633.html

Paste_Image.png

2.數(shù)據(jù)挖掘流程
  數(shù)據(jù)挖掘就是從大量的、不完全的瘸右、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的灯变、人們事先不知道的废登、但又是潛在有用的信息和知識的過程,表現(xiàn)形式為規(guī)則籍铁、概念、規(guī)律及模式等趾断。數(shù)據(jù)挖掘主要由以下步驟組成:
 【苊①數(shù)據(jù)預(yù)處理數(shù)據(jù)
  預(yù)處理階段主要為數(shù)據(jù)挖掘準(zhǔn)備好數(shù)據(jù)。
  一般來講主要包括數(shù)據(jù)清理和數(shù)據(jù)集成芋酌。對于大量的數(shù)據(jù)增显,難免的存在著噪聲或不一致的數(shù)據(jù)。對于存在這些問題的數(shù)據(jù)源脐帝,我們必須進(jìn)行數(shù)據(jù)預(yù)處理⊥疲現(xiàn)在,數(shù)據(jù)挖掘面對的挖掘?qū)ο蟮姆N類越來越多腮恩。半結(jié)構(gòu)數(shù)據(jù)梢杭、web數(shù)據(jù)、來自云的數(shù)據(jù)等各種數(shù)據(jù)形式層出不窮秸滴。如何將數(shù)據(jù)挖掘技術(shù)使用到這些不同的數(shù)據(jù)結(jié)構(gòu)中武契,數(shù)據(jù)預(yù)處理是非常重要的步驟和技術(shù)。它對于挖掘結(jié)果有著重要的影響荡含。
 ≈渌簟②數(shù)據(jù)挖掘
  一旦對數(shù)據(jù)的預(yù)處理工作完成,數(shù)據(jù)挖掘工作就開始了释液。這是整個數(shù)據(jù)挖掘過程的基本步驟全释,也就是使用智能的方法來提取數(shù)據(jù)模式的過程。數(shù)據(jù)挖掘階段误债,根據(jù)挖掘任務(wù)的不同浸船,我們會使用不同的技術(shù)和處理方法妄迁。常見的數(shù)據(jù)挖掘任務(wù)包括特征化、區(qū)分李命、分類登淘、關(guān)聯(lián)分析、聚類等封字。這是數(shù)據(jù)挖掘過程中最重要的步驟黔州。


//
一、數(shù)據(jù)挖掘技術(shù)概述
  作為一門快速發(fā)展的技術(shù)阔籽,數(shù)據(jù)挖掘引起了信息產(chǎn)業(yè)界和社會的廣泛關(guān)注流妻。數(shù)據(jù)挖掘技術(shù)跨越多個學(xué)科,無論是數(shù)據(jù)庫技術(shù)笆制、機(jī)器學(xué)習(xí)绅这、統(tǒng)計(jì)學(xué)、模式識別项贺,還是神經(jīng)網(wǎng)絡(luò)君躺,還是人工智能峭判,數(shù)據(jù)挖掘都能從中吸取營養(yǎng)开缎,不斷發(fā)展。如今林螃,隨著云計(jì)算的出現(xiàn)和發(fā)展奕删,數(shù)據(jù)挖掘技術(shù)迎來了新的機(jī)遇和挑戰(zhàn)。
  1.數(shù)據(jù)挖掘發(fā)展歷程與分類
  數(shù)據(jù)挖掘由單個算法疗认,單個系統(tǒng)到并行數(shù)據(jù)挖掘與服務(wù)的模式完残,經(jīng)歷了數(shù)據(jù)挖掘軟件開始和數(shù)據(jù)庫結(jié)合、多種數(shù)據(jù)類型融合横漏、分布式挖掘等多個過程谨设。到今天,數(shù)據(jù)挖掘軟件發(fā)展的歷程缎浇,可以說是進(jìn)入基于云計(jì)算的數(shù)據(jù)挖掘扎拣。
  由于數(shù)據(jù)挖掘是一個交叉學(xué)科領(lǐng)域,是在包括機(jī)器學(xué)習(xí)素跺,模式識別等多個學(xué)科的基礎(chǔ)上發(fā)展而來二蓝。依賴于我們所用的數(shù)據(jù)挖掘方法,我們又可以使用其他學(xué)科的多種技術(shù)指厌,如神經(jīng)網(wǎng)絡(luò)刊愚、模糊或粗糙集合論、知識表示等踩验。

//
三鸥诽、基于HADOOP的數(shù)據(jù)挖掘系統(tǒng)設(shè)計(jì)

通過對典型的數(shù)據(jù)挖掘系統(tǒng)的分析和研究商玫,我們可以利用HADOOP平臺集群巨大的存儲和計(jì)算能力,組建基于HADOOP的數(shù)據(jù)挖掘系統(tǒng)牡借。

1.基本設(shè)計(jì)思想

在經(jīng)典的數(shù)據(jù)挖掘系統(tǒng)中决帖,有的模塊不需要很大的計(jì)算量,而有的模塊需要非常大的計(jì)算量蓖捶。充分利用HADOOP的集群特征地回,將數(shù)據(jù)挖掘系統(tǒng)中需要巨大計(jì)算能力的各個模塊的計(jì)算和存儲要求擴(kuò)展到HADOOP集群中的各個節(jié)點(diǎn)上,利用集群的并行計(jì)算和存儲能力來進(jìn)行相關(guān)數(shù)據(jù)挖掘工作俊鱼。我們可以采用分層的設(shè)計(jì)思想刻像。在底層,使用HADOOP來存儲并闲、分析和處理巨大的數(shù)據(jù)量细睡,而在高層通過接口直接透明的調(diào)用底層的計(jì)算和存儲能力。其流程如下:

①存儲

在整個系統(tǒng)中帝火,我們可以使用HDFS來存儲文件和數(shù)據(jù)溜徙。HDFS具有很高的數(shù)據(jù)吞吐量,并且很好的實(shí)現(xiàn)了容錯機(jī)制犀填。HDFS提供了多種訪問接口蠢壹,包括API以及各種操作命令。使用HDFS,我們可以為原始的大數(shù)據(jù)集提供存儲空間九巡,對臨時文件進(jìn)行存儲图贸,為數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘過程提供輸入數(shù)據(jù)冕广,同時輸出數(shù)據(jù)我們也保存在HDFS中疏日。

②計(jì)算

在系統(tǒng)中,我們可以使用MapReduce將數(shù)據(jù)挖掘系統(tǒng)中具有大計(jì)算量特征的各個子模塊的計(jì)算任務(wù)發(fā)布到集群中的各個節(jié)點(diǎn)以實(shí)現(xiàn)并行計(jì)算撒汉。MapReduce具有很好的伸縮性和擴(kuò)展性沟优,它屏蔽掉底層,通過提供編程接口使我們可以快速的實(shí)現(xiàn)各種算法的并行方式睬辐。實(shí)現(xiàn)過程中我們都需要緊緊結(jié)合HDFS.

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末挠阁,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子溉委,更是在濱河造成了極大的恐慌鹃唯,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,743評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件瓣喊,死亡現(xiàn)場離奇詭異坡慌,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)藻三,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,296評論 3 385
  • 文/潘曉璐 我一進(jìn)店門洪橘,熙熙樓的掌柜王于貴愁眉苦臉地迎上來跪者,“玉大人,你說我怎么就攤上這事熄求≡幔” “怎么了?”我有些...
    開封第一講書人閱讀 157,285評論 0 348
  • 文/不壞的土叔 我叫張陵弟晚,是天一觀的道長忘衍。 經(jīng)常有香客問我,道長卿城,這世上最難降的妖魔是什么枚钓? 我笑而不...
    開封第一講書人閱讀 56,485評論 1 283
  • 正文 為了忘掉前任形用,我火速辦了婚禮筐带,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘其馏。我一直安慰自己多望,他們只是感情好嫩舟,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,581評論 6 386
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著怀偷,像睡著了一般家厌。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上枢纠,一...
    開封第一講書人閱讀 49,821評論 1 290
  • 那天像街,我揣著相機(jī)與錄音,去河邊找鬼晋渺。 笑死,一個胖子當(dāng)著我的面吹牛脓斩,可吹牛的內(nèi)容都是我干的木西。 我是一名探鬼主播,決...
    沈念sama閱讀 38,960評論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼随静,長吁一口氣:“原來是場噩夢啊……” “哼八千!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起燎猛,我...
    開封第一講書人閱讀 37,719評論 0 266
  • 序言:老撾萬榮一對情侶失蹤恋捆,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后重绷,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體沸停,經(jīng)...
    沈念sama閱讀 44,186評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,516評論 2 327
  • 正文 我和宋清朗相戀三年昭卓,在試婚紗的時候發(fā)現(xiàn)自己被綠了愤钾。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片瘟滨。...
    茶點(diǎn)故事閱讀 38,650評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖能颁,靈堂內(nèi)的尸體忽然破棺而出杂瘸,到底是詐尸還是另有隱情,我是刑警寧澤伙菊,帶...
    沈念sama閱讀 34,329評論 4 330
  • 正文 年R本政府宣布败玉,位于F島的核電站,受9級特大地震影響镜硕,放射性物質(zhì)發(fā)生泄漏绒怨。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,936評論 3 313
  • 文/蒙蒙 一谦疾、第九天 我趴在偏房一處隱蔽的房頂上張望南蹂。 院中可真熱鬧,春花似錦念恍、人聲如沸六剥。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,757評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽疗疟。三九已至,卻和暖如春瞳氓,著一層夾襖步出監(jiān)牢的瞬間策彤,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,991評論 1 266
  • 我被黑心中介騙來泰國打工匣摘, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留店诗,地道東北人。 一個月前我還...
    沈念sama閱讀 46,370評論 2 360
  • 正文 我出身青樓音榜,卻偏偏與公主長得像庞瘸,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子赠叼,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,527評論 2 349

推薦閱讀更多精彩內(nèi)容