基于HADOOP的數(shù)據(jù)挖掘平臺分析與設(shè)計(jì) http://www.dzsc.com/data/html/2013-12-12/104633.html
2.數(shù)據(jù)挖掘流程
數(shù)據(jù)挖掘就是從大量的、不完全的瘸右、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的灯变、人們事先不知道的废登、但又是潛在有用的信息和知識的過程,表現(xiàn)形式為規(guī)則籍铁、概念、規(guī)律及模式等趾断。數(shù)據(jù)挖掘主要由以下步驟組成:
【苊①數(shù)據(jù)預(yù)處理數(shù)據(jù)
預(yù)處理階段主要為數(shù)據(jù)挖掘準(zhǔn)備好數(shù)據(jù)。
一般來講主要包括數(shù)據(jù)清理和數(shù)據(jù)集成芋酌。對于大量的數(shù)據(jù)增显,難免的存在著噪聲或不一致的數(shù)據(jù)。對于存在這些問題的數(shù)據(jù)源脐帝,我們必須進(jìn)行數(shù)據(jù)預(yù)處理⊥疲現(xiàn)在,數(shù)據(jù)挖掘面對的挖掘?qū)ο蟮姆N類越來越多腮恩。半結(jié)構(gòu)數(shù)據(jù)梢杭、web數(shù)據(jù)、來自云的數(shù)據(jù)等各種數(shù)據(jù)形式層出不窮秸滴。如何將數(shù)據(jù)挖掘技術(shù)使用到這些不同的數(shù)據(jù)結(jié)構(gòu)中武契,數(shù)據(jù)預(yù)處理是非常重要的步驟和技術(shù)。它對于挖掘結(jié)果有著重要的影響荡含。
≈渌簟②數(shù)據(jù)挖掘
一旦對數(shù)據(jù)的預(yù)處理工作完成,數(shù)據(jù)挖掘工作就開始了释液。這是整個數(shù)據(jù)挖掘過程的基本步驟全释,也就是使用智能的方法來提取數(shù)據(jù)模式的過程。數(shù)據(jù)挖掘階段误债,根據(jù)挖掘任務(wù)的不同浸船,我們會使用不同的技術(shù)和處理方法妄迁。常見的數(shù)據(jù)挖掘任務(wù)包括特征化、區(qū)分李命、分類登淘、關(guān)聯(lián)分析、聚類等封字。這是數(shù)據(jù)挖掘過程中最重要的步驟黔州。
//
一、數(shù)據(jù)挖掘技術(shù)概述
作為一門快速發(fā)展的技術(shù)阔籽,數(shù)據(jù)挖掘引起了信息產(chǎn)業(yè)界和社會的廣泛關(guān)注流妻。數(shù)據(jù)挖掘技術(shù)跨越多個學(xué)科,無論是數(shù)據(jù)庫技術(shù)笆制、機(jī)器學(xué)習(xí)绅这、統(tǒng)計(jì)學(xué)、模式識別项贺,還是神經(jīng)網(wǎng)絡(luò)君躺,還是人工智能峭判,數(shù)據(jù)挖掘都能從中吸取營養(yǎng)开缎,不斷發(fā)展。如今林螃,隨著云計(jì)算的出現(xiàn)和發(fā)展奕删,數(shù)據(jù)挖掘技術(shù)迎來了新的機(jī)遇和挑戰(zhàn)。
1.數(shù)據(jù)挖掘發(fā)展歷程與分類
數(shù)據(jù)挖掘由單個算法疗认,單個系統(tǒng)到并行數(shù)據(jù)挖掘與服務(wù)的模式完残,經(jīng)歷了數(shù)據(jù)挖掘軟件開始和數(shù)據(jù)庫結(jié)合、多種數(shù)據(jù)類型融合横漏、分布式挖掘等多個過程谨设。到今天,數(shù)據(jù)挖掘軟件發(fā)展的歷程缎浇,可以說是進(jìn)入基于云計(jì)算的數(shù)據(jù)挖掘扎拣。
由于數(shù)據(jù)挖掘是一個交叉學(xué)科領(lǐng)域,是在包括機(jī)器學(xué)習(xí)素跺,模式識別等多個學(xué)科的基礎(chǔ)上發(fā)展而來二蓝。依賴于我們所用的數(shù)據(jù)挖掘方法,我們又可以使用其他學(xué)科的多種技術(shù)指厌,如神經(jīng)網(wǎng)絡(luò)刊愚、模糊或粗糙集合論、知識表示等踩验。
//
三鸥诽、基于HADOOP的數(shù)據(jù)挖掘系統(tǒng)設(shè)計(jì)
通過對典型的數(shù)據(jù)挖掘系統(tǒng)的分析和研究商玫,我們可以利用HADOOP平臺集群巨大的存儲和計(jì)算能力,組建基于HADOOP的數(shù)據(jù)挖掘系統(tǒng)牡借。
1.基本設(shè)計(jì)思想
在經(jīng)典的數(shù)據(jù)挖掘系統(tǒng)中决帖,有的模塊不需要很大的計(jì)算量,而有的模塊需要非常大的計(jì)算量蓖捶。充分利用HADOOP的集群特征地回,將數(shù)據(jù)挖掘系統(tǒng)中需要巨大計(jì)算能力的各個模塊的計(jì)算和存儲要求擴(kuò)展到HADOOP集群中的各個節(jié)點(diǎn)上,利用集群的并行計(jì)算和存儲能力來進(jìn)行相關(guān)數(shù)據(jù)挖掘工作俊鱼。我們可以采用分層的設(shè)計(jì)思想刻像。在底層,使用HADOOP來存儲并闲、分析和處理巨大的數(shù)據(jù)量细睡,而在高層通過接口直接透明的調(diào)用底層的計(jì)算和存儲能力。其流程如下:
①存儲
在整個系統(tǒng)中帝火,我們可以使用HDFS來存儲文件和數(shù)據(jù)溜徙。HDFS具有很高的數(shù)據(jù)吞吐量,并且很好的實(shí)現(xiàn)了容錯機(jī)制犀填。HDFS提供了多種訪問接口蠢壹,包括API以及各種操作命令。使用HDFS,我們可以為原始的大數(shù)據(jù)集提供存儲空間九巡,對臨時文件進(jìn)行存儲图贸,為數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘過程提供輸入數(shù)據(jù)冕广,同時輸出數(shù)據(jù)我們也保存在HDFS中疏日。
②計(jì)算
在系統(tǒng)中,我們可以使用MapReduce將數(shù)據(jù)挖掘系統(tǒng)中具有大計(jì)算量特征的各個子模塊的計(jì)算任務(wù)發(fā)布到集群中的各個節(jié)點(diǎn)以實(shí)現(xiàn)并行計(jì)算撒汉。MapReduce具有很好的伸縮性和擴(kuò)展性沟优,它屏蔽掉底層,通過提供編程接口使我們可以快速的實(shí)現(xiàn)各種算法的并行方式睬辐。實(shí)現(xiàn)過程中我們都需要緊緊結(jié)合HDFS.