數(shù)據(jù)計算
當(dāng)對數(shù)據(jù)進行處理時奉件,處理簡單宵蛀、結(jié)構(gòu)化的數(shù)據(jù)集較為簡單,算法復(fù)雜度也易于預(yù)測和評估县貌,但是對于處理半結(jié)構(gòu)化糖埋,非結(jié)構(gòu)化數(shù)據(jù)時呈現(xiàn)多樣化的問題,分析數(shù)據(jù)困難更大窃这,算法復(fù)雜度超越了經(jīng)典摩爾定量瞳别,整個算法性能也不易控制。在數(shù)據(jù)中心數(shù)據(jù)價值鏈中杭攻,為了挖掘數(shù)據(jù)的價值祟敛。需要根據(jù)不同的數(shù)據(jù)類型分類,采取不同的算法分析兆解。
數(shù)據(jù)分類
1
?時序數(shù)據(jù)
基本描述:隨著時間推移反復(fù)測量而得到的數(shù)值和事件序列馆铁。
數(shù)據(jù)舉例:股票數(shù)據(jù),交通數(shù)據(jù)锅睛。
主要數(shù)據(jù)結(jié)構(gòu):半結(jié)構(gòu)化埠巨,非結(jié)構(gòu)化數(shù)據(jù)。
算法舉例:條件隨機場现拒,隱馬爾可夫模型辣垒。
2
序列數(shù)據(jù)
基本描述:由帶有或不帶有時間概念的已經(jīng)排序的要素或事件序列構(gòu)成。?
數(shù)據(jù)舉例:零售數(shù)據(jù)印蔬,基于數(shù)據(jù)
主要數(shù)據(jù)結(jié)構(gòu):半結(jié)構(gòu)化勋桶,結(jié)構(gòu)化數(shù)據(jù)。
算法舉例:序列對比算法侥猬,隱馬爾可夫模型例驹。
3
圖數(shù)據(jù)
基本描述:以圖結(jié)構(gòu)構(gòu)成的數(shù)據(jù)集合,通常使用G=(V,E)表示一個圖退唠,其中V表示圖中節(jié)點集合鹃锈,E表示圖中的邊集合。
數(shù)據(jù)舉例:社交網(wǎng)絡(luò)數(shù)據(jù)瞧预,WWW數(shù)據(jù)屎债,生物網(wǎng)絡(luò)數(shù)據(jù)
主要數(shù)據(jù)結(jié)構(gòu):半結(jié)構(gòu)化寨蹋,非結(jié)構(gòu)化數(shù)據(jù)。
算法舉例:圖挖掘算法扔茅,協(xié)同過濾算法已旧,奇異值分解,網(wǎng)頁排名召娜。
4
流數(shù)據(jù)
基本描述:數(shù)據(jù)連續(xù)运褪,持續(xù)流通,具有數(shù)據(jù)到達速度快玖瘸,規(guī)模大和不確定性秸讹。
數(shù)據(jù)舉例:電商交易數(shù)據(jù),監(jiān)控系統(tǒng)數(shù)據(jù)雅倒,互聯(lián)網(wǎng)流量數(shù)據(jù)璃诀,傳感網(wǎng)絡(luò)數(shù)據(jù),電信流量數(shù)據(jù)蔑匣。
主要數(shù)據(jù)結(jié)構(gòu):非結(jié)構(gòu)化數(shù)據(jù)劣欢。
算法舉例:K-均值,高階奇異值分解裁良,支持向量機凿将,平等樹學(xué)習(xí)。
如果你對大數(shù)據(jù)開發(fā)感興趣价脾,想系統(tǒng)學(xué)習(xí)大數(shù)據(jù)的話牧抵,可以加入大數(shù)據(jù)技術(shù)學(xué)習(xí)交流扣扣群:數(shù)字5221數(shù)字89307,私信管理員即可免費領(lǐng)取開發(fā)工具以及入門學(xué)習(xí)資料
5
空間數(shù)據(jù)
基本描述:指在地理系中代表物理對象的數(shù)值信息侨把∠洌空間數(shù)據(jù)能夠標(biāo)識地球上任何物理對象位置,大小秋柄,形狀获枝。包含的屬性,以及實體更多的信息华匾。
數(shù)據(jù)舉例:地圖數(shù)據(jù)映琳,醫(yī)療影響數(shù)據(jù),遠程傳感數(shù)據(jù)蜘拉,對地觀測數(shù)據(jù),軌跡數(shù)據(jù)有鹿。
主要數(shù)據(jù)結(jié)構(gòu):結(jié)構(gòu)化數(shù)據(jù)旭旭,半結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)葱跋。
算法舉例:學(xué)習(xí)選擇與空間數(shù)據(jù)特征關(guān)聯(lián)持寄。
6
多媒體數(shù)據(jù)
基本描述:由不同類型媒體綜合組成的源梭,通常包括文本,圖形稍味,圖像废麻,聲音,視頻圖像模庐,動畫等不同類型的媒體烛愧,其特點是數(shù)據(jù)量大,對連續(xù)媒體數(shù)據(jù)要求傳輸速度快掂碱,并保持不同數(shù)據(jù)流之間的同步怜姿。
數(shù)據(jù)舉例:文本數(shù)據(jù),圖形數(shù)據(jù)疼燥,圖像數(shù)據(jù)沧卢,聲音數(shù)據(jù),視頻數(shù)據(jù)醉者。
主要數(shù)據(jù)結(jié)構(gòu):結(jié)構(gòu)化數(shù)據(jù)但狭,半結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)撬即。
算法舉例:圖像分割方法熟空,運動矢量分析方法,模型構(gòu)建的數(shù)字信息處理技術(shù)搞莺。
機器學(xué)習(xí)算法
1
監(jiān)督學(xué)習(xí)
1.?線性回歸模型
基本型線性算法
對數(shù)概率回歸算法
線性判別分析算法
2. 分類學(xué)習(xí)
多分類學(xué)習(xí)算法
決策樹算法
樸素貝葉斯算法
支持向量機算法
2
無監(jiān)督學(xué)習(xí)
1.??聚類學(xué)習(xí)
聚類算法
高斯混合學(xué)習(xí)算法
2. 降維學(xué)習(xí)
主成分分析算法
K臨近學(xué)習(xí)算法
核化線性降維算法息罗。
3
半監(jiān)督學(xué)習(xí)
1. 半監(jiān)督學(xué)習(xí)
主動學(xué)習(xí)
協(xié)同訓(xùn)練
4
強化學(xué)習(xí)
1.??強化學(xué)習(xí)
馬爾可夫決策處理
Q學(xué)習(xí)
有模型學(xué)習(xí)
免模學(xué)習(xí)
數(shù)據(jù)可視化能力
數(shù)據(jù)價值鏈最終需要將數(shù)據(jù)的隱含價值顯性展現(xiàn),以直觀的體現(xiàn)數(shù)據(jù)的特征和價值才沧。便于人們理解數(shù)據(jù)的表達迈喉。視覺定義為一種以某種概要形式抽取的信息。包括響應(yīng)信息單位的各種屬性和變量温圆。數(shù)據(jù)可視化是把數(shù)據(jù)轉(zhuǎn)換為圖形圖像的方式挨摸,幫助人們理解大量、復(fù)雜的數(shù)據(jù)岁歉。
數(shù)據(jù)可視化主要分為三類:
科學(xué)可視化
科學(xué)可視化主要研究如何可視化科學(xué)研究中產(chǎn)生的大量數(shù)據(jù)得运,如流體動力學(xué)模擬產(chǎn)生的數(shù)據(jù),向量場和張量場等锅移。這些數(shù)據(jù)本身往往包含在真實世界中存在的幾何結(jié)構(gòu)熔掺。
信息可視化
信息可視化主要研究抽象數(shù)據(jù),如文本非剃,圖像置逻,網(wǎng)絡(luò),股票备绽,社交媒體等券坞;
可視化分析
可視化分析和數(shù)據(jù)挖掘的最終目標(biāo)是一致的鬓催。而可視化技術(shù)大體可以分為:
1.空間布局可視化
2.抽象/匯總可視化
3.交互式/實時式可視化
同時,數(shù)據(jù)可視化使數(shù)據(jù)變得更加容易理解恨锚,幫助越來越多的企業(yè)和組織從大數(shù)據(jù)中發(fā)現(xiàn)價值宇驾,化繁為簡,實現(xiàn)更有效的決策過程猴伶。通常采用有效的可視化工具來實現(xiàn)课舍。
大數(shù)據(jù)數(shù)據(jù)價值的發(fā)現(xiàn)主要通過可視化分析來完成。
1
空間布局可視化
基本概述:將數(shù)據(jù)對象映射到坐標(biāo)空間中的一個特定點的計算方法蜗顽。
特征:
1. 將認知能力通過空間信息可視化在終端上布卡。
2. 無法展現(xiàn)數(shù)據(jù)中的復(fù)雜關(guān)系。
3. 一般采用樹雇盖,圖或網(wǎng)絡(luò)來實現(xiàn)可視化呈現(xiàn)忿等。
可視化圖例:折線圖,條形圖崔挖,散點圖贸街,樹映射圖,弧形圖等狸相。
2
抽象和匯總可視化
基本概述:可視化渲染前對海量數(shù)據(jù)進行處理和匯總
?特征:
?1. 處理海量數(shù)據(jù)薛匪。
?2.?通過層次聚類算法對海量數(shù)據(jù)擴展。
?3. 以更緊湊將維方式展現(xiàn)數(shù)據(jù)脓鹃。
可視化圖例:直方圖分級逸尖,數(shù)據(jù)立方圖,層次聚類瘸右。
3
交互式/實時可視化
?基本概述:支持用戶實時交互式可視化探索娇跟。
特征:
1:滿足用戶實時交互需求。
2:允許用戶快速體現(xiàn)見解和反饋實時交互結(jié)果太颤。
3:以數(shù)據(jù)驅(qū)動洞察數(shù)據(jù)價值苞俘。
可視化圖例:微軟PivotTable,Tableau龄章,阿里DataV和百度Echarts等實時交互軟件吃谣。
可視化層需要有豐富的可視化圖形,以便完成數(shù)據(jù)價值的圖形展示做裙。