bigdata術(shù)語

A

聚合(Aggregation)?– 搜索、合并婚惫、顯示數(shù)據(jù)的過程

算法(Algorithms)?– 可以完成某種數(shù)據(jù)分析的數(shù)學(xué)公式

分析法(Analytics)?– 用于發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在涵義

異常檢測(Anomaly detection)?– 在數(shù)據(jù)集中搜索與預(yù)期模式或行為不匹配的數(shù)據(jù)項(xiàng)。除了“Anomalies”,用來表示異常的詞有以下幾種:outliers, exceptions, surprises, contaminants.他們通常可提供關(guān)鍵的可執(zhí)行信息

匿名化(Anonymization)?– 使數(shù)據(jù)匿名,即移除所有與個人隱私相關(guān)的數(shù)據(jù)

應(yīng)用(Application)?– 實(shí)現(xiàn)某種特定功能的計(jì)算機(jī)軟件

人工智能(Artificial Intelligence)?– 研發(fā)智能機(jī)器和智能軟件,這些智能設(shè)備能夠感知周遭的環(huán)境携取,并根據(jù)要求作出相應(yīng)的反應(yīng),甚至能自我學(xué)習(xí)

B

行為分析法(Behavioural Analytics)?– 這種分析法是根據(jù)用戶的行為如“怎么做”帮孔,“為什么這么做”雷滋,以及“做了什么”來得出結(jié)論,而不是僅僅針對人物和時間的一門分析學(xué)科文兢,它著眼于數(shù)據(jù)中的人性化模式

大數(shù)據(jù)科學(xué)家(Big Data Scientist)?– 能夠設(shè)計(jì)大數(shù)據(jù)算法使得大數(shù)據(jù)變得有用的人

大數(shù)據(jù)創(chuàng)業(yè)公司(Big data startup)?– 指研發(fā)最新大數(shù)據(jù)技術(shù)的新興公司

生物測定術(shù)(Biometrics)?– 根據(jù)個人的特征進(jìn)行身份識別

B字節(jié) (BB: Brontobytes)?– 約等于1000 YB(Yottabytes)晤斩,相當(dāng)于未來數(shù)字化宇宙的大小。1 B字節(jié)包含了27個0姆坚!

商業(yè)智能(Business Intelligence)?– 是一系列理論澳泵、方法學(xué)和過程,使得數(shù)據(jù)更容易被理解

C

分類分析(Classification analysis)?– 從數(shù)據(jù)中獲得重要的相關(guān)性信息的系統(tǒng)化過程; 這類數(shù)據(jù)也被稱為元數(shù)據(jù)(meta data),是描述數(shù)據(jù)的數(shù)據(jù)

云計(jì)算(Cloud computing)?– 構(gòu)建在網(wǎng)絡(luò)上的分布式計(jì)算系統(tǒng)兼呵,數(shù)據(jù)是存儲于機(jī)房外的(即云端)

聚類分析(Clustering analysis)?– 它是將相似的對象聚合在一起兔辅,每類相似的對象組合成一個聚類(也叫作簇)的過程。這種分析方法的目的在于分析數(shù)據(jù)間的差異和相似性

冷數(shù)據(jù)存儲(Cold data storage)?– 在低功耗服務(wù)器上存儲那些幾乎不被使用的舊數(shù)據(jù)击喂。但這些數(shù)據(jù)檢索起來將會很耗時

對比分析(Comparative analysis)?– 在非常大的數(shù)據(jù)集中進(jìn)行模式匹配時维苔,進(jìn)行一步步的對比和計(jì)算過程得到分析結(jié)果

復(fù)雜結(jié)構(gòu)的數(shù)據(jù)(Complex structured data)?– 由兩個或多個復(fù)雜而相互關(guān)聯(lián)部分組成的數(shù)據(jù),這類數(shù)據(jù)不能簡單地由結(jié)構(gòu)化查詢語言或工具(SQL)解析

計(jì)算機(jī)產(chǎn)生的數(shù)據(jù)(Computer generated data)?– 如日志文件這類由計(jì)算機(jī)生成的數(shù)據(jù)

并發(fā)(Concurrency)?– 同時執(zhí)行多個任務(wù)或運(yùn)行多個進(jìn)程

相關(guān)性分析(Correlation analysis)?– 是一種數(shù)據(jù)分析方法懂昂,用于分析變量之間是否存在正相關(guān)介时,或者負(fù)相關(guān)

客戶關(guān)系管理(CRM: Customer Relationship Management)?– 用于管理銷售、業(yè)務(wù)過程的一種技術(shù)凌彬,大數(shù)據(jù)將影響公司的客戶關(guān)系管理的策略

D

儀表板(Dashboard)?– 使用算法分析數(shù)據(jù)沸柔,并將結(jié)果用圖表方式顯示于儀表板中

數(shù)據(jù)聚合工具(Data aggregation tools)?– 將分散于眾多數(shù)據(jù)源的數(shù)據(jù)轉(zhuǎn)化成一個全新數(shù)據(jù)源的過程

數(shù)據(jù)分析師(Data analyst)?– 從事數(shù)據(jù)分析、建模铲敛、清理褐澎、處理的專業(yè)人員

數(shù)據(jù)庫(Database)?– 一個以某種特定的技術(shù)來存儲數(shù)據(jù)集合的倉庫

數(shù)據(jù)庫即服務(wù)(Database-as-a-Service)?– 部署在云端的數(shù)據(jù)庫,即用即付原探,例如亞馬遜云服務(wù)(AWS: Amazon Web Services)

數(shù)據(jù)庫管理系統(tǒng)(DBMS: Database Management System)?– 收集乱凿、存儲數(shù)據(jù)顽素,并提供數(shù)據(jù)的訪問

數(shù)據(jù)中心(Data centre)?– 一個實(shí)體地點(diǎn)咽弦,放置了用來存儲數(shù)據(jù)的服務(wù)器

數(shù)據(jù)清洗(Data cleansing)?– 對數(shù)據(jù)進(jìn)行重新審查和校驗(yàn)的過程,目的在于刪除重復(fù)信息胁出、糾正存在的錯誤型型,并提供數(shù)據(jù)一致性

數(shù)據(jù)管理員(Data custodian)?– 負(fù)責(zé)維護(hù)數(shù)據(jù)存儲所需技術(shù)環(huán)境的專業(yè)技術(shù)人員

數(shù)據(jù)道德準(zhǔn)則(Data ethical guidelines)?– 這些準(zhǔn)則有助于組織機(jī)構(gòu)使其數(shù)據(jù)透明化,保證數(shù)據(jù)的簡潔全蝶、安全及隱私

數(shù)據(jù)訂閱(Data feed)?– 一種數(shù)據(jù)流闹蒜,例如Twitter訂閱和RSS

數(shù)據(jù)集市(Data marketplace)?– 進(jìn)行數(shù)據(jù)集買賣的在線交易場所

數(shù)據(jù)挖掘(Data mining)?– 從數(shù)據(jù)集中發(fā)掘特定模式或信息的過程

數(shù)據(jù)建模(Data modelling)?– 使用數(shù)據(jù)建模技術(shù)來分析數(shù)據(jù)對象寺枉,以此洞悉數(shù)據(jù)的內(nèi)在涵義

數(shù)據(jù)集(Data set)?– 大量數(shù)據(jù)的集合

數(shù)據(jù)虛擬化(Data virtualization)?– 數(shù)據(jù)整合的過程,以此獲得更多的數(shù)據(jù)信息绷落,這個過程通常會引入其他技術(shù)姥闪,例如數(shù)據(jù)庫,應(yīng)用程序砌烁,文件系統(tǒng)筐喳,網(wǎng)頁技術(shù),大數(shù)據(jù)技術(shù)等等

去身份識別(De-identification)?– 也稱為匿名化(anonymization)函喉,確保個人不會通過數(shù)據(jù)被識別

判別分析(Discriminant analysis)?– 將數(shù)據(jù)分類避归;按不同的分類方式,可將數(shù)據(jù)分配到不同的群組管呵,類別或者目錄梳毙。是一種統(tǒng)計(jì)分析法,可以對數(shù)據(jù)中某些群組或集群的已知信息進(jìn)行分析捐下,并從中獲取分類規(guī)則账锹。

分布式文件系統(tǒng)(Distributed File System)?– 提供簡化的,高可用的方式來存儲蔑担、分析牌废、處理數(shù)據(jù)的系統(tǒng)

文件存貯數(shù)據(jù)庫(Document Store Databases)?– 又稱為文檔數(shù)據(jù)庫(document-oriented database), 為存儲、管理啤握、恢復(fù)文檔數(shù)據(jù)而專門設(shè)計(jì)的數(shù)據(jù)庫鸟缕,這類文檔數(shù)據(jù)也稱為半結(jié)構(gòu)化數(shù)據(jù)

E

探索性分析(Exploratory analysis)?– 在沒有標(biāo)準(zhǔn)的流程或方法的情況下從數(shù)據(jù)中發(fā)掘模式。是一種發(fā)掘數(shù)據(jù)和數(shù)據(jù)集主要特性的一種方法

E字節(jié)(EB: Exabytes)?– 約等于1000 PB(petabytes), 約等于1百萬 GB排抬。如今全球每天所制造的新信息量大約為1 EB

提取-轉(zhuǎn)換-加載(ETL: Extract, Transform and Load)?– 是一種用于數(shù)據(jù)庫或者數(shù)據(jù)倉庫的處理過程懂从。即從各種不同的數(shù)據(jù)源提取(E)數(shù)據(jù),并轉(zhuǎn)換(T)成能滿足業(yè)務(wù)需要的數(shù)據(jù)蹲蒲,最后將其加載(L)到數(shù)據(jù)庫

F

故障切換(Failover)?– 當(dāng)系統(tǒng)中某個服務(wù)器發(fā)生故障時番甩,能自動地將運(yùn)行任務(wù)切換到另一個可用服務(wù)器或節(jié)點(diǎn)上

容錯設(shè)計(jì)(Fault-tolerant design)?– 一個支持容錯設(shè)計(jì)的系統(tǒng)應(yīng)該能夠做到當(dāng)某一部分出現(xiàn)故障也能繼續(xù)運(yùn)行

G

游戲化(Gamification)?– 在其他非游戲領(lǐng)域中運(yùn)用游戲的思維和機(jī)制,這種方法可以以一種十分友好的方式進(jìn)行數(shù)據(jù)的創(chuàng)建和偵測届搁,非常有效缘薛。

圖形數(shù)據(jù)庫(Graph Databases)?– 運(yùn)用圖形結(jié)構(gòu)(例如,一組有限的有序?qū)溃蛘吣撤N實(shí)體)來存儲數(shù)據(jù)宴胧,這種圖形存儲結(jié)構(gòu)包括邊緣、屬性和節(jié)點(diǎn)表锻。它提供了相鄰節(jié)點(diǎn)間的自由索引功能恕齐,也就是說,數(shù)據(jù)庫中每個元素間都與其他相鄰元素直接關(guān)聯(lián)瞬逊。

網(wǎng)格計(jì)算(Grid computing)?– 將許多分布在不同地點(diǎn)的計(jì)算機(jī)連接在一起显歧,用以處理某個特定問題仪或,通常是通過云將計(jì)算機(jī)相連在一起。

H

Hadoop?– 一個開源的分布式系統(tǒng)基礎(chǔ)框架士骤,可用于開發(fā)分布式程序范删,進(jìn)行大數(shù)據(jù)的運(yùn)算與存儲。

Hadoop數(shù)據(jù)庫(HBase)?– 一個開源的拷肌、非關(guān)系型瓶逃、分布式數(shù)據(jù)庫,與Hadoop框架共同使用

HDFS?– Hadoop分布式文件系統(tǒng)(Hadoop Distributed File System)廓块;是一個被設(shè)計(jì)成適合運(yùn)行在通用硬件(commodity hardware)上的分布式文件系統(tǒng)

高性能計(jì)算(HPC: High-Performance-Computing)?– 使用超級計(jì)算機(jī)來解決極其復(fù)雜的計(jì)算問題

I

內(nèi)存數(shù)據(jù)庫(IMDB: In-memory)?– 一種數(shù)據(jù)庫管理系統(tǒng)厢绝,與普通數(shù)據(jù)庫管理系統(tǒng)不同之處在于,它用主存來存儲數(shù)據(jù)带猴,而非硬盤昔汉。其特點(diǎn)在于能高速地進(jìn)行數(shù)據(jù)的處理和存取。

物聯(lián)網(wǎng)(Internet of Things)?– 在普通的設(shè)備中裝上傳感器拴清,使這些設(shè)備能夠在任何時間任何地點(diǎn)與網(wǎng)絡(luò)相連靶病。

J

法律上的數(shù)據(jù)一致性(Juridical data compliance)?– 當(dāng)你使用的云計(jì)算解決方案,將你的數(shù)據(jù)存儲于不同的國家或不同的大陸時口予,就會與這個概念扯上關(guān)系了娄周。你需要留意這些存儲在不同國家的數(shù)據(jù)是否符合當(dāng)?shù)氐姆伞?/p>

K

鍵值數(shù)據(jù)庫(KeyValue Databases)?– 數(shù)據(jù)的存儲方式是使用一個特定的鍵,指向一個特定的數(shù)據(jù)記錄沪停,這種方式使得數(shù)據(jù)的查找更加方便快捷煤辨。鍵值數(shù)據(jù)庫中所存的數(shù)據(jù)通常為編程語言中基本數(shù)據(jù)類型的數(shù)據(jù)。

L

延遲(Latency)?– 表示系統(tǒng)時間的延遲

遺留系統(tǒng)(Legacy system)?– 是一種舊的應(yīng)用程序木张,或是舊的技術(shù)众辨,或是舊的計(jì)算系統(tǒng),現(xiàn)在已經(jīng)不再支持了舷礼。

負(fù)載均衡(Load balancing)?– 將工作量分配到多臺電腦或服務(wù)器上鹃彻,以獲得最優(yōu)結(jié)果和最大的系統(tǒng)利用率。

位置信息(Location data)?– GPS信息妻献,即地理位置信息蛛株。

日志文件(Log file)?– 由計(jì)算機(jī)系統(tǒng)自動生成的文件,記錄系統(tǒng)的運(yùn)行過程育拨。

M

M2M數(shù)據(jù)(Machine2Machine data)?– 兩臺或多臺機(jī)器間交流與傳輸?shù)膬?nèi)容

機(jī)器數(shù)據(jù)(Machine data)?– 由傳感器或算法在機(jī)器上產(chǎn)生的數(shù)據(jù)

機(jī)器學(xué)習(xí)(Machine learning)?– 人工智能的一部分谨履,指的是機(jī)器能夠從它們所完成的任務(wù)中進(jìn)行自我學(xué)習(xí),通過長期的累積實(shí)現(xiàn)自我改進(jìn)至朗。

MapReduce?– 是處理大規(guī)模數(shù)據(jù)的一種軟件框架(Map: 映射屉符,Reduce: 歸納)剧浸。

大規(guī)模并行處理(MPP: Massively Parallel Processing)?– 同時使用多個處理器(或多臺計(jì)算機(jī))處理同一個計(jì)算任務(wù)锹引。

元數(shù)據(jù)(Metadata)?– 被稱為描述數(shù)據(jù)的數(shù)據(jù)矗钟,即描述數(shù)據(jù)數(shù)據(jù)屬性(數(shù)據(jù)是什么)的信息。

MongoDB?– 一種開源的非關(guān)系型數(shù)據(jù)庫(NoSQL database)

多維數(shù)據(jù)庫(Multi-Dimensional Databases)?– 用于優(yōu)化數(shù)據(jù)聯(lián)機(jī)分析處理(OLAP)程序嫌变,優(yōu)化數(shù)據(jù)倉庫的一種數(shù)據(jù)庫吨艇。

多值數(shù)據(jù)庫(MultiValue Databases)?– 是一種非關(guān)系型數(shù)據(jù)庫(NoSQL), 一種特殊的多維數(shù)據(jù)庫:能處理3個維度的數(shù)據(jù)。主要針對非常長的字符串腾啥,能夠完美地處理HTML和XML中的字串东涡。

N

自然語言處理(Natural Language Processing) – 是計(jì)算機(jī)科學(xué)的一個分支領(lǐng)域,它研究如何實(shí)現(xiàn)計(jì)算機(jī)與人類語言之間的交互倘待。

網(wǎng)絡(luò)分析(Network analysis)?– 分析網(wǎng)絡(luò)或圖論中節(jié)點(diǎn)間的關(guān)系疮跑,即分析網(wǎng)絡(luò)中節(jié)點(diǎn)間的連接和強(qiáng)度關(guān)系。

NewSQL –?一個優(yōu)雅的凸舵、定義良好的數(shù)據(jù)庫系統(tǒng)祖娘,比SQL更易學(xué)習(xí)和使用,比NoSQL更晚提出的新型數(shù)據(jù)庫

NoSQL?– 顧名思義啊奄,就是“不使用SQL”的數(shù)據(jù)庫渐苏。這類數(shù)據(jù)庫泛指傳統(tǒng)關(guān)系型數(shù)據(jù)庫以外的其他類型的數(shù)據(jù)庫。這類數(shù)據(jù)庫有更強(qiáng)的一致性菇夸,能處理超大規(guī)模和高并發(fā)的數(shù)據(jù)琼富。

O

對象數(shù)據(jù)庫(Object Databases)?– (也稱為面象對象數(shù)據(jù)庫)以對象的形式存儲數(shù)據(jù),用于面向?qū)ο缶幊套隆K煌陉P(guān)系型數(shù)據(jù)庫和圖形數(shù)據(jù)庫鞠眉,大部分對象數(shù)據(jù)庫都提供一種查詢語言,允許使用聲明式編程(declarative programming)訪問對象.

基于對象圖像分析(Object-based Image Analysis)?– 數(shù)字圖像分析方法是對每一個像素的數(shù)據(jù)進(jìn)行分析择诈,而基于對象的圖像分析方法則只分析相關(guān)像素的數(shù)據(jù)凡蚜,這些相關(guān)像素被稱為對象或圖像對象。

操作型數(shù)據(jù)庫(Operational Databases)?– 這類數(shù)據(jù)庫可以完成一個組織機(jī)構(gòu)的常規(guī)操作吭从,對商業(yè)運(yùn)營非常重要朝蜘,一般使用在線事務(wù)處理,允許用戶訪問 涩金、收集谱醇、檢索公司內(nèi)部的具體信息。

優(yōu)化分析(Optimization analysis)?– 在產(chǎn)品設(shè)計(jì)周期依靠算法來實(shí)現(xiàn)的優(yōu)化過程步做,在這一過程中副渴,公司可以設(shè)計(jì)各種各樣的產(chǎn)品并測試這些產(chǎn)品是否滿足預(yù)設(shè)值。

本體論(Ontology)?– 表示知識本體全度,用于定義一個領(lǐng)域中的概念集及概念之間的關(guān)系的一種哲學(xué)思想煮剧。(譯者注: 數(shù)據(jù)被提高到哲學(xué)的高度,被賦予了世界本體的意義,成為一個獨(dú)立的客觀數(shù)據(jù)世界)

異常值檢測(Outlier detection)?– 異常值是指嚴(yán)重偏離一個數(shù)據(jù)集或一個數(shù)據(jù)組合總平均值的對象勉盅,該對象與數(shù)據(jù)集中的其他它相去甚遠(yuǎn)佑颇,因此,異常值的出現(xiàn)意味著系統(tǒng)發(fā)生問題草娜,需要對此另加分析挑胸。

P

模式識別(Pattern Recognition)?– 通過算法來識別數(shù)據(jù)中的模式,并對同一數(shù)據(jù)源中的新數(shù)據(jù)作出預(yù)測

P字節(jié)(PB: Petabytes)?– 約等于1000 TB(terabytes), 約等于1百萬 GB (gigabytes)宰闰。歐洲核子研究中心(CERN)大型強(qiáng)子對撞機(jī)每秒產(chǎn)生的粒子個數(shù)就約為1 PB

平臺即服務(wù)(PaaS: Platform-as-a-Service)?– 為云計(jì)算解決方案提供所有必需的基礎(chǔ)平臺的一種服務(wù)

預(yù)測分析(Predictive analysis)?– 大數(shù)據(jù)分析方法中最有價(jià)值的一種分析方法茬贵,這種方法有助于預(yù)測個人未來(近期)的行為,例如某人很可能會買某些商品移袍,可能會訪問某些網(wǎng)站解藻,做某些事情或者產(chǎn)生某種行為。通過使用各種不同的數(shù)據(jù)集葡盗,例如歷史數(shù)據(jù)舆逃,事務(wù)數(shù)據(jù),社交數(shù)據(jù)戳粒,或者客戶的個人信息數(shù)據(jù)路狮,來識別風(fēng)險(xiǎn)和機(jī)遇

隱私(Privacy)?– 把具有可識別出個人信息的數(shù)據(jù)與其他數(shù)據(jù)分離開,以確保用戶隱私蔚约。

公共數(shù)據(jù)(Public data)?– 由公共基金創(chuàng)建的公共信息或公共數(shù)據(jù)集奄妨。

Q

數(shù)字化自我(Quantified Self)?– 使用應(yīng)用程序跟蹤用戶一天的一舉一動,從而更好地理解其相關(guān)的行為

查詢(Query)?– 查找某個問題答案的相關(guān)信息

R

再識別(Re-identification)?– 將多個數(shù)據(jù)集合并在一起苹祟,從匿名化的數(shù)據(jù)中識別出個人信息

回歸分析(Regression analysis)?– 確定兩個變量間的依賴關(guān)系砸抛。這種方法假設(shè)兩個變量之間存在單向的因果關(guān)系(譯者注:自變量,因變量树枫,二者不可互換)

RFID – 射頻識別;?這種識別技術(shù)使用一種無線非接觸式射頻電磁場傳感器來傳輸數(shù)據(jù)

實(shí)時數(shù)據(jù)(Real-time data)?– 指在幾毫秒內(nèi)被創(chuàng)建直焙、處理、存儲砂轻、分析并顯示的數(shù)據(jù)

推薦引擎(Recommendation engine)?– 推薦引擎算法根據(jù)用戶之前的購買行為或其他購買行為向用戶推薦某種產(chǎn)品

路徑分析(Routing analysis)?– 針對某種運(yùn)輸方法通過使用多種不同的變量分析從而找到一條最優(yōu)路徑奔誓,以達(dá)到降低燃料費(fèi)用,提高效率的目的

S

半結(jié)構(gòu)化數(shù)據(jù)(Semi-structured data)?– 半結(jié)構(gòu)化數(shù)據(jù)并不具有結(jié)構(gòu)化數(shù)據(jù)嚴(yán)格的存儲結(jié)構(gòu)搔涝,但它可以使用標(biāo)簽或其他形式的標(biāo)記方式以保證數(shù)據(jù)的層次結(jié)構(gòu)

情感分析(Sentiment Analysis)?– 通過算法分析出人們是如何看待某些話題

信號分析(Signal analysis)?– 指通過度量隨時間或空間變化的物理量來分析產(chǎn)品的性能厨喂。特別是使用傳感器數(shù)據(jù)。

相似性搜索(Similarity searches)?– 在數(shù)據(jù)庫中查詢最相似的對象庄呈,這里所說的數(shù)據(jù)對象可以是任意類型的數(shù)據(jù)

仿真分析(Simulation analysis)?– 仿真是指模擬真實(shí)環(huán)境中進(jìn)程或系統(tǒng)的操作蜕煌。仿真分析可以在仿真時考慮多種不同的變量,確保產(chǎn)品性能達(dá)到最優(yōu)

智能網(wǎng)格(Smart grid)?– 是指在能源網(wǎng)中使用傳感器實(shí)時監(jiān)控其運(yùn)行狀態(tài)诬留,有助于提高效率

軟件即服務(wù)(SaaS: Software-as-a-Service)?– 基于Web的通過瀏覽器使用的一種應(yīng)用軟件

空間分析(Spatial analysis)?– 空間分析法分析地理信息或拓?fù)湫畔⑦@類空間數(shù)據(jù)斜纪,從中得出分布在地理空間中的數(shù)據(jù)的模式和規(guī)律

SQL?– 在關(guān)系型數(shù)據(jù)庫中贫母,用于檢索數(shù)據(jù)的一種編程語言

結(jié)構(gòu)化數(shù)據(jù)(Structured data)?-可以組織成行列結(jié)構(gòu),可識別的數(shù)據(jù)盒刚。這類數(shù)據(jù)通常是一條記錄腺劣,或者一個文件,或者是被正確標(biāo)記過的數(shù)據(jù)中的某一個字段伪冰,并且可以被精確地定位到。

T

T字節(jié)(TB: Terabytes)?– 約等于1000 GB(gigabytes)樟蠕。1 TB容量可以存儲約300小時的高清視頻贮聂。

時序分析(Time series analysis)?– 分析在重復(fù)測量時間里獲得的定義良好的數(shù)據(jù)。分析的數(shù)據(jù)必須是良好定義的寨辩,并且要取自相同時間間隔的連續(xù)時間點(diǎn)吓懈。

拓?fù)鋽?shù)據(jù)分析(Topological Data Analysis)?– 拓?fù)鋽?shù)據(jù)分析主要關(guān)注三點(diǎn):復(fù)合數(shù)據(jù)模型、集群的識別靡狞、以及數(shù)據(jù)的統(tǒng)計(jì)學(xué)意義耻警。

交易數(shù)據(jù)(Transactional data)?– 隨時間變化的動態(tài)數(shù)據(jù)

透明性(Transparency)?– 消費(fèi)者想要知道他們的數(shù)據(jù)有什么作用、被作何處理甸怕,而組織機(jī)構(gòu)則把這些信息都透明化了甘穿。

U

非結(jié)構(gòu)化數(shù)據(jù)(Un-structured data)?– 非結(jié)構(gòu)化數(shù)據(jù)一般被認(rèn)為是大量純文本數(shù)據(jù),其中還可能包含日期梢杭,數(shù)字和實(shí)例温兼。

V

價(jià)值(Value)?– (譯者注:大數(shù)據(jù)4V特點(diǎn)之一) 所有可用的數(shù)據(jù),能為組織機(jī)構(gòu)武契、社會募判、消費(fèi)者創(chuàng)造出巨大的價(jià)值。這意味著各大企業(yè)及整個產(chǎn)業(yè)都將從大數(shù)據(jù)中獲益咒唆。

可變性(Variability)?– 也就是說届垫,數(shù)據(jù)的含義總是在(快速)變化的。例如全释,一個詞在相同的推文中可以有完全不同的意思摹迷。

多樣(Variety)?– (譯者注:大數(shù)據(jù)4V特點(diǎn)之一) 數(shù)據(jù)總是以各種不同的形式呈現(xiàn),如結(jié)構(gòu)化數(shù)據(jù)月腋,半結(jié)構(gòu)化數(shù)據(jù)男杈,非結(jié)構(gòu)化數(shù)據(jù),甚至還有復(fù)雜結(jié)構(gòu)化數(shù)據(jù)

高速(Velocity)?– (譯者注:大數(shù)據(jù)4V特點(diǎn)之一) 在大數(shù)據(jù)時代糟袁,數(shù)據(jù)的創(chuàng)建判族、存儲、分析项戴、虛擬化都要求被高速處理形帮。

真實(shí)性(Veracity)?– 組織機(jī)構(gòu)需要確保數(shù)據(jù)的真實(shí)性,才能保證數(shù)據(jù)分析的正確性。因此辩撑,真實(shí)性(Veracity)是指數(shù)據(jù)的正確性界斜。

可視化(Visualization)?– 只有正確的可視化,原始數(shù)據(jù)才可被投入使用合冀。這里的“可視化”并非普通的圖型或餅圖各薇,可視化指是的復(fù)雜的圖表,圖表中包含大量的數(shù)據(jù)信息君躺,但可以被很容易地理解和閱讀峭判。

大量(Volume)?– (譯者注:大數(shù)據(jù)4V特點(diǎn)之一) 指數(shù)據(jù)量,范圍從Megabytes至Brontobytes

W

天氣數(shù)據(jù)(Weather data)?– 是一種重要的開放公共數(shù)據(jù)來源棕叫,如果與其他數(shù)據(jù)來源合成在一起林螃,可以為相關(guān)組織機(jī)構(gòu)提供深入分析的依據(jù)

X

XML數(shù)據(jù)庫(XML Databases) –?XML數(shù)據(jù)庫是一種以XML格式存儲數(shù)據(jù)的數(shù)據(jù)庫。XML數(shù)據(jù)庫通常與面向文檔型數(shù)據(jù)庫相關(guān)聯(lián)俺泣,開發(fā)人員可以對XML數(shù)據(jù)庫的數(shù)據(jù)進(jìn)行查詢疗认,導(dǎo)出以及按指定的格式序列化

Y

Y字節(jié) (Yottabytes)?– 約等于1000 ZB (Zettabytes), 約等于250萬億張DVD的數(shù)據(jù)容量。現(xiàn)今伏钠,整個數(shù)字化宇宙的數(shù)據(jù)量為1 YB, 并且將每18年翻一番横漏。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市熟掂,隨后出現(xiàn)的幾起案子绊茧,更是在濱河造成了極大的恐慌,老刑警劉巖打掘,帶你破解...
    沈念sama閱讀 217,509評論 6 504
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件华畏,死亡現(xiàn)場離奇詭異,居然都是意外死亡尊蚁,警方通過查閱死者的電腦和手機(jī)亡笑,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,806評論 3 394
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來横朋,“玉大人仑乌,你說我怎么就攤上這事∏俣В” “怎么了晰甚?”我有些...
    開封第一講書人閱讀 163,875評論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長决帖。 經(jīng)常有香客問我厕九,道長,這世上最難降的妖魔是什么地回? 我笑而不...
    開封第一講書人閱讀 58,441評論 1 293
  • 正文 為了忘掉前任扁远,我火速辦了婚禮俊鱼,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘畅买。我一直安慰自己并闲,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,488評論 6 392
  • 文/花漫 我一把揭開白布谷羞。 她就那樣靜靜地躺著帝火,像睡著了一般。 火紅的嫁衣襯著肌膚如雪湃缎。 梳的紋絲不亂的頭發(fā)上犀填,一...
    開封第一講書人閱讀 51,365評論 1 302
  • 那天,我揣著相機(jī)與錄音雁歌,去河邊找鬼宏浩。 笑死知残,一個胖子當(dāng)著我的面吹牛靠瞎,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播求妹,決...
    沈念sama閱讀 40,190評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼乏盐,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了制恍?” 一聲冷哼從身側(cè)響起父能,我...
    開封第一講書人閱讀 39,062評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎净神,沒想到半個月后何吝,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,500評論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡鹃唯,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,706評論 3 335
  • 正文 我和宋清朗相戀三年爱榕,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片坡慌。...
    茶點(diǎn)故事閱讀 39,834評論 1 347
  • 序言:一個原本活蹦亂跳的男人離奇死亡黔酥,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出洪橘,到底是詐尸還是另有隱情跪者,我是刑警寧澤,帶...
    沈念sama閱讀 35,559評論 5 345
  • 正文 年R本政府宣布熄求,位于F島的核電站渣玲,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏弟晚。R本人自食惡果不足惜柜蜈,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,167評論 3 328
  • 文/蒙蒙 一仗谆、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧淑履,春花似錦隶垮、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,779評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至指煎,卻和暖如春蹋偏,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背至壤。 一陣腳步聲響...
    開封第一講書人閱讀 32,912評論 1 269
  • 我被黑心中介騙來泰國打工威始, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人像街。 一個月前我還...
    沈念sama閱讀 47,958評論 2 370
  • 正文 我出身青樓黎棠,卻偏偏與公主長得像,于是被迫代替她去往敵國和親镰绎。 傳聞我的和親對象是個殘疾皇子脓斩,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,779評論 2 354

推薦閱讀更多精彩內(nèi)容