最全的大數據術語合集(建議收藏)
大數據是什么?相信很多人對這個概念的了解,不會比“共產主義"多硫眯。這里總結了大部分關于大數據的術語,供大家參考,希望大家能拼湊出一個自已中意的大數據概念忘朝。如果還是不知所云,請加湖南大數據QQ1群415159848,里面有實戰(zhàn)型大牛來給你解惑。
當然泉坐,這份術語表并沒有100%包含所有的術語为鳄,如果你認為有任何遺漏之處,請告之我們腕让。
A
聚合(Aggregation) – 搜索孤钦、合并、顯示數據的過程
算法(Algorithms) – 可以完成某種數據分析的數學公式
分析法(Analytics) – 用于發(fā)現數據的內在涵義
異常檢測(Anomaly detection) – 在數據集中搜索與預期模式或行為不匹配的數據項记某。除了“Anomalies”,用來表示異常的詞有以下幾種:outliers, exceptions, surprises, contaminants.他們通乘狙担可提供關鍵的可執(zhí)行信息。
匿名化(Anonymization) – 使數據匿名液南,即移除所有與個人隱私相關的數據。
應用(Application) – 實現某種特定功能的計算機軟件勾徽。
人工智能(Artificial Intelligence) – 研發(fā)智能機器和智能軟件滑凉,這些智能設備能夠感知周遭的環(huán)境,并根據要求作出相應的反應喘帚,甚至能自我學習畅姊。
B
行為分析法(Behavioural Analytics) – 這種分析法是根據用戶的行為如“怎么做”,“為什么這么做”吹由,以及“做了什么”來得出結論若未,而不是僅僅針對人物和時間的一門分析學科,它著眼于數據中的人性化模式倾鲫。
大數據科學家(Big Data Scientist) –能夠設計大數據算法使得大數據變得有用的人粗合。
大數據創(chuàng)業(yè)公司(Big data startup) – 指研發(fā)最新大數據技術的新興公司萍嬉。
生物測定術(Biometrics) – 根據個人的特征進行身份識別。
B字節(jié) (BB: Brontobytes) – 約等于1000 YB(Yottabytes)隙疚,相當于未來數字化宇宙的大小壤追。1 B字節(jié)包含了27個0!
商業(yè)智能(Business Intelligence) – 是一系列理論供屉、方法學和過程,使得數據更容易被理解行冰。
C
分類分析(Classification analysis) – 從數據中獲得重要的相關性信息的系統(tǒng)化過程; 這類數據也被稱為元數據(meta data),是描述數據的數據。
云計算(Cloud computing) – 構建在網絡上的分布式計算系統(tǒng)伶丐,數據是存儲于機房外的(即云端)悼做。
聚類分析(Clustering analysis) – 它是將相似的對象聚合在一起,每類相似的對象組合成一個聚類(也叫作簇)的過程哗魂。這種分析方法的目的在于分析數據間的差異和相似性贿堰。
冷數據存儲(Cold data storage) – 在低功耗服務器上存儲那些幾乎不被使用的舊數據。但這些數據檢索起來將會很耗時啡彬。
對比分析(Comparative analysis) – 在非常大的數據集中進行模式匹配時羹与,進行一步步的對比和計算過程得到分析結果。
復雜結構的數據(Complex structured data) – 由兩個或多個復雜而相互關聯部分組成的數據庶灿,這類數據不能簡單地由結構化查詢語言或工具(SQL)解析纵搁。
計算機產生的數據(Computer generated data) -如日志文件這類由計算機生成的數據。
并發(fā)(Concurrency) – 同時執(zhí)行多個任務或運行多個進程往踢。
相關性分析(Correlation analysis) – 是一種數據分析方法腾誉,用于分析變量之間是否存在正相關,或者負相關峻呕。
客戶關系管理(CRM: Customer Relationship Management) – 用于管理銷售利职、業(yè)務過程的一種技術,大數據將影響公司的客戶關系管理的策略瘦癌。
D
儀表板(Dashboard) – 使用算法分析數據猪贪,并將結果用圖表方式顯示于儀表板中。
數據聚合工具(Data aggregation tools)-將分散于眾多數據源的數據轉化成一個全新數據源的過程讯私。
數據分析師(Data analyst) – 從事數據分析热押、建模、清理斤寇、處理的專業(yè)人員桶癣。
數據庫(Database) – 一個以某種特定的技術來存儲數據集合的倉庫
數據庫即服務(Database-as-a-Service) – 部署在云端的數據庫,即用即付娘锁,例如亞馬遜云服務(AWS: Amazon Web Services)牙寞。
數據庫管理系統(tǒng)(DBMS: Database Management System) – 收集、存儲數據莫秆,并提供數據的訪問间雀。
數據中心(Data centre) – 一個實體地點悔详,放置了用來存儲數據的服務器。
數據清洗(Data cleansing) – 對數據進行重新審查和校驗的過程雷蹂,目的在于刪除重復信息伟端、糾正存在的錯誤,并提供數據一致性匪煌。
數據管理員(Data custodian) – 負責維護數據存儲所需技術環(huán)境的專業(yè)技術人員责蝠。
數據道德準則(Data ethical guidelines) – 這些準則有助于組織機構使其數據透明化,保證數據的簡潔萎庭、安全及隱私霜医。
數據訂閱(Data feed) – 一種數據流,例如Twitter訂閱和RSS驳规。
數據集市(Data marketplace) – 進行數據集買賣的在線交易場所肴敛。
數據挖掘(Data mining) – 從數據集中發(fā)掘特定模式或信息的過程。
數據建模(Data modelling) – 使用數據建模技術來分析數據對象吗购,以此洞悉數據的內在涵義医男。
數據集(Data set) – 大量數據的集合。
數據虛擬化(Data virtualization) – 數據整合的過程捻勉,以此獲得更多的數據信息镀梭,這個過程通常會引入其他技術,例如數據庫踱启,應用程序报账,文件系統(tǒng),網頁技術埠偿,大數據技術等等透罢。
去身份識別(De-identification) – 也稱為匿名化(anonymization),確保個人不會通過數據被識別
判別分析(Discriminant analysis) – 將數據分類冠蒋;按不同的分類方式羽圃,可將數據分配到不同的群組,類別或者目錄浊服。是一種統(tǒng)計分析法统屈,可以對數據中某些群組或集群的已知信息進行分析,并從中獲取分類規(guī)則牙躺。
分布式文件系統(tǒng)(Distributed File System) – 提供簡化的,高可用的方式來存儲腕扶、分析孽拷、處理數據的系統(tǒng)。
文件存貯數據庫(Document Store Databases) – 又稱為文檔數據庫(document-oriented database), 為存儲半抱、管理脓恕、恢復文檔數據而專門設計的數據庫膜宋,這類文檔數據也稱為半結構化數據。
E
探索性分析(Exploratory analysis) – 在沒有標準的流程或方法的情況下從數據中發(fā)掘模式炼幔。是一種發(fā)掘數據和數據集主要特性的一種方法秋茫。
E字節(jié)(EB: Exabytes) – 約等于1000PB(petabytes), 約等于1百萬 GB。如今全球每天所制造的新信息量大約為1 EB乃秀。
提取-轉換-加載(ETL: Extract, Transform and Load) – 是一種用于數據庫或者數據倉庫的處理過程肛著。即從各種不同的數據源提取(E)數據,并轉換(T)成能滿足業(yè)務需要的數據跺讯,最后將其加載(L)到數據倉庫枢贿。
F
故障切換(Failover) – 當系統(tǒng)中某個服務器發(fā)生故障時,能自動地將運行任務切換到另一個可用服務器或節(jié)點上刀脏。
容錯設計(Fault-tolerant design) – 一個支持容錯設計的系統(tǒng)應該能夠做到當某一部分出現故障也能繼續(xù)運行局荚。
G
游戲化(Gamification) – 在其他非游戲領域中運用游戲的思維和機制,這種方法可以以一種十分友好的方式進行數據的創(chuàng)建和偵測愈污,非常有效耀态。
圖形數據庫(Graph Databases) – 運用圖形結構(例如,一組有限的有序對暂雹,或者某種實體)來存儲數據首装,這種圖形存儲結構包括邊緣、屬性和節(jié)點擎析。它提供了相鄰節(jié)點間的自由索引功能簿盅,也就是說,數據庫中每個元素間都與其他相鄰元素直接關聯揍魂。
網格計算(Grid computing) – 將許多分布在不同地點的計算機連接在一起桨醋,用以處理某個特定問題,通常是通過云將計算機相連在一起现斋。
H
Hadoop– 一個開源的分布式系統(tǒng)基礎框架喜最,可用于開發(fā)分布式程序,進行大數據的運算與存儲庄蹋。
Hadoop數據庫(HBase) – 一個開源的瞬内、非關系型、分布式數據庫限书,與Hadoop框架共同使用虫蝶。
HDFS – Hadoop分布式文件系統(tǒng)(Hadoop Distributed File System);是一個被設計成適合運行在通用硬件(commodity hardware)上的分布式文件系統(tǒng)倦西。
高性能計算(HPC: High-Performance-Computing) – 使用超級計算機來解決極其復雜的計算問題能真。
I
內存數據庫(IMDB: In-memory) – 一種數據庫管理系統(tǒng),與普通數據庫管理系統(tǒng)不同之處在于,它用主存來存儲數據粉铐,而非硬盤疼约。其特點在于能高速地進行數據的處理和存取。
物聯網(Internet of Things) – 在普通的設備中裝上傳感器蝙泼,使這些設備能夠在任何時間任何地點與網絡相連程剥。
J
法律上的數據一致性(Juridical data compliance) – 當你使用的云計算解決方案,將你的數據存儲于不同的國家或不同的大陸時汤踏,就會與這個概念扯上關系了织鲸。你需要留意這些存儲在不同國家的數據是否符合當地的法律。
K
鍵值數據庫(KeyValue Databases) – 數據的存儲方式是使用一個特定的鍵茎活,指向一個特定的數據記錄昙沦,這種方式使得數據的查找更加方便快捷。鍵值數據庫中所存的數據通常為編程語言中基本數據類型的數據载荔。
L
延遲(Latency) – 表示系統(tǒng)時間的延遲
遺留系統(tǒng)(Legacy system) – 是一種舊的應用程序盾饮,或是舊的技術,或是舊的計算系統(tǒng)懒熙,現在已經不再支持了丘损。
負載均衡(Load balancing) – 將工作量分配到多臺電腦或服務器上,以獲得最優(yōu)結果和最大的系統(tǒng)利用率工扎。
位置信息(Location data) – GPS信息徘钥,即地理位置信息。
日志文件(Log file) – 由計算機系統(tǒng)自動生成的文件肢娘,記錄系統(tǒng)的運行過程呈础。
M
M2M數據(Machine2Machine data) – 兩臺或多臺機器間交流與傳輸的內容。
機器數據(Machine data) – 由傳感器或算法在機器上產生的數據橱健。
機器學習(Machine learning) – 人工智能的一部分而钞,指的是機器能夠從它們所完成的任務中進行自我學習,通過長期的累積實現自我改進拘荡。
MapReduce – 是處理大規(guī)模數據的一種軟件框架(Map: 映射臼节,Reduce: 歸納)。
大規(guī)模并行處理(MPP: Massively Parallel Processing) – 同時使用多個處理器(或多臺計算機)處理同一個計算任務珊皿。
元數據(Metadata) – 被稱為描述數據的數據网缝,即描述數據數據屬性(數據是什么)的信息。
MongoDB – 一種開源的非關系型數據庫(NoSQL database)蟋定。
多維數據庫(Multi-Dimensional Databases) – 用于優(yōu)化數據聯機分析處理(OLAP)程序粉臊,優(yōu)化數據倉庫的一種數據庫。
多值數據庫(MultiValue Databases) – 是一種非關系型數據庫(NoSQL), 一種特殊的多維數據庫:能處理3個維度的數據驶兜。主要針對非常長的字符串维费,能夠完美地處理HTML和XML中的字串果元。
N
自然語言處理(Natural Language Processing) – 是計算機科學的一個分支領域促王,它研究如何實現計算機與人類語言之間的交互犀盟。
網絡分析(Network analysis) – 分析網絡或圖論中節(jié)點間的關系,即分析網絡中節(jié)點間的連接和強度關系蝇狼。
NewSQL – 一個優(yōu)雅的阅畴、定義良好的數據庫系統(tǒng),比SQL更易學習和使用迅耘,比NoSQL更晚提出的新型數據庫贱枣。
NoSQL – 顧名思義,就是“不使用SQL”的數據庫颤专。這類數據庫泛指傳統(tǒng)關系型數據庫以外的其他類型的數據庫纽哥。這類數據庫有更強的一致性,能處理超大規(guī)模和高并發(fā)的數據栖秕。
O
對象數據庫(Object Databases) – (也稱為面象對象數據庫)以對象的形式存儲數據春塌,用于面向對象編程。它不同于關系型數據庫和圖形數據庫簇捍,大部分對象數據庫都提供一種查詢語言只壳,允許使用聲明式編程(declarative programming)訪問對象。
基于對象圖像分析(Object-based Image Analysis) – 數字圖像分析方法是對每一個像素的數據進行分析暑塑,而基于對象的圖像分析方法則只分析相關像素的數據吼句,這些相關像素被稱為對象或圖像對象。
操作型數據庫(Operational Databases) – 這類數據庫可以完成一個組織機構的常規(guī)操作事格,對商業(yè)運營非常重要惕艳,一般使用在線事務處理,允許用戶訪問 驹愚、收集远搪、檢索公司內部的具體信息。
優(yōu)化分析(Optimization analysis) – 在產品設計周期依靠算法來實現的優(yōu)化過程么鹤,在這一過程中终娃,公司可以設計各種各樣的產品并測試這些產品是否滿足預設值。
本體論(Ontology) – 表示知識本體蒸甜,用于定義一個領域中的概念集及概念之間的關系的一種哲學思想棠耕。(譯者注: 數據被提高到哲學的高度,被賦予了世界本體的意義柠新,成為一個獨立的客觀數據世界)窍荧。
異常值檢測(Outlier detection) – 異常值是指嚴重偏離一個數據集或一個數據組合總平均值的對象,該對象與數據集中的其他它相去甚遠恨憎,因此蕊退,異常值的出現意味著系統(tǒng)發(fā)生問題郊楣,需要對此另加分析。
P
模式識別(Pattern Recognition) – 通過算法來識別數據中的模式瓤荔,并對同一數據源中的新數據作出預測净蚤。
P字節(jié)(PB: Petabytes) – 約等于1000TB(terabytes), 約等于1百萬 GB (gigabytes)。歐洲核子研究中心(CERN)大型強子對撞機每秒產生的粒子個數就約為1 PB输硝。
平臺即服務(PaaS: Platform-as-a-Service) – 為云計算解決方案提供所有必需的基礎平臺的一種服務今瀑。
預測分析(Predictive analysis) – 大數據分析方法中最有價值的一種分析方法,這種方法有助于預測個人未來(近期)的行為点把,例如某人很可能會買某些商品橘荠,可能會訪問某些網站,做某些事情或者產生某種行為郎逃。通過使用各種不同的數據集哥童,例如歷史數據,事務數據褒翰,社交數據贮懈,或者客戶的個人信息數據,來識別風險和機遇影暴。
隱私(Privacy) – 把具有可識別出個人信息的數據與其他數據分離開错邦,以確保用戶隱私。
公共數據(Public data) – 由公共基金創(chuàng)建的公共信息或公共數據集型宙。
Q
數字化自我(Quantified Self) – 使用應用程序跟蹤用戶一天的一舉一動撬呢,從而更好地理解其相關的行為。
查詢(Query) – 查找某個問題答案的相關信息
R
再識別(Re-identification) – 將多個數據集合并在一起妆兑,從匿名化的數據中識別出個人信息魂拦。
回歸分析(Regression analysis) – 確定兩個變量間的依賴關系。這種方法假設兩個變量之間存在單向的因果關系(譯者注:自變量搁嗓,因變量芯勘,二者不可互換)。
RFID – 射頻識別; 這種識別技術使用一種無線非接觸式射頻電磁場傳感器來傳輸數據腺逛。
實時數據(Real-time data) – 指在幾毫秒內被創(chuàng)建荷愕、處理、存儲棍矛、分析并顯示的數據安疗。
推薦引擎(Recommendation engine) – 推薦引擎算法根據用戶之前的購買行為或其他購買行為向用戶推薦某種產品。
路徑分析(Routing analysis) – 針對某種運輸方法通過使用多種不同的變量分析從而找到一條最優(yōu)路徑够委,以達到降低燃料費用荐类,提高效率的目的。
S
半結構化數據(Semi-structured data) – 半結構化數據并不具有結構化數據嚴格的存儲結構茁帽,但它可以使用標簽或其他形式的標記方式以保證數據的層次結構玉罐。
情感分析(Sentiment Analysis) – 通過算法分析出人們是如何看待某些話題屈嗤。
信號分析(Signal analysis) – 指通過度量隨時間或空間變化的物理量來分析產品的性能。特別是使用傳感器數據吊输。
相似性搜索(Similarity searches) – 在數據庫中查詢最相似的對象饶号,這里所說的數據對象可以是任意類型的數據。
仿真分析(Simulation analysis) – 仿真是指模擬真實環(huán)境中進程或系統(tǒng)的操作璧亚。仿真分析可以在仿真時考慮多種不同的變量讨韭,確保產品性能達到最優(yōu)。
智能網格(Smart grid) – 是指在能源網中使用傳感器實時監(jiān)控其運行狀態(tài)癣蟋,有助于提高效率。
軟件即服務(SaaS: Software-as-a-Service) – 基于Web的通過瀏覽器使用的一種應用軟件狰闪。
空間分析(Spatial analysis) – 空間分析法分析地理信息或拓撲信息這類空間數據疯搅,從中得出分布在地理空間中的數據的模式和規(guī)律。
SQL – 在關系型數據庫中埋泵,用于檢索數據的一種編程語言幔欧。
結構化數據(Structured data) -可以組織成行列結構,可識別的數據丽声。這類數據通常是一條記錄礁蔗,或者一個文件,或者是被正確標記過的數據中的某一個字段雁社,并且可以被精確地定位到浴井。
T
T字節(jié)(TB: Terabytes) – 約等于1000GB(gigabytes)。1 TB容量可以存儲約300小時的高清視頻霉撵。
時序分析(Time series analysis) – 分析在重復測量時間里獲得的定義良好的數據磺浙。分析的數據必須是良好定義的,并且要取自相同時間間隔的連續(xù)時間點徒坡。
拓撲數據分析(Topological Data Analysis) – 拓撲數據分析主要關注三點:復合數據模型撕氧、集群的識別、以及數據的統(tǒng)計學意義喇完。
交易數據(Transactional data) – 隨時間變化的動態(tài)數據
透明性(Transparency) – 消費者想要知道他們的數據有什么作用伦泥、被作何處理,而組織機構則把這些信息都透明化了锦溪。
U
非結構化數據(Un-structured data) – 非結構化數據一般被認為是大量純文本數據不脯,其中還可能包含日期,數字和實例海洼。
V
價值(Value) – (譯者注:大數據4V特點之一) 所有可用的數據跨新,能為組織機構、社會坏逢、消費者創(chuàng)造出巨大的價值域帐。這意味著各大企業(yè)及整個產業(yè)都將從大數據中獲益赘被。
可變性(Variability) – 也就是說,數據的含義總是在(快速)變化的肖揣。例如民假,一個詞在相同的推文中可以有完全不同的意思。
多樣(Variety) – (譯者注:大數據4V特點之一) 數據總是以各種不同的形式呈現龙优,如結構化數據羊异,半結構化數據,非結構化數據彤断,甚至還有復雜結構化數據野舶。
高速(Velocity) – (譯者注:大數據4V特點之一) 在大數據時代,數據的創(chuàng)建宰衙、存儲平道、分析、虛擬化都要求被高速處理供炼。
真實性(Veracity) – 組織機構需要確保數據的真實性一屋,才能保證數據分析的正確性。因此袋哼,真實性(Veracity)是指數據的正確性冀墨。
可視化(Visualization) – 只有正確的可視化,原始數據才可被投入使用涛贯。這里的“可視化”并非普通的圖型或餅圖诽嘉,可視化指是的復雜的圖表,圖表中包含大量的數據信息疫蔓,但可以被很容易地理解和閱讀含懊。
大量(Volume) – (譯者注:大數據4V特點之一) 指數據量,范圍從Megabytes至Brontobytes衅胀。
W
天氣數據(Weather data) – 是一種重要的開放公共數據來源岔乔,如果與其他數據來源合成在一起,可以為相關組織機構提供深入分析的依據滚躯。
X
XML數據庫(XML Databases) – XML數據庫是一種以XML格式存儲數據的數據庫雏门。XML數據庫通常與面向文檔型數據庫相關聯,開發(fā)人員可以對XML數據庫的數據進行查詢掸掏,導出以及按指定的格式序列化茁影。
Y
Y字節(jié) (Yottabytes) – 約等于1000 ZB (Zettabytes), 約等于250萬億張DVD的數據容量。現今丧凤,整個數字化宇宙的數據量為1 YB, 并且將每18年翻一番募闲。
Z
Z字節(jié) (ZB: Zettabytes) – 約等于1000 EB (Exabytes), 約等于1百萬 TB。據預測愿待,到2016年全球范圍內每天網絡上通過的信息大約能達到1 ZB浩螺。
附:存儲容量單位換算表:
1 Bit(比特) = Binary Digit
8 Bits = 1 Byte(字節(jié))
1,000 Bytes = 1 Kilobyte
1,000 Kilobytes = 1 Megabyte
1,000 Megabytes = 1 Gigabyte
1,000 Gigabytes = 1 Terabyte
1,000 Terabytes = 1 Petabyte
1,000 Petabytes = 1 Exabyte
1,000 Exabytes = 1 Zettabyte
1,000 Zettabytes = 1 Yottabyte
1,000 Yottabytes = 1 Brontobyte
1,000 Brontobytes = 1 Geopbyte