隨著大數(shù)據(jù)技術(shù)的不斷提高窍育,大數(shù)據(jù)應(yīng)用的不斷普及遂铡,大數(shù)據(jù)與各行各業(yè)的關(guān)系越來越緊密截亦。大數(shù)據(jù)行業(yè)充斥著大量的專業(yè)詞匯爬泥,準確掌握和了解這些詞匯的含義,有助于更好的理解大數(shù)據(jù)崩瓤,更好地利用大數(shù)據(jù)技術(shù)袍啡。以下整理了以數(shù)據(jù)處理為中心的14個大數(shù)據(jù)專業(yè)詞匯, 一起來看看吧~~~
本地數(shù)據(jù)庫(LDB/Local Data Base)
本地數(shù)據(jù)庫是指駐留于運行客戶應(yīng)用程序的機器的數(shù)據(jù)庫却桶。本地數(shù)據(jù)庫位于本地磁盤或局域網(wǎng)境输。典型的本地數(shù)據(jù)庫有Paradox、dBASE颖系、FoxPro和ACCCSS嗅剖。
大數(shù)據(jù)學習QQ群:716581014
數(shù)據(jù)采集(Data Acquisition,DAQ)
數(shù)據(jù)采集又稱數(shù)據(jù)獲取嘁扼,將被測試對象的各種參量通過各種傳感器做適當轉(zhuǎn)換后信粮,再經(jīng)過信號調(diào)理、采樣趁啸、量化强缘、編碼、傳輸?shù)炔襟E傳遞到控制器的過程不傅。
數(shù)據(jù)采集的一般步驟:①用傳感器感受各種物理量旅掂,并把它們轉(zhuǎn)換成電信號;②通過A/D轉(zhuǎn)換,模擬量的數(shù)據(jù)轉(zhuǎn)變成數(shù)字量的數(shù)據(jù);③數(shù)據(jù)的記錄访娶,打印輸出或存入磁盤文件商虐。④生產(chǎn)廠商為該采集系統(tǒng)編制的專用程序,常用于大型專用系統(tǒng);⑤固化的采集程序,常用于小型專用系統(tǒng);⑥利用生產(chǎn)廠商提供的軟件工具称龙,用戶自行編制的采集程序留拾,主要用于組合式系統(tǒng)。
數(shù)據(jù)模型(data model)
數(shù)據(jù)模型是現(xiàn)實世界數(shù)據(jù)特征的抽象鲫尊,用于描述一組數(shù)據(jù)的概念和定義痴柔。數(shù)據(jù)模型是數(shù)據(jù)庫中數(shù)據(jù)的存儲方式,是數(shù)據(jù)庫系統(tǒng)的基礎(chǔ)疫向。在數(shù)據(jù)庫中咳蔚,數(shù)據(jù)的物理結(jié)構(gòu)又稱數(shù)據(jù)的存儲結(jié)構(gòu),就是數(shù)據(jù)元素在計算機存儲器中的表示及其配置;數(shù)據(jù)的邏輯結(jié)構(gòu)則是指數(shù)據(jù)元素之間的邏輯關(guān)系搔驼,它是數(shù)據(jù)在用戶或程序員面前的表現(xiàn)形式谈火,數(shù)據(jù)的存儲結(jié)構(gòu)不一定與邏輯結(jié)構(gòu)一致。
數(shù)據(jù)整理(Data Cleansing)
數(shù)據(jù)整理是對調(diào)查舌涨、觀察糯耍、實驗等研究活動中所搜集到的資料進行檢驗、歸類編碼和數(shù)字編碼的過程囊嘉,是數(shù)據(jù)統(tǒng)計分析的基礎(chǔ)温技。
數(shù)據(jù)處理(Data Handling)
數(shù)據(jù)處理是指對數(shù)據(jù)(包括數(shù)值的和非數(shù)值的)進行分析和加工的技術(shù)過程。也就是對數(shù)據(jù)的采集扭粱、存儲舵鳞、檢索、加工琢蛤、變換和傳輸蜓堕,將數(shù)據(jù)轉(zhuǎn)換為信息的過程。
數(shù)據(jù)壓縮(Data Compression)
數(shù)據(jù)壓縮是指在不丟失有用信息的前提下博其,縮減數(shù)據(jù)量以減少數(shù)據(jù)的存儲空間套才,提高其傳輸、存儲和處理效率贺奠,或按照一定的算法對數(shù)據(jù)進行重新組織霜旧,減少數(shù)據(jù)的冗余和存儲的空間的一種技術(shù)方法。
數(shù)據(jù)恢復(fù)(Data Recovery)
數(shù)據(jù)恢復(fù)是指通過技術(shù)手段儡率,將保存在臺式機硬盤、筆記本硬盤以清、服務(wù)器硬盤儿普、移動硬盤、U盤等等設(shè)備上由于各種原因?qū)е聯(lián)p傷或丟失的數(shù)據(jù)進行搶救和恢復(fù)的技術(shù)掷倔。
數(shù)據(jù)集成(Data Integration)
數(shù)據(jù)集成是把不同來源眉孩、格式、特點性質(zhì)的數(shù)據(jù)在邏輯上或物理上有機地集中,從而為企業(yè)提供全面的數(shù)據(jù)共享浪汪。數(shù)據(jù)集成維護了數(shù)據(jù)源整體上的數(shù)據(jù)一致性巴柿、提高信息共享利用的效率。
數(shù)據(jù)遷移(Data Migration)
數(shù)據(jù)遷移又稱分級存儲管理死遭,是一種將離線存儲與在線存儲融合的技術(shù)广恢。將高速、高容量的非在線存儲設(shè)備作為磁盤設(shè)備的下一級設(shè)備呀潭,將磁盤中常用的數(shù)據(jù)按指定策略自動遷移到磁帶庫等二級容量存儲設(shè)備上钉迷。當需要使用這些數(shù)據(jù)時,分級存儲系統(tǒng)會自動將這些數(shù)據(jù)從下一級存儲設(shè)備調(diào)回到上一級磁盤上钠署。
數(shù)據(jù)冗余(Data Redundancy)
數(shù)據(jù)冗余是指同一個數(shù)據(jù)在系統(tǒng)中多次重復(fù)出現(xiàn)糠聪。消除數(shù)據(jù)冗余的目的是為了避免更新時可能出現(xiàn)的問題,以便保持數(shù)據(jù)的一致性谐鼎。
數(shù)據(jù)抽取
數(shù)據(jù)抽取是指從源數(shù)據(jù)源系統(tǒng)抽取目的數(shù)據(jù)源系統(tǒng)需要的數(shù)據(jù)的過程舰蟆。
網(wǎng)絡(luò)數(shù)據(jù)抽取 (Web data mining)
網(wǎng)絡(luò)數(shù)據(jù)抽取(Web data mining),是指從網(wǎng)絡(luò)中取得大量的又利用價值的數(shù)字化信息狸棍。主要包括結(jié)構(gòu)化數(shù)據(jù)抽取(Structured Data Extraction)夭苗、信息集成(Informationintegreation)和觀點挖掘(Opinion mining)等。
結(jié)構(gòu)化數(shù)據(jù)抽取的目標是從Web頁面中抽取結(jié)構(gòu)化數(shù)據(jù)隔缀。這些結(jié)構(gòu)化數(shù)據(jù)往往存儲在后臺數(shù)據(jù)庫中题造,由網(wǎng)頁按一定格式承載著展示給用戶。例如論壇列表頁面猾瘸、Blog頁面界赔、搜索引擎結(jié)果頁面等。信息集成是針對結(jié)構(gòu)化數(shù)據(jù)而言牵触,其目標是將從不同網(wǎng)站中抽取出的數(shù)據(jù)統(tǒng)一化后集成入庫淮悼。其關(guān)鍵問題是如何從不同網(wǎng)站的數(shù)據(jù)表中識別出意義相同的數(shù)據(jù)并統(tǒng)一存儲。
數(shù)據(jù)標準化(data standardization)
數(shù)據(jù)標準化是指研究揽思、制定和推廣應(yīng)用統(tǒng)一的數(shù)據(jù)分類分級袜腥、記錄格式及轉(zhuǎn)換、編碼等技術(shù)標準的過程钉汗。
數(shù)據(jù)備份(Data Backup)
數(shù)據(jù)備份是容災(zāi)的基礎(chǔ)羹令,為防著系統(tǒng)出現(xiàn)操作失誤或系統(tǒng)故障導(dǎo)致數(shù)據(jù)丟失,而將全部或部分數(shù)據(jù)集合從原來存儲的地方復(fù)制到其他地方的活動损痰,將數(shù)據(jù)遭受破壞的程度減到最小福侈。傳統(tǒng)的數(shù)據(jù)備份主要采用內(nèi)置或外置的磁帶機進行冷備份。這種方式只能防止操作失誤等人為故障卢未,其恢復(fù)時間也很長》玖荩現(xiàn)代企業(yè)采用網(wǎng)絡(luò)備份堰汉,通過專業(yè)的數(shù)據(jù)存儲管理軟件結(jié)合相應(yīng)硬件和存儲設(shè)備來實現(xiàn)備份。
完全備份(Full Backup)伟墙。優(yōu)點是當發(fā)生數(shù)據(jù)丟失的災(zāi)難時翘鸭,可以迅速恢復(fù)丟失的數(shù)據(jù)。不足之處是每天都對整個系統(tǒng)進行完全備份戳葵,造成備份的數(shù)據(jù)大量重復(fù)就乓。
增量備份(Incremental Backup)。先實施一次完全備份譬淳,后續(xù)時間里只要對當天的或修改過的數(shù)據(jù)進行備份档址。優(yōu)點:節(jié)省了磁盤空間,縮短了備份時間;缺點是數(shù)據(jù)恢復(fù)比較麻煩邻梆,備份的可靠性很差守伸。
差分備份(Differential Backup)。先實施一次完全備份浦妄,再將當天所有與備份不同的數(shù)據(jù)(新的或修改過的)備份到磁盤上尼摹。該策略避免了以上兩種策略缺陷的同時,具備其所有優(yōu)點剂娄。首先蠢涝,它無須每天都對系統(tǒng)做完全備份,所需的備份時間短阅懦,節(jié)省磁盤空間和二。其次,數(shù)據(jù)恢復(fù)方便耳胎。一旦發(fā)生問題惯吕,用戶只需使用完全備份和發(fā)生問題前一天的備份就可以將系統(tǒng)恢復(fù)。
大數(shù)據(jù)學習QQ群:716581014