https://beinsure.com/faq/what-is-difference-between-database-and-big-data/
https://www.teradata.com/glossary/what-are-the-5-v-s-of-big-data
傳統(tǒng)的數(shù)據(jù)庫(kù)系統(tǒng)處理結(jié)構(gòu)化數(shù)據(jù)逸寓。大數(shù)據(jù)系統(tǒng)處理結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)
我們可以將大數(shù)據(jù)視為傳統(tǒng)數(shù)據(jù)的上層版本。大數(shù)據(jù)處理的數(shù)據(jù)集太大或太復(fù)雜边器,傳統(tǒng)的數(shù)據(jù)處理應(yīng)用軟件很難管理梧田。它處理大量結(jié)構(gòu)化描验、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)缺谴。容量(Volume)士修、速度(Velocity)和多樣性(Variety)凛忿、準(zhǔn)確性(Veracity)和價(jià)值(Value)是指大數(shù)據(jù)的5'V特征
數(shù)量:公司管理和分析的大數(shù)據(jù)的大小和數(shù)量
價(jià)值:從業(yè)務(wù)角度來(lái)看最重要的“V”澈灼,大數(shù)據(jù)的價(jià)值通常來(lái)自于洞察發(fā)現(xiàn)和模式識(shí)別,從而帶來(lái)更有效的運(yùn)營(yíng)店溢、更牢固的客戶關(guān)系以及其他清晰且可量化的商業(yè)利益
多樣性:不同數(shù)據(jù)類型的多樣性和范圍叁熔,包括非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和原始數(shù)據(jù)
速度:公司接收床牧、存儲(chǔ)和管理數(shù)據(jù)的速度——例如荣回,一天、一小時(shí)或其他時(shí)間單位內(nèi)收到的社交媒體帖子或搜索查詢的具體數(shù)量
真實(shí)性:數(shù)據(jù)和信息資產(chǎn)的“真實(shí)性”或準(zhǔn)確性戈咳,通常決定高管層的信心
可變性:公司尋求捕獲心软、管理和分析的數(shù)據(jù)性質(zhì)不斷變化,例如著蛙,在情緒或文本分析中删铃,關(guān)鍵詞或短語(yǔ)含義的變化
從數(shù)據(jù)列數(shù)的角度來(lái)說(shuō),我感覺(jué)大數(shù)據(jù)這個(gè)大或許不單是指的數(shù)據(jù)條數(shù)踏堡,而是我們的數(shù)據(jù)收集的口徑猎唁,比如如果我們只是收集一個(gè)人的性別,年齡顷蟆,性別那這個(gè)數(shù)據(jù)就不大诫隅,但如果我們想收集一個(gè)人所有的信息,不管啥信息帐偎,只要和他有關(guān)的我都要逐纬,那這個(gè)數(shù)據(jù)就是大
從數(shù)據(jù)條數(shù)的角度來(lái)說(shuō),我們之前的產(chǎn)品是低日活但是高用戶價(jià)值類型的產(chǎn)品肮街,這種我覺(jué)得就適合 rds风题,但現(xiàn)在的產(chǎn)品的理想情況是用戶價(jià)值比較平均,然后日活會(huì)比較高,這種或許就適合用大數(shù)據(jù)
從可變的角度來(lái)說(shuō)沛硅,大數(shù)據(jù)存儲(chǔ)了大量的原始數(shù)據(jù)眼刃,大數(shù)據(jù)根據(jù)我們希望的統(tǒng)計(jì)要求提取出我們關(guān)心的結(jié)構(gòu)數(shù)據(jù)字段來(lái)進(jìn)行展示,可是如果有一天我關(guān)心的字段增加了摇肌,那么大數(shù)據(jù)就可以從原始數(shù)據(jù)提取出我新的關(guān)心的字段擂红,但對(duì)于傳統(tǒng)的數(shù)據(jù)庫(kù),就很難滿足這一點(diǎn)
從速度的角度來(lái)說(shuō)围小,有觀點(diǎn)認(rèn)為rds 在巨量數(shù)據(jù)時(shí)昵骤,數(shù)據(jù)查詢和寫入將變得很慢,不過(guò)這點(diǎn)我并不能確定
另外我發(fā)現(xiàn)當(dāng)我們?nèi)ゲ榇髷?shù)據(jù)資料的時(shí)候肯适,大數(shù)據(jù)往往被解釋的過(guò)于魔幻变秦,像是一個(gè)神丹妙藥,仿佛它能自動(dòng)的去幫我們解決很多問(wèn)題框舔,可事實(shí)上并不是蹦玫,大數(shù)據(jù)可以理解為數(shù)據(jù)庫(kù)的升級(jí)版,它只是能存儲(chǔ)和處理更多的數(shù)據(jù)刘绣,而并不能夠幫我們做更多的決策樱溉,想根據(jù)海量數(shù)據(jù)做出決策,你需要自己擁有分析解讀海量數(shù)據(jù)的能力纬凤,而大數(shù)據(jù)只是幫你存儲(chǔ)了這些數(shù)據(jù)福贞,它是你數(shù)據(jù)分析的基礎(chǔ),不是告訴你數(shù)據(jù)分析的結(jié)果
因?yàn)榇髷?shù)據(jù)和數(shù)據(jù)科學(xué)是兩個(gè)不同的事情停士,而往往一些人試圖夸大大數(shù)據(jù)本身的能力挖帘,你在選擇要不要使用大數(shù)據(jù)的時(shí)候應(yīng)該專注于它本身存儲(chǔ)處理海量數(shù)據(jù)的能力,而不是它畫出來(lái)的餅
Big data refers to storing, managing, and processing large volumes of data, while data science focuses on analyzing and interpreting data to gain insights and make informed decisions