數(shù)據(jù)中心建設(shè)----粒度和活樣本數(shù)據(jù)庫

粒度

以前一直不能理解粒度是什么意思,當(dāng)看到《Building the Data Warehouse, 4th Edition》的第二章中的粒度小節(jié)時解開了多時的困擾。雖然書上沒有用一個一句很明確的語言來描述粒度的含義付翁,但是這本書通過例子讓我明白了粒度的含義茫多。下面以一個例子來解釋粒度這個詞隙笆。

例子:

對于一個電話公司來說诡右,記錄用戶的通話記錄是一項很平常的工作,在這項工作中就包含了一個例子:電話公司面臨著一個需要決策的地方驾荣,就是究竟是以高粒度存儲用戶通話記錄還是以低粒度存儲用戶通話記錄。如果以高粒度存儲普泡,那么就需要存儲每個用戶每條通話記錄的詳細信息(可能包括日期播掷、時間、通話人撼班、接線員歧匈、通話時長等等);如果以低粒度存儲砰嘁,就只需要存儲每個用戶一個月(假設(shè)是一個月件炉,也可以是一周等)的通話綜合信息(可能包括月份、通話總次數(shù)矮湘、平均時長斟冕、長途次數(shù)等等)。

含義

意思就是高粒度的數(shù)據(jù)記錄對應(yīng)著損失部分細節(jié)缅阳,低粒度對應(yīng)著保留了細節(jié)的完整性磕蛇,當(dāng)然這就意味著執(zhí)行低粒度需要占用很大的存儲空間來存儲大量的細節(jié)數(shù)據(jù),在數(shù)據(jù)查詢的時候需要在更大的數(shù)據(jù)記錄集中進行搜索,從而產(chǎn)生更大的開銷秀撇。
這兩種模式在實際生產(chǎn)中根據(jù)實際情況進行取舍超棺,而且在數(shù)據(jù)倉庫建設(shè)過程中同時使用兩種粒度,這樣既能提高程序執(zhí)行性能呵燕,又能保留細節(jié)查詢功能棠绘,低粒度數(shù)據(jù)體現(xiàn)為真實檔案數(shù)據(jù),高粒度體現(xiàn)為輕度綜合數(shù)據(jù)再扭。

活樣本數(shù)據(jù)庫

活樣本數(shù)據(jù)庫是從數(shù)據(jù)倉庫中取得的真實檔案數(shù)據(jù)或輕度綜合數(shù)據(jù)的一個子集弄唧,抽取的方式可以是隨機也可以是條件篩選,那么做出活樣本數(shù)據(jù)庫的目的是什么呢霍衫?一般來說是為了提高效率候引。

這里先解釋一個名詞:啟發(fā)式分析,我的理解是在某一時刻分析人員的腦海中出現(xiàn)了一個idea敦跌,但是不知道這個idea實現(xiàn)的效果是怎么樣的澄干,于是立馬開始編寫程序進行分析,在幾十秒或者幾分鐘之內(nèi)就呈現(xiàn)出了結(jié)果柠傍,發(fā)現(xiàn)有一點可以進行改進的地方麸俘,于是馬上修改程序,又進行一次程序執(zhí)行惧笛,又得到一次結(jié)果从媚,又修改程序,又得出結(jié)果患整,最終得出一個滿意的結(jié)果的過程拜效。這個過程中程序執(zhí)行時間不宜太長,不然就達不到這種類似交互式分析的效果了各谚。

于是我們知道:如果每次執(zhí)行分析程序時都遍歷數(shù)據(jù)倉庫中所有相關(guān)數(shù)據(jù)紧憾,那么程序的執(zhí)行時間肯定很長,有可能會達到好幾小時或者一兩天昌渤。于是就有了活樣本數(shù)據(jù)庫赴穗,每次程序執(zhí)行的時候在活樣本數(shù)據(jù)庫上跑,這樣花費的時間就會打打縮短膀息。

舉個例子:

分析一個有25000000條數(shù)據(jù)的大文件般眉,結(jié)果顯示有56.7%的男性,花費了5小時潜支,如果對這個大文件進行采樣甸赃,形成活樣本數(shù)據(jù)庫只有25000條數(shù)據(jù),程序執(zhí)行只花費了5分鐘毁腿,結(jié)果是55%的男性辑奈,盡管第一種方式更加精確苛茂,但是花費的時間成本太高,而產(chǎn)生的兩個結(jié)果之間差異很小鸠窗,所以一般啟發(fā)式分析時會采用第二種方式妓羊。

~本文為《Building the Data Warehouse, 4th Edition 》第二章第二次讀書筆記

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市稍计,隨后出現(xiàn)的幾起案子躁绸,更是在濱河造成了極大的恐慌,老刑警劉巖臣嚣,帶你破解...
    沈念sama閱讀 218,682評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件净刮,死亡現(xiàn)場離奇詭異,居然都是意外死亡硅则,警方通過查閱死者的電腦和手機淹父,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,277評論 3 395
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來怎虫,“玉大人暑认,你說我怎么就攤上這事〈笊螅” “怎么了蘸际?”我有些...
    開封第一講書人閱讀 165,083評論 0 355
  • 文/不壞的土叔 我叫張陵,是天一觀的道長徒扶。 經(jīng)常有香客問我粮彤,道長,這世上最難降的妖魔是什么姜骡? 我笑而不...
    開封第一講書人閱讀 58,763評論 1 295
  • 正文 為了忘掉前任导坟,我火速辦了婚禮,結(jié)果婚禮上溶浴,老公的妹妹穿的比我還像新娘乍迄。我一直安慰自己,他們只是感情好士败,可當(dāng)我...
    茶點故事閱讀 67,785評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著褥伴,像睡著了一般谅将。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上重慢,一...
    開封第一講書人閱讀 51,624評論 1 305
  • 那天饥臂,我揣著相機與錄音,去河邊找鬼似踱。 笑死隅熙,一個胖子當(dāng)著我的面吹牛稽煤,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播囚戚,決...
    沈念sama閱讀 40,358評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼酵熙,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了驰坊?” 一聲冷哼從身側(cè)響起匾二,我...
    開封第一講書人閱讀 39,261評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎拳芙,沒想到半個月后察藐,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,722評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡舟扎,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,900評論 3 336
  • 正文 我和宋清朗相戀三年分飞,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片睹限。...
    茶點故事閱讀 40,030評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡譬猫,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出邦泄,到底是詐尸還是另有隱情删窒,我是刑警寧澤,帶...
    沈念sama閱讀 35,737評論 5 346
  • 正文 年R本政府宣布顺囊,位于F島的核電站肌索,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏特碳。R本人自食惡果不足惜诚亚,卻給世界環(huán)境...
    茶點故事閱讀 41,360評論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望午乓。 院中可真熱鬧站宗,春花似錦、人聲如沸益愈。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,941評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽蒸其。三九已至敏释,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間摸袁,已是汗流浹背钥顽。 一陣腳步聲響...
    開封第一講書人閱讀 33,057評論 1 270
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留靠汁,地道東北人蜂大。 一個月前我還...
    沈念sama閱讀 48,237評論 3 371
  • 正文 我出身青樓闽铐,卻偏偏與公主長得像,于是被迫代替她去往敵國和親奶浦。 傳聞我的和親對象是個殘疾皇子兄墅,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,976評論 2 355

推薦閱讀更多精彩內(nèi)容