just test key words
離線(xiàn)算法( offline algorithms)渣玲,在開(kāi)始時(shí)就需要知道問(wèn)題的所有輸入數(shù)據(jù),而且在解決一個(gè)問(wèn)題后就要立即輸出結(jié)果椿访。
離線(xiàn)計(jì)算就是在計(jì)算開(kāi)始前已知所有輸入數(shù)據(jù)垮媒,輸入數(shù)據(jù)不會(huì)產(chǎn)生變化,且在解決一個(gè)問(wèn)題后就要立即得出結(jié)果的前提下進(jìn)行的計(jì)算暑脆。在大數(shù)據(jù)中屬于數(shù)據(jù)的計(jì)算部分,在該部分中與離線(xiàn)計(jì)算對(duì)應(yīng)的則是實(shí)時(shí)計(jì)算狐肢。
離線(xiàn)計(jì)算特點(diǎn):
- 數(shù)據(jù)量巨大且保存時(shí)間長(zhǎng)添吗;
2)在大量數(shù)據(jù)上進(jìn)行復(fù)雜的批量運(yùn)算;
3)數(shù)據(jù)在計(jì)算之前已經(jīng)完全到位份名,不會(huì)發(fā)生變化碟联;
4)能夠方便的查詢(xún)批量計(jì)算的結(jié)果;
離線(xiàn)計(jì)算與實(shí)時(shí)計(jì)算區(qū)別
在實(shí)時(shí)計(jì)算中僵腺,××輸入數(shù)據(jù)是可以以序列化的方式一個(gè)個(gè)輸入并進(jìn)行處理的鲤孵,也就是說(shuō)在開(kāi)始的時(shí)候并不需要知道所有的輸入數(shù)據(jù)。而對(duì)于離線(xiàn)計(jì)算辰如,在開(kāi)始之前就必須知道所有的輸入數(shù)據(jù)普监。例如:當(dāng)用戶(hù)請(qǐng)求發(fā)送過(guò)來(lái)后進(jìn)行處理或輸出結(jié)果的是實(shí)時(shí)計(jì)算,但在用戶(hù)請(qǐng)求之前就將數(shù)據(jù)計(jì)算好的是離線(xiàn)計(jì)算。由于實(shí)時(shí)計(jì)算不能在整體上把握輸入數(shù)據(jù)凯正,所以得出的結(jié)果可能不是[最優(yōu)解]
在離線(xiàn)計(jì)算中毙玻,使用 Hdfs存儲(chǔ)數(shù)據(jù),使用 MapReduce 做批量計(jì)算廊散,計(jì)算完成的數(shù)據(jù)如需數(shù)據(jù)倉(cāng)庫(kù)的存儲(chǔ)桑滩,直接存入Hive , 然后從Hive進(jìn)行展現(xiàn)。
離線(xiàn)計(jì)算框架:Spark允睹、Hadoop