在你所在的公司(行業(yè)叔营、領(lǐng)域),正在用大數(shù)據(jù)處理哪些業(yè)務(wù)鹉胖?可以用大數(shù)據(jù)實(shí)現(xiàn)哪些價(jià)值握玛?
我目前在影視后期行業(yè),公司日常的生產(chǎn)中暫時(shí)還沒(méi)有使用到大數(shù)據(jù)技術(shù)甫菠,但是整個(gè)影視行業(yè)對(duì)大數(shù)據(jù)的應(yīng)用其實(shí)是充滿(mǎn)著需求和機(jī)會(huì)的挠铲。
在前期創(chuàng)作階段,大數(shù)據(jù)可以用于統(tǒng)計(jì)寂诱、分析過(guò)往影視作品的市場(chǎng)反響拂苹、評(píng)價(jià)、成本痰洒、周期瓢棒、風(fēng)險(xiǎn)等等浴韭,輔助出品方制定更符合市場(chǎng)規(guī)律、更滿(mǎn)足觀(guān)眾胃口的影視作品創(chuàng)作方向和生產(chǎn)方案脯宿。借助機(jī)器學(xué)習(xí)念颈、文本分析、圖像生成等技術(shù)连霉,目前已經(jīng)出現(xiàn)了自動(dòng)分析劇本榴芳,自動(dòng)繪制故事板等應(yīng)用。
在制作階段跺撼,大數(shù)據(jù)的應(yīng)用主要在于深度學(xué)習(xí)翠语。基于深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的圖像處理技術(shù)可以極大提高數(shù)字圖像的生產(chǎn)效率和質(zhì)量财边,提升數(shù)字圖像產(chǎn)品的品質(zhì)肌括,取代一部分基礎(chǔ)的人力投入。另外酣难,對(duì)于影視制作這種強(qiáng)調(diào)個(gè)性化和人力投入的領(lǐng)域谍夭,對(duì)于由經(jīng)驗(yàn)和創(chuàng)意沉淀而成的方法論進(jìn)行數(shù)據(jù)化的抽象、統(tǒng)計(jì)憨募、分析紧索,能夠更好的指導(dǎo)整個(gè)創(chuàng)作過(guò)程,對(duì)行業(yè)知識(shí)的挖掘菜谣、生產(chǎn)過(guò)程的監(jiān)控管理都具有重要意義珠漂。
在發(fā)行階段,大數(shù)據(jù)同樣可以指導(dǎo)影片的排期和宣發(fā)策略尾膊。
分析如下 HiveQL媳危,生成的 MapReduce 執(zhí)行程序,map 函數(shù)輸入是什么冈敛?輸出是什么待笑,reduce 函數(shù)輸入是什么?輸出是什么抓谴?
INSERT OVERWRITE TABLE pv_users
SELECT pv.pageid, u.age
FROM page_view pv
JOIN user u
ON (pv.userid = u.userid);
本例所給出的SQL語(yǔ)句是要從page_view表和user表中查詢(xún)出每次頁(yè)面訪(fǎng)問(wèn)所對(duì)應(yīng)的訪(fǎng)問(wèn)者年齡暮蹂。根據(jù)MapReduce背后基本的“分治-合并”思想,結(jié)合具體的數(shù)據(jù)表結(jié)構(gòu)癌压,可以得出Map和Reduce過(guò)程各自的輸入和輸出仰泻。
Map
Map的輸入就是兩張表中的每條數(shù)據(jù)。Map函數(shù)的輸出中需要選擇一個(gè)Key滩届,題目中JOIN操作針對(duì)的是兩張表都有的userid字段集侯,因此可以使用userid作為Key,而value則是一個(gè)元組,其第一項(xiàng)是該條數(shù)據(jù)來(lái)源的表編號(hào)浅悉,第二項(xiàng)則是該表中該條數(shù)據(jù)值,對(duì)于page_view表來(lái)說(shuō)券犁,數(shù)據(jù)值選擇pageid字段术健,而對(duì)于user表來(lái)說(shuō),數(shù)據(jù)值選擇age字段粘衬,這正好對(duì)應(yīng)了SQL語(yǔ)句中的SELECT荞估。
Reduce
在Map的輸出結(jié)果進(jìn)入到Reduce過(guò)程之前,還需要經(jīng)過(guò)Shuffle處理稚新,即將相同Key的數(shù)據(jù)集合到一起勘伺,以此作為Reduce的輸入。在Reduce階段褂删,對(duì)相同Key的數(shù)據(jù)記錄執(zhí)行JOIN操作飞醉,此時(shí)計(jì)算量就比初始階段直接對(duì)兩張?jiān)嫉谋磉M(jìn)行JOIN操作要小多了。Reduce的輸出結(jié)果即是最終的pv_users表屯阀,其字段包括pageid和age缅帘。
整個(gè)MapReduce處理過(guò)程如下圖所示: