配音賽統(tǒng)計的那些事

好久不見，最近在忙的學生工作之一是學院的配音大賽。從線上錄播被耍到線上直播再被耍到作品打榜幕屹，師弟們認真工作的態(tài)度令人感動。雖然付出的努力都打水漂了级遭，但你們都是好樣的望拖。

今天來聊聊關于配音大賽的數(shù)據(jù)統(tǒng)計的技術實踐方法。

首先了解一下配音大賽需要統(tǒng)計什么數(shù)據(jù)挫鸽。

隊伍信息（配音平臺ID號说敏、隊伍負責人信息）
作品數(shù)據(jù)（上傳時間、點贊量丢郊、觀看量*）

第一部分好說盔沫，做個問卷發(fā)到群聊就完事，今天主要是講一下第二個部分：統(tǒng)計作品數(shù)據(jù)的那些事蚂夕。

思路分析

如果安排人來進行這個工作迅诬，分為三個步驟：

第一步，找到訪問這個數(shù)據(jù)的方法（如何才能找到數(shù)據(jù)）
第二步婿牍，固定周期去訪問數(shù)據(jù)（比如每日侈贷、每周），導入我們想要的數(shù)據(jù)等脂。
第三步俏蛮，將獲取到的數(shù)據(jù)錄入表格（Excel），或者錄入到分析平臺（Python上遥，PBI搏屑，SPSS）完成后續(xù)的數(shù)據(jù)分析。

1001

尋找數(shù)據(jù)源

第一步粉楚，獲取數(shù)據(jù)途徑辣恋，我想到了兩個方法：
第一個方法，我們打開「英語趣配音」App模软，打開用戶的個人信息界面伟骨，作品欄就會顯示他所配過的所有作品，同時在這個列表里面還有對應作品的點贊數(shù)燃异、觀看數(shù)携狭，可以通過這個去獲取到我們想要的指標。

IMG_2130

這個方法先不評論他究竟是好還是壞回俐，我們先講第二種方法逛腿。第二種方法稀并，就是通過每一個作品的分享鏈接，也就是我們在微信朋友圈单默，各隊邀請他人點贊的網(wǎng)頁碘举。里面有當前作品的觀看量和點贊量，這個是第二個方法雕凹。

IMG_2128

兩種方法人力都可以進行操作殴俱，當我們使用第一種方法的時候，一個頁面能查閱多個作品數(shù)據(jù)枚抵，第一種的效率是高于第二種效率的（人力操作）线欲。但倘若我們要設計一個程序的話，從讀取數(shù)據(jù)的難度汽摹，第二種（讀取文本）比較易于實現(xiàn)李丰。

第一種（讀取圖片）不是不行，但需要給阿里爸爸一點經(jīng)費逼泣，感興趣的同學可以自行百度搜索OCR趴泌。

Aliyun_OCR

鑒于學生工作大多都是用愛發(fā)電，經(jīng)費什么的別想了拉庶。文尾再聊這個的實現(xiàn)方法吧嗜憔。

手打還是復制？

其實到現(xiàn)在氏仗，兩個方法都是可行的吉捶，如何將數(shù)據(jù)從數(shù)據(jù)源轉(zhuǎn)換成Excel單元格里面的數(shù)字？也就是導入數(shù)據(jù)這個步驟皆尔。

Data_Conversion

在這里呐舔，對比一下前面提到的兩種方法。哪一種操作性更強慷蠕。

第一種珊拼，通過工作人員肉眼識別的方法。（要錢的方法我不聽Ａ骺弧）將作品的點贊量和觀看量手動輸入到我們的電子表格中澎现。
對于第二種，肉眼當然可以每辟，但也可以通過復制粘貼昔头，將數(shù)據(jù)復制到Excel里面。相對而言影兽，復制粘貼不需要腦子記憶，誤差性會更欣掣铩（粘貼錯單元格的峻堰，你怕不是個魔鬼）讹开。而爬蟲本質(zhì)上就是一個「復制粘貼機器人」，不過它的技能比較高超捐名，對于復雜的圖文也能完美復制下來旦万。

這樣一看，是不是感覺「復制」完爆「人力」镶蹋。

數(shù)據(jù)匯總

假設這個工作由10個人共同統(tǒng)計成艘，多嗎？
不多贺归，我還覺得少了淆两。
第一周累計241個，四周合理預測共計241 x 4 = 964個作品拂酣。到第四周每人查詢約97個秋冰，查詢每個作品從打開界面，找到并確認該作品（這個很耗時間）婶熬、錄入作品點贊數(shù)平均需要1分鐘剑勾，相當于你至少需要花一節(jié)航空氣象課的時間才能完成這個統(tǒng)計。一個半小時一直[點開][關閉][點開][關閉]赵颅。
統(tǒng)計中途走個神在所難免虽另，玩會兒手機，一個上午的時間就沒了饺谬。

IMG_2133

如果遇到??這樣的投稿捂刺，只能通過上傳時間區(qū)別
出錯的概率也無形增加了

剛才筆誤了，剛看到比賽規(guī)則中有這一條：

-w375

這天晚上想睡覺商蕴？

webwxgetmsgimg

我打開了VS Code叠萍，寫下了一段注釋，開始Coding的一天绪商。

-w346

主觀客觀苛谷，做到一致

別被這個名字嚇跑了，我不是學法的格郁。
（法學大佬們手下留情）

羅翔老師說腹殿，如果要給~~一個人定罪~~一個事情定性，需要做到主客觀相一致例书。剛剛講了很多主觀的因素锣尉，總的來說就是不想干那么多活但要高效完成任務。有輕松的法子為什么不用呢（這里有個前提决采，技術滿足需求）自沧。接下來聊兩塊錢客觀因素。

客觀而言，存在「統(tǒng)計時間先后不一導致的不公平」拇厢。舉個例子你就明白了爱谁。

張三和趙四都是1000票，之后分別找了100個人在凌晨12點至凌晨1點給各自的作品點贊孝偎，我們先統(tǒng)計張三访敌，但那時候水軍還沒開始整活；等我們統(tǒng)計趙四的時候衣盾；水軍已經(jīng)安排的明明白白寺旺。

image

張三肯定不樂意啊，而且這是組委會統(tǒng)計的問題势决，不是他們自己的問題阻塑。張三一怒之下買了個微博熱搜控訴「比賽黑幕」。

image

最后查明兩個選手均使用非正規(guī)途徑增加點贊量徽龟，被取消比賽資格（??熱搜打臉警告）

-w388

上面的故事告訴一個道理：只要有人在我們統(tǒng)計期間給已經(jīng)統(tǒng)計的作品點贊叮姑，那就代表我們現(xiàn)在所使用的數(shù)據(jù)是不準確的。（有點繞）簡單點說据悔，就是統(tǒng)計時間要短传透、要短。幾百條數(shù)據(jù)一分鐘內(nèi)統(tǒng)計完就差不多了极颓。

客觀上人力實現(xiàn)不了朱盐。主客觀一致，論證結(jié)束菠隆。

協(xié)同工作兵琳，不是為了降低效率

雖然現(xiàn)在疫情期間，我們大多數(shù)的時間都在家里面骇径，但難免有的同學有安排自己的事情（最重要的莫過于充足的睡眠）躯肌，那么在這種情況下，做到在同一個時間進行統(tǒng)計破衔，就顯得更加困難了清女。

image

單純?yōu)榱恕昂献鳌倍献鳎卤豆Π胛福俸o利嫡丙。

image

總結(jié)一下，爬蟲自動獲取的優(yōu)點（人工統(tǒng)計的缺點）

時間短读第、效率高
準確度99.99%（只要程序不出BUG）
無需協(xié)同工作曙博，減少人力資源
機器不用睡覺
最大限度的維護統(tǒng)計環(huán)節(jié)公平性

我在想，策劃的人有沒有想過這個實際工作量怜瞒，如果沒有程序輔助的話父泳。

238157262

爬蟲程序設計

我在網(wǎng)上找到了一些數(shù)據(jù)采集器，大多都是要收費，免費版的查詢次數(shù)也十分有限尘吗∈潘看來只能操刀子寫代碼了。

我是用 jQuery/Javascript 寫的腳本睬捶。本來想用 Vue 寫，因為最近 npm 有點問題近刘，同時我一直是秉承著能用手直接撕的活擒贸，就不要用牛刀的理念，jQuery足夠了觉渴。

基于Web開發(fā)的最大好處是全平臺兼容介劫。當我只能用手機時，也絲毫不妨礙我的日常工作案淋。后續(xù)如果想要本地化也可以快速封裝成App分發(fā)部署座韵。（微信小程序）

程序原理100字就能說完，通過對分享網(wǎng)頁進行分析踢京，獲取對應字段誉碴。

當輸入鏈接的時候程序會后臺會對網(wǎng)頁數(shù)據(jù)進行采集，最后將這些數(shù)據(jù)保存到一個數(shù)組里面瓣距，然后進行下一個網(wǎng)頁的數(shù)據(jù)采集黔帕。把每日搜索的鏈接保存成arrayStr，第二天把新增加的作品arrayStr.push()蹈丸，再做一次遍歷就完成了數(shù)據(jù)更新成黄。這樣子不就簡單許多了嗎？

image

加上網(wǎng)頁布局和樣式設計逻杖，不到1000行代碼奋岁。

爬蟲設計的初衷是人的重復性勞動交給機器去做，節(jié)約時間荸百、精力闻伶，留給那些更復雜的工作上，提高生產(chǎn)力管搪。

這是批量采集時虾攻，Debug Console 輸出效果如圖：

單個作品的輸出示例：

-w670

這就是配音統(tǒng)計的后臺實現(xiàn)方法。這一期閱讀量不錯的話更鲁，下一期談談配音賽的數(shù)據(jù)是如何分析的霎箍。

前文提到的方法一：

如何通過截圖導入數(shù)據(jù)？
OCR（Optical Character Recognition）光學字符識別技術

能干什么澡为？ 拍圖識字

（以下技術向漂坏，建議小白從這行開始自動跳過，求給作者一個“在看”鼓勵一下??）

在Windows其實有系統(tǒng)自帶的OCR（MS Office 2007或更高版本依賴文件）主要是給OneNote用的。對于復雜文本的兼容和云計算相比還是比較弱顶别，移動開發(fā)時也不便于調(diào)用

# OCR component
%programfiles%\Common Files\microsoft shared\OCR\7.0\xocr3.psp.dll `

隨著云計算的發(fā)展谷徙，各大開發(fā)平臺供應商（如阿里云、騰訊云）提供了OCR識別的API供開發(fā)者直接調(diào)用驯绎。

理想的看完慧，每一個UIList子對象都是通過遍歷生成，只要把布局自定義配置好剩失，導入字段還是不難的屈尼。但實際操作上因為不同機型長寬比、DPR（Device Pixel Ratio）不同拴孤，模板很難搞脾歧，因此識別的時候準確率（準確識別數(shù)據(jù)同時正確匹配字段）比較低，之前測試的時候經(jīng)常把點贊量和作品名字連起來演熟。時間比較趕鞭执，來不及調(diào)教（深度學習）云計算就放棄了。而且列表里面的數(shù)據(jù)也少了芒粹，200多個作品存成xml才83KB兄纺，一張屏幕截圖估計就得2MB，對于這個項目需求是辕，OCR算是完敗了囤热。

不過，OCR的應用場景還是很多的获三，比如實景翻譯旁蔼、文獻檢索、掃描試卷疙教、拍照摘錄等等棺聊。感興趣的可以看一下阿里的OCR產(chǎn)品，實名認證后有500次免費的額度贞谓，嘗鮮足夠了限佩。

版權(quán)聲明：CC-BY-NC-SA 4.0

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

禁止轉(zhuǎn)載，如需轉(zhuǎn)載請通過簡信或評論聯(lián)系作者裸弦。

人面猴
序言：七十年代末祟同，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子理疙，更是在濱河造成了極大的恐慌晕城，老刑警劉巖，帶你破解...
沈念sama閱讀 217,657評論 6贊 505
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件窖贤，死亡現(xiàn)場離奇詭異砖顷，居然都是意外死亡贰锁，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,889評論 3贊 394
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門滤蝠，熙熙樓的掌柜王于貴愁眉苦臉地迎上來豌熄，“玉大人，你說我怎么就攤上這事物咳÷嘞眨” “怎么了？”我有些...
開封第一講書人閱讀 164,057評論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵览闰，是天一觀的道長囱持。經(jīng)常有香客問我，道長焕济，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,509評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任盔几，我火速辦了婚禮晴弃，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘逊拍。我一直安慰自己上鞠，他們只是感情好，可當我...
茶點故事閱讀 67,562評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布芯丧。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪匆帚。梳的紋絲不亂的頭發(fā)上搓逾，一...
開封第一講書人閱讀 51,443評論 1贊 302
城市分裂傳說
那天，我揣著相機與錄音骗露，去河邊找鬼岭佳。笑死，一個胖子當著我的面吹牛萧锉，可吹牛的內(nèi)容都是我干的珊随。我是一名探鬼主播，決...
沈念sama閱讀 40,251評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼柿隙，長吁一口氣：“原來是場噩夢啊……” “哼叶洞！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起禀崖，我...
開封第一講書人閱讀 39,129評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤衩辟，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后帆焕，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體惭婿，經(jīng)...
沈念sama閱讀 45,561評論 1贊 314
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡不恭，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,779評論 3贊 335
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了财饥。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片换吧。...
茶點故事閱讀 39,902評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖钥星，靈堂內(nèi)的尸體忽然破棺而出沾瓦，到底是詐尸還是另有隱情，我是刑警寧澤谦炒，帶...
沈念sama閱讀 35,621評論 5贊 345
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布贯莺，位于F島的核電站，受9級特大地震影響宁改，放射性物質(zhì)發(fā)生泄漏缕探。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 41,220評論 3贊 328
男人毒藥：我在死后第九天來索命
文/蒙蒙一还蹲、第九天我趴在偏房一處隱蔽的房頂上張望爹耗。院中可真熱鬧，春花似錦谜喊、人聲如沸潭兽。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,838評論 0贊 22
一樁弒父案斗遏，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽山卦。三九已至，卻和暖如春诵次，著一層夾襖步出監(jiān)牢的瞬間账蓉，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 32,971評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工藻懒，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留剔猿，地道東北人。一個月前我還...
沈念sama閱讀 48,025評論 2贊 370
代替公主和親
正文我出身青樓嬉荆，卻偏偏與公主長得像归敬，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子鄙早，可洞房花燭夜當晚...
茶點故事閱讀 44,843評論 2贊 354

配音賽統(tǒng)計的那些事

配音賽統(tǒng)計的那些事

思路分析

尋找數(shù)據(jù)源

手打還是復制？

數(shù)據(jù)匯總

主觀客觀苛谷，做到一致

協(xié)同工作兵琳，不是為了降低效率

爬蟲程序設計

推薦閱讀更多精彩內(nèi)容