配音賽統(tǒng)計的那些事
好久不見,最近在忙的學生工作之一是學院的配音大賽。從線上錄播被耍到線上直播再被耍到作品打榜幕屹,師弟們認真工作的態(tài)度令人感動。雖然付出的努力都打水漂了级遭,但你們都是好樣的望拖。
今天來聊聊關于配音大賽的數(shù)據(jù)統(tǒng)計的技術實踐方法。
首先了解一下配音大賽需要統(tǒng)計什么數(shù)據(jù)挫鸽。
- 隊伍信息(配音平臺ID號说敏、隊伍負責人信息)
- 作品數(shù)據(jù)(上傳時間、點贊量丢郊、觀看量*)
第一部分好說盔沫,做個問卷發(fā)到群聊就完事,今天主要是講一下第二個部分:統(tǒng)計作品數(shù)據(jù)的那些事蚂夕。
思路分析
如果安排人來進行這個工作迅诬,分為三個步驟:
第一步,找到訪問這個數(shù)據(jù)的方法(如何才能找到數(shù)據(jù))
第二步婿牍,固定周期去訪問數(shù)據(jù)(比如每日侈贷、每周),導入我們想要的數(shù)據(jù)等脂。
第三步俏蛮,將獲取到的數(shù)據(jù)錄入表格(Excel),或者錄入到分析平臺(Python上遥,PBI搏屑,SPSS)完成后續(xù)的數(shù)據(jù)分析。
尋找數(shù)據(jù)源
第一步粉楚,獲取數(shù)據(jù)途徑辣恋,我想到了兩個方法:
第一個方法,我們打開「英語趣配音」App模软,打開用戶的個人信息界面伟骨,作品欄就會顯示他所配過的所有作品,同時在這個列表里面還有對應作品的點贊數(shù)燃异、觀看數(shù)携狭,可以通過這個去獲取到我們想要的指標。
這個方法先不評論他究竟是好還是壞回俐,我們先講第二種方法逛腿。第二種方法稀并,就是通過每一個作品的分享鏈接,也就是我們在微信朋友圈单默,各隊邀請他人點贊的網(wǎng)頁碘举。里面有當前作品的觀看量和點贊量,這個是第二個方法雕凹。
兩種方法人力都可以進行操作殴俱,當我們使用第一種方法的時候,一個頁面能查閱多個作品數(shù)據(jù)枚抵,第一種的效率是高于第二種效率的(人力操作)线欲。但倘若我們要設計一個程序的話,從讀取數(shù)據(jù)的難度汽摹,第二種(讀取文本)比較易于實現(xiàn)李丰。
第一種(讀取圖片)不是不行,但需要給阿里爸爸一點經(jīng)費逼泣,感興趣的同學可以自行百度搜索OCR趴泌。
鑒于學生工作大多都是用愛發(fā)電,經(jīng)費什么的別想了拉庶。文尾再聊這個的實現(xiàn)方法吧嗜憔。
手打還是復制?
其實到現(xiàn)在氏仗,兩個方法都是可行的吉捶,如何將數(shù)據(jù)從數(shù)據(jù)源轉(zhuǎn)換成Excel單元格里面的數(shù)字?也就是導入數(shù)據(jù)這個步驟皆尔。
在這里呐舔,對比一下前面提到的兩種方法。哪一種操作性更強慷蠕。
第一種珊拼,通過工作人員肉眼識別的方法。(要錢的方法我不聽A骺弧)將作品的點贊量和觀看量手動輸入到我們的電子表格中澎现。
對于第二種,肉眼當然可以每辟,但也可以通過復制粘貼昔头,將數(shù)據(jù)復制到Excel里面。相對而言影兽,復制粘貼不需要腦子記憶,誤差性會更欣掣铩(粘貼錯單元格的峻堰,你怕不是個魔鬼)讹开。而爬蟲本質(zhì)上就是一個「復制粘貼機器人」,不過它的技能比較高超捐名,對于復雜的圖文也能完美復制下來旦万。
這樣一看,是不是感覺「復制」完爆「人力」镶蹋。
數(shù)據(jù)匯總
假設這個工作由10個人共同統(tǒng)計成艘,多嗎?
不多贺归,我還覺得少了淆两。
第一周累計241個,四周合理預測共計241 x 4 = 964個作品拂酣。到第四周每人查詢約97個秋冰,查詢每個作品從打開界面,找到并確認該作品(這個很耗時間)婶熬、錄入作品點贊數(shù)平均需要1分鐘剑勾,相當于你至少需要花一節(jié)航空氣象課的時間才能完成這個統(tǒng)計。一個半小時一直[點開][關閉][點開][關閉]赵颅。
統(tǒng)計中途走個神在所難免虽另,玩會兒手機,一個上午的時間就沒了饺谬。
如果遇到??這樣的投稿捂刺,只能通過上傳時間區(qū)別
出錯的概率也無形增加了
剛才筆誤了,剛看到比賽規(guī)則中有這一條:
這天晚上想睡覺商蕴?
我打開了VS Code叠萍,寫下了一段注釋,開始Coding的一天绪商。
主觀客觀苛谷,做到一致
別被這個名字嚇跑了,我不是學法的格郁。
(法學大佬們手下留情)
羅翔老師說腹殿,如果要給一個人定罪一個事情定性,需要做到主客觀相一致例书。剛剛講了很多主觀的因素锣尉,總的來說就是不想干那么多活但要高效完成任務。有輕松的法子為什么不用呢(這里有個前提决采,技術滿足需求)自沧。接下來聊兩塊錢客觀因素。
客觀而言,存在「統(tǒng)計時間先后不一導致的不公平」拇厢。舉個例子你就明白了爱谁。
張三和趙四都是1000票,之后分別找了100個人在凌晨12點至凌晨1點給各自的作品點贊孝偎,我們先統(tǒng)計張三访敌,但那時候水軍還沒開始整活;等我們統(tǒng)計趙四的時候衣盾;水軍已經(jīng)安排的明明白白寺旺。
張三肯定不樂意啊,而且這是組委會統(tǒng)計的問題势决,不是他們自己的問題阻塑。張三一怒之下買了個微博熱搜控訴「比賽黑幕」。
最后查明兩個選手均使用非正規(guī)途徑增加點贊量徽龟,被取消比賽資格(??熱搜打臉警告)
上面的故事告訴一個道理:只要有人在我們統(tǒng)計期間給已經(jīng)統(tǒng)計的作品點贊叮姑,那就代表我們現(xiàn)在所使用的數(shù)據(jù)是不準確的。(有點繞)簡單點說据悔,就是統(tǒng)計時間要短传透、要短。幾百條數(shù)據(jù)一分鐘內(nèi)統(tǒng)計完就差不多了极颓。
客觀上人力實現(xiàn)不了朱盐。主客觀一致,論證結(jié)束菠隆。
協(xié)同工作兵琳,不是為了降低效率
雖然現(xiàn)在疫情期間,我們大多數(shù)的時間都在家里面骇径,但難免有的同學有安排自己的事情(最重要的莫過于充足的睡眠)躯肌,那么在這種情況下,做到在同一個時間進行統(tǒng)計破衔,就顯得更加困難了清女。
單純?yōu)榱恕昂献鳌倍献鳎卤豆Π胛福俸o利嫡丙。
總結(jié)一下,爬蟲自動獲取的優(yōu)點(人工統(tǒng)計的缺點)
- 時間短读第、效率高
- 準確度99.99%(只要程序不出BUG)
- 無需協(xié)同工作曙博,減少人力資源
- 機器不用睡覺
- 最大限度的維護統(tǒng)計環(huán)節(jié)公平性
我在想,策劃的人有沒有想過這個實際工作量怜瞒,如果沒有程序輔助的話父泳。
爬蟲程序設計
我在網(wǎng)上找到了一些數(shù)據(jù)采集器,大多都是要收費,免費版的查詢次數(shù)也十分有限尘吗∈潘看來只能操刀子寫代碼了。
我是用 jQuery/Javascript 寫的腳本睬捶。本來想用 Vue
寫,因為最近 npm
有點問題近刘,同時我一直是秉承著能用手直接撕的活擒贸,就不要用牛刀的理念,jQuery足夠了觉渴。
基于Web開發(fā)的最大好處是全平臺兼容介劫。當我只能用手機時,也絲毫不妨礙我的日常工作案淋。后續(xù)如果想要本地化也可以快速封裝成App分發(fā)部署座韵。(微信小程序)
程序原理100字就能說完,通過對分享網(wǎng)頁進行分析踢京,獲取對應字段誉碴。
當輸入鏈接的時候程序會后臺會對網(wǎng)頁數(shù)據(jù)進行采集,最后將這些數(shù)據(jù)保存到一個數(shù)組里面瓣距,然后進行下一個網(wǎng)頁的數(shù)據(jù)采集黔帕。把每日搜索的鏈接保存成arrayStr
,第二天把新增加的作品arrayStr.push()
蹈丸,再做一次遍歷就完成了數(shù)據(jù)更新成黄。這樣子不就簡單許多了嗎?
加上網(wǎng)頁布局和樣式設計逻杖,不到1000行代碼奋岁。
爬蟲設計的初衷是人的重復性勞動交給機器去做,節(jié)約時間荸百、精力闻伶,留給那些更復雜的工作上,提高生產(chǎn)力管搪。
這是批量采集時虾攻,Debug Console
輸出效果如圖:
單個作品的輸出示例:
這就是配音統(tǒng)計的后臺實現(xiàn)方法。這一期閱讀量不錯的話更鲁,下一期談談配音賽的數(shù)據(jù)是如何分析的霎箍。
前文提到的方法一:
如何通過截圖導入數(shù)據(jù)?
OCR(Optical Character Recognition)光學字符識別技術
能干什么澡为? 拍圖識字
(以下技術向漂坏,建議小白從這行開始自動跳過,求給作者一個“在看”鼓勵一下??)
在Windows其實有系統(tǒng)自帶的OCR(MS Office 2007或更高版本依賴文件)主要是給OneNote用的。對于復雜文本的兼容和云計算相比還是比較弱顶别,移動開發(fā)時也不便于調(diào)用
# OCR component
%programfiles%\Common Files\microsoft shared\OCR\7.0\xocr3.psp.dll `
隨著云計算的發(fā)展谷徙,各大開發(fā)平臺供應商(如阿里云、騰訊云)提供了OCR識別的API供開發(fā)者直接調(diào)用驯绎。
理想的看完慧,每一個UIList
子對象都是通過遍歷生成,只要把布局自定義配置好剩失,導入字段還是不難的屈尼。但實際操作上因為不同機型長寬比、DPR(Device Pixel Ratio)不同拴孤,模板很難搞脾歧,因此識別的時候準確率(準確識別數(shù)據(jù)同時正確匹配字段)比較低,之前測試的時候經(jīng)常把點贊量和作品名字連起來演熟。時間比較趕鞭执,來不及調(diào)教(深度學習)云計算就放棄了。而且列表里面的數(shù)據(jù)也少了芒粹,200多個作品存成xml才83KB兄纺,一張屏幕截圖估計就得2MB,對于這個項目需求是辕,OCR算是完敗了囤热。
不過,OCR的應用場景還是很多的获三,比如實景翻譯旁蔼、文獻檢索、掃描試卷疙教、拍照摘錄等等棺聊。感興趣的可以看一下阿里的OCR產(chǎn)品,實名認證后有500次免費的額度贞谓,嘗鮮足夠了限佩。
版權(quán)聲明:CC-BY-NC-SA 4.0