配音賽統(tǒng)計的那些事

配音賽統(tǒng)計的那些事

好久不見,最近在忙的學生工作之一是學院的配音大賽。從線上錄播被耍到線上直播再被耍到作品打榜幕屹,師弟們認真工作的態(tài)度令人感動。雖然付出的努力都打水漂了级遭,但你們都是好樣的望拖。

今天來聊聊關于配音大賽的數(shù)據(jù)統(tǒng)計的技術實踐方法。

首先了解一下配音大賽需要統(tǒng)計什么數(shù)據(jù)挫鸽。

  • 隊伍信息(配音平臺ID號说敏、隊伍負責人信息)
  • 作品數(shù)據(jù)(上傳時間、點贊量丢郊、觀看量*)

第一部分好說盔沫,做個問卷發(fā)到群聊就完事,今天主要是講一下第二個部分:統(tǒng)計作品數(shù)據(jù)的那些事蚂夕。

思路分析

如果安排人來進行這個工作迅诬,分為三個步驟:

第一步,找到訪問這個數(shù)據(jù)的方法(如何才能找到數(shù)據(jù))
第二步婿牍,固定周期去訪問數(shù)據(jù)(比如每日侈贷、每周),導入我們想要的數(shù)據(jù)等脂。
第三步俏蛮,將獲取到的數(shù)據(jù)錄入表格(Excel),或者錄入到分析平臺(Python上遥,PBI搏屑,SPSS)完成后續(xù)的數(shù)據(jù)分析。


1001

尋找數(shù)據(jù)源

第一步粉楚,獲取數(shù)據(jù)途徑辣恋,我想到了兩個方法:
第一個方法,我們打開「英語趣配音」App模软,打開用戶的個人信息界面伟骨,作品欄就會顯示他所配過的所有作品,同時在這個列表里面還有對應作品的點贊數(shù)燃异、觀看數(shù)携狭,可以通過這個去獲取到我們想要的指標。


IMG_2130

這個方法先不評論他究竟是好還是壞回俐,我們先講第二種方法逛腿。第二種方法稀并,就是通過每一個作品的分享鏈接,也就是我們在微信朋友圈单默,各隊邀請他人點贊的網(wǎng)頁碘举。里面有當前作品的觀看量和點贊量,這個是第二個方法雕凹。

IMG_2128

兩種方法人力都可以進行操作殴俱,當我們使用第一種方法的時候,一個頁面能查閱多個作品數(shù)據(jù)枚抵,第一種的效率是高于第二種效率的(人力操作)线欲。但倘若我們要設計一個程序的話,從讀取數(shù)據(jù)的難度汽摹,第二種(讀取文本)比較易于實現(xiàn)李丰。

第一種(讀取圖片)不是不行,但需要給阿里爸爸一點經(jīng)費逼泣,感興趣的同學可以自行百度搜索OCR趴泌。

Aliyun_OCR

鑒于學生工作大多都是用愛發(fā)電,經(jīng)費什么的別想了拉庶。文尾再聊這個的實現(xiàn)方法吧嗜憔。

手打還是復制?

其實到現(xiàn)在氏仗,兩個方法都是可行的吉捶,如何將數(shù)據(jù)從數(shù)據(jù)源轉(zhuǎn)換成Excel單元格里面的數(shù)字?也就是導入數(shù)據(jù)這個步驟皆尔。

Data_Conversion

在這里呐舔,對比一下前面提到的兩種方法。哪一種操作性更強慷蠕。

第一種珊拼,通過工作人員肉眼識別的方法。(要錢的方法我不聽A骺弧)將作品的點贊量和觀看量手動輸入到我們的電子表格中澎现。
對于第二種,肉眼當然可以每辟,但也可以通過復制粘貼昔头,將數(shù)據(jù)復制到Excel里面。相對而言影兽,復制粘貼不需要腦子記憶,誤差性會更欣掣铩(粘貼錯單元格的峻堰,你怕不是個魔鬼)讹开。而爬蟲本質(zhì)上就是一個「復制粘貼機器人」,不過它的技能比較高超捐名,對于復雜的圖文也能完美復制下來旦万。

這樣一看,是不是感覺「復制」完爆「人力」镶蹋。

數(shù)據(jù)匯總

假設這個工作由10個人共同統(tǒng)計成艘,多嗎?
不多贺归,我還覺得少了淆两。
第一周累計241個,四周合理預測共計241 x 4 = 964個作品拂酣。到第四周每人查詢約97個秋冰,查詢每個作品從打開界面,找到并確認該作品(這個很耗時間)婶熬、錄入作品點贊數(shù)平均需要1分鐘剑勾,相當于你至少需要花一節(jié)航空氣象課的時間才能完成這個統(tǒng)計。一個半小時一直[點開][關閉][點開][關閉]赵颅。
統(tǒng)計中途走個神在所難免虽另,玩會兒手機,一個上午的時間就沒了饺谬。

IMG_2133

如果遇到??這樣的投稿捂刺,只能通過上傳時間區(qū)別
出錯的概率也無形增加了

剛才筆誤了,剛看到比賽規(guī)則中有這一條:


-w375

這天晚上想睡覺商蕴?

webwxgetmsgimg

我打開了VS Code叠萍,寫下了一段注釋,開始Coding的一天绪商。


-w346

主觀客觀苛谷,做到一致

別被這個名字嚇跑了,我不是學法的格郁。
(法學大佬們手下留情)

羅翔老師說腹殿,如果要給一個人定罪一個事情定性,需要做到主客觀相一致例书。剛剛講了很多主觀的因素锣尉,總的來說就是不想干那么多活但要高效完成任務。有輕松的法子為什么不用呢(這里有個前提决采,技術滿足需求)自沧。接下來聊兩塊錢客觀因素。

客觀而言,存在「統(tǒng)計時間先后不一導致的不公平」拇厢。舉個例子你就明白了爱谁。

張三和趙四都是1000票,之后分別找了100個人在凌晨12點至凌晨1點給各自的作品點贊孝偎,我們先統(tǒng)計張三访敌,但那時候水軍還沒開始整活;等我們統(tǒng)計趙四的時候衣盾;水軍已經(jīng)安排的明明白白寺旺。


image

張三肯定不樂意啊,而且這是組委會統(tǒng)計的問題势决,不是他們自己的問題阻塑。張三一怒之下買了個微博熱搜控訴「比賽黑幕」。


image

最后查明兩個選手均使用非正規(guī)途徑增加點贊量徽龟,被取消比賽資格(??熱搜打臉警告)


-w388

上面的故事告訴一個道理:只要有人在我們統(tǒng)計期間給已經(jīng)統(tǒng)計的作品點贊叮姑,那就代表我們現(xiàn)在所使用的數(shù)據(jù)是不準確的。(有點繞)簡單點說据悔,就是統(tǒng)計時間要短传透、要短。幾百條數(shù)據(jù)一分鐘內(nèi)統(tǒng)計完就差不多了极颓。

客觀上人力實現(xiàn)不了朱盐。主客觀一致,論證結(jié)束菠隆。

協(xié)同工作兵琳,不是為了降低效率

雖然現(xiàn)在疫情期間,我們大多數(shù)的時間都在家里面骇径,但難免有的同學有安排自己的事情(最重要的莫過于充足的睡眠)躯肌,那么在這種情況下,做到在同一個時間進行統(tǒng)計破衔,就顯得更加困難了清女。

image

單純?yōu)榱恕昂献鳌倍献鳎卤豆Π胛福俸o利嫡丙。

image

總結(jié)一下,爬蟲自動獲取的優(yōu)點(人工統(tǒng)計的缺點)

  • 時間短读第、效率高
  • 準確度99.99%(只要程序不出BUG)
  • 無需協(xié)同工作曙博,減少人力資源
  • 機器不用睡覺
  • 最大限度的維護統(tǒng)計環(huán)節(jié)公平性

我在想,策劃的人有沒有想過這個實際工作量怜瞒,如果沒有程序輔助的話父泳。

238157262

爬蟲程序設計

我在網(wǎng)上找到了一些數(shù)據(jù)采集器,大多都是要收費,免費版的查詢次數(shù)也十分有限尘吗∈潘看來只能操刀子寫代碼了。

我是用 jQuery/Javascript 寫的腳本睬捶。本來想用 Vue 寫,因為最近 npm 有點問題近刘,同時我一直是秉承著能用手直接撕的活擒贸,就不要用牛刀的理念,jQuery足夠了觉渴。

基于Web開發(fā)的最大好處是全平臺兼容介劫。當我只能用手機時,也絲毫不妨礙我的日常工作案淋。后續(xù)如果想要本地化也可以快速封裝成App分發(fā)部署座韵。(微信小程序)

程序原理100字就能說完,通過對分享網(wǎng)頁進行分析踢京,獲取對應字段誉碴。

當輸入鏈接的時候程序會后臺會對網(wǎng)頁數(shù)據(jù)進行采集,最后將這些數(shù)據(jù)保存到一個數(shù)組里面瓣距,然后進行下一個網(wǎng)頁的數(shù)據(jù)采集黔帕。把每日搜索的鏈接保存成arrayStr,第二天把新增加的作品arrayStr.push()蹈丸,再做一次遍歷就完成了數(shù)據(jù)更新成黄。這樣子不就簡單許多了嗎?

image

加上網(wǎng)頁布局和樣式設計逻杖,不到1000行代碼奋岁。

爬蟲設計的初衷是人的重復性勞動交給機器去做,節(jié)約時間荸百、精力闻伶,留給那些更復雜的工作上,提高生產(chǎn)力管搪。

這是批量采集時虾攻,Debug Console 輸出效果如圖:

單個作品的輸出示例:


-w670

這就是配音統(tǒng)計的后臺實現(xiàn)方法。這一期閱讀量不錯的話更鲁,下一期談談配音賽的數(shù)據(jù)是如何分析的霎箍。

前文提到的方法一:

如何通過截圖導入數(shù)據(jù)?
OCR(Optical Character Recognition)光學字符識別技術

能干什么澡为? 拍圖識字

(以下技術向漂坏,建議小白從這行開始自動跳過,求給作者一個“在看”鼓勵一下??)

在Windows其實有系統(tǒng)自帶的OCR(MS Office 2007或更高版本依賴文件)主要是給OneNote用的。對于復雜文本的兼容和云計算相比還是比較弱顶别,移動開發(fā)時也不便于調(diào)用

# OCR component
%programfiles%\Common Files\microsoft shared\OCR\7.0\xocr3.psp.dll `

隨著云計算的發(fā)展谷徙,各大開發(fā)平臺供應商(如阿里云、騰訊云)提供了OCR識別的API供開發(fā)者直接調(diào)用驯绎。

理想的看完慧,每一個UIList子對象都是通過遍歷生成,只要把布局自定義配置好剩失,導入字段還是不難的屈尼。但實際操作上因為不同機型長寬比、DPR(Device Pixel Ratio)不同拴孤,模板很難搞脾歧,因此識別的時候準確率(準確識別數(shù)據(jù)同時正確匹配字段)比較低,之前測試的時候經(jīng)常把點贊量和作品名字連起來演熟。時間比較趕鞭执,來不及調(diào)教(深度學習)云計算就放棄了。而且列表里面的數(shù)據(jù)也少了芒粹,200多個作品存成xml才83KB兄纺,一張屏幕截圖估計就得2MB,對于這個項目需求是辕,OCR算是完敗了囤热。

不過,OCR的應用場景還是很多的获三,比如實景翻譯旁蔼、文獻檢索、掃描試卷疙教、拍照摘錄等等棺聊。感興趣的可以看一下阿里的OCR產(chǎn)品,實名認證后有500次免費的額度贞谓,嘗鮮足夠了限佩。

版權(quán)聲明:CC-BY-NC-SA 4.0

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
禁止轉(zhuǎn)載,如需轉(zhuǎn)載請通過簡信或評論聯(lián)系作者裸弦。
  • 序言:七十年代末祟同,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子理疙,更是在濱河造成了極大的恐慌晕城,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,657評論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件窖贤,死亡現(xiàn)場離奇詭異砖顷,居然都是意外死亡贰锁,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,889評論 3 394
  • 文/潘曉璐 我一進店門滤蝠,熙熙樓的掌柜王于貴愁眉苦臉地迎上來豌熄,“玉大人,你說我怎么就攤上這事物咳÷嘞眨” “怎么了?”我有些...
    開封第一講書人閱讀 164,057評論 0 354
  • 文/不壞的土叔 我叫張陵览闰,是天一觀的道長囱持。 經(jīng)常有香客問我,道長焕济,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,509評論 1 293
  • 正文 為了忘掉前任盔几,我火速辦了婚禮晴弃,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘逊拍。我一直安慰自己上鞠,他們只是感情好,可當我...
    茶點故事閱讀 67,562評論 6 392
  • 文/花漫 我一把揭開白布芯丧。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪匆帚。 梳的紋絲不亂的頭發(fā)上搓逾,一...
    開封第一講書人閱讀 51,443評論 1 302
  • 那天,我揣著相機與錄音骗露,去河邊找鬼岭佳。 笑死,一個胖子當著我的面吹牛萧锉,可吹牛的內(nèi)容都是我干的珊随。 我是一名探鬼主播,決...
    沈念sama閱讀 40,251評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼柿隙,長吁一口氣:“原來是場噩夢啊……” “哼叶洞!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起禀崖,我...
    開封第一講書人閱讀 39,129評論 0 276
  • 序言:老撾萬榮一對情侶失蹤衩辟,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后帆焕,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體惭婿,經(jīng)...
    沈念sama閱讀 45,561評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡不恭,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,779評論 3 335
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了财饥。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片换吧。...
    茶點故事閱讀 39,902評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖钥星,靈堂內(nèi)的尸體忽然破棺而出沾瓦,到底是詐尸還是另有隱情,我是刑警寧澤谦炒,帶...
    沈念sama閱讀 35,621評論 5 345
  • 正文 年R本政府宣布贯莺,位于F島的核電站,受9級特大地震影響宁改,放射性物質(zhì)發(fā)生泄漏缕探。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,220評論 3 328
  • 文/蒙蒙 一还蹲、第九天 我趴在偏房一處隱蔽的房頂上張望爹耗。 院中可真熱鬧,春花似錦谜喊、人聲如沸潭兽。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,838評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽山卦。三九已至,卻和暖如春诵次,著一層夾襖步出監(jiān)牢的瞬間账蓉,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,971評論 1 269
  • 我被黑心中介騙來泰國打工藻懒, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留剔猿,地道東北人。 一個月前我還...
    沈念sama閱讀 48,025評論 2 370
  • 正文 我出身青樓嬉荆,卻偏偏與公主長得像归敬,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子鄙早,可洞房花燭夜當晚...
    茶點故事閱讀 44,843評論 2 354

推薦閱讀更多精彩內(nèi)容