前兩天一個很偶然的機會,帶著兒子逛進了科大訊飛的線下店硫眯,店員小姐強力向我推薦了一下他們的旗艦產(chǎn)品——訊飛翻譯機。她看我?guī)е鴥鹤臃接伲蛯ξ艺f:“國家中高考人機口語考試都是使用科大訊飛的標(biāo)準(zhǔn)媚创,從小拿這個機器練習(xí)口語,今后就能得高分”劈彪。她無心的這句推銷語竣蹦,對于我來說卻覺得十分驚訝。大家都知道沧奴,高考可是國考痘括,任何涉及到觸碰高考公正性的因素,都會立刻排查,一查到底纲菌。人機口語考試在很多地方都占了30 分左右挠日,國家怎么可能把這么重要的考試標(biāo)準(zhǔn)讓一家商業(yè)公司制定?但從這位推銷員的邏輯來看也沒有錯翰舌,很多地區(qū)的人機考試確實是使用訊飛的軟件嚣潜,訊飛的算法在決定著你的口語得分,這么說起來椅贱,訊飛的標(biāo)準(zhǔn)就是國家的標(biāo)準(zhǔn)懂算。
但我相信事實沒這么簡單,我總認(rèn)為國家不太可能把高考的評判標(biāo)準(zhǔn)讓一家公司來控制庇麦。帶著這個疑問计技,我搜尋了大量資料(射手理工男的好奇心呀!)山橄,終于把整個問題搞清楚了垮媒。只能說,有時候一個錯誤結(jié)論的獲得往往是因為你只掌握了一半的信息航棱,當(dāng)你突然看到全局的時候睡雇,就會發(fā)現(xiàn)之前看起來非常合理的邏輯是多么可笑。
在開始為大家揭秘以前饮醇,我們先搞清一個問題它抱,就是口語考試為什么不直接使用老師人工測評,而要借助人工智能朴艰?簡單的來說主要是因為教師資源不足抗愁。我們舉個例子,上海每年有5萬左右的高中考生呵晚,如果都需要老師來測評的話蜘腌,將組織大量的老師。而且不同老師評判標(biāo)準(zhǔn)不一致饵隙,這也會引起家長的質(zhì)疑撮珠,所以比較合理的方式最少要請兩位以上老師對同一位同學(xué)進行評判,這又進一步加大了對老師的需求金矛。并且芯急,口語測評是一個重復(fù)單調(diào)的事情,老師長時間進行測評驶俊,自身評判的標(biāo)準(zhǔn)也會不穩(wěn)定娶耍,也就是說每位老師每天還不能讓他們評測很長時間,這就更進一步要求有足夠多的教師資源饼酿。所以大家看出來了榕酒,口語測評這件事情非常耗費老師資源胚膊,而它又是一個重復(fù)單一的工作,這類工作最好交給機器去做想鹰。
那如果使用機器進行測評的話紊婉,測評打分的標(biāo)準(zhǔn)從哪里來,是機器自己決定辑舷,還是要參考延續(xù)老師打分的標(biāo)準(zhǔn)喻犁?這個問題是核心問題,如果是機器自己決定標(biāo)準(zhǔn)何缓,那機器背后的公司其實就掌握了國考的標(biāo)準(zhǔn)肢础。如果是要延續(xù)老師的打分標(biāo)準(zhǔn),那么這就和某家人工智能廠商自己的評判標(biāo)準(zhǔn)沒關(guān)系碌廓,人工智能提供商的目標(biāo)是要盡可能的模擬老師的打分標(biāo)準(zhǔn)乔妈。
對于大部分人來說,之所以能夠認(rèn)可訊飛推銷員所說的邏輯氓皱,認(rèn)可訊飛的標(biāo)準(zhǔn)就是國考聽說的標(biāo)準(zhǔn),就是因為大家對正式考試的流程不夠熟悉勃刨,以為考試分?jǐn)?shù)的評判就是機器閱卷后直接給出的波材。在這里,我就詳細(xì)的把中高考聽說閱卷流程向大家解釋一下:
搜集學(xué)生錄音數(shù)據(jù)
口語考試完畢后身隐,系統(tǒng)會自動搜集所有考生的錄音數(shù)據(jù)廷区,保存在U盤,封裝在密封袋中贾铝,由安保一路護送到教育部門所設(shè)定的批卷中心隙轻。這種方式防止了通過網(wǎng)絡(luò)上傳所帶來的黑客攻擊,數(shù)據(jù)篡改等問題垢揩。10%的試卷老師人工批改
所有的錄音數(shù)據(jù)進行入庫處理玖绿,然后抽樣10%的試卷,讓老師人工進行打分叁巨。并且每份試卷最少要兩位以上老師進行打分斑匪,對于多位老師打分差異比較大的試卷,會再次請總負(fù)責(zé)老師進行評定锋勺,最終給出分?jǐn)?shù)蚀瘸。機器學(xué)習(xí)
10% 的試卷已經(jīng)人工批改后,就開始把這些數(shù)據(jù)作為標(biāo)準(zhǔn)放到人工智能系統(tǒng)中進行訓(xùn)練庶橱,系統(tǒng)會充分學(xué)習(xí)老師打分的技巧贮勃,然后生成打分模型,計算模型的各種參數(shù)苏章,最終形成一套與老師打分標(biāo)準(zhǔn)基本一致的打分系統(tǒng)寂嘉。利用生成的打分系統(tǒng)對其他90% 的試卷進行打分
這套系統(tǒng)是充分學(xué)習(xí)老師的打分標(biāo)準(zhǔn)生成的奏瞬,接下來的90%的試卷,就直接使用這套系統(tǒng)進行打分垫释,從而大量減少了老師的工作丝格。抽樣檢查
最后這步也非常關(guān)鍵,機器對90% 的試卷打分后棵譬,老師還要進行抽樣檢查显蝌,直到確保機器是按照老師標(biāo)準(zhǔn)進行打分后,整個閱卷過程才算結(jié)束订咸。
通過以上流程曼尊,你應(yīng)該了解到,正式考試批卷的過程中脏嚷,人工智能的工作就是要最大化的學(xué)習(xí)老師批改的標(biāo)準(zhǔn)骆撇,然后把它批量應(yīng)用在其他試卷上。每次正式的中高考父叙,都是要經(jīng)過這個過程的神郊,各地區(qū)批改考卷的老師選擇不同的話,機器學(xué)習(xí)出來的標(biāo)準(zhǔn)都是不一樣的趾唱。所以這個標(biāo)準(zhǔn)并非是掌握在某家公司手中涌乳,而是牢牢掌握在國家手中,這樣的過程才能體現(xiàn)出公正原則甜癞。
最后夕晓,我想再解答一個大家關(guān)注的問題,如果中高考的標(biāo)準(zhǔn)是根據(jù)當(dāng)?shù)嘏砝蠋熕贫ǖ臉?biāo)準(zhǔn)悠咱,那平時訓(xùn)練的時候蒸辆,應(yīng)該以什么標(biāo)準(zhǔn)為好呢?其實各大口語測評軟件析既,都是搜集了大量的樣本數(shù)據(jù)躬贡,然后根據(jù)這些數(shù)據(jù)訓(xùn)練出了一個綜合的標(biāo)準(zhǔn),這個模型主要是為了幫助學(xué)生糾正口音眼坏,查漏補缺逗宜,并熟悉考試流程。原則上這類人機口語軟件都能起到類似效果空骚,因此重點不在于軟件纺讲,平時訓(xùn)練更多的應(yīng)該關(guān)注內(nèi)容,看看內(nèi)容是否是符合當(dāng)?shù)亟虒W(xué)特點囤屹,畢竟每個地區(qū)的題目類型和難度都不一樣熬甚,及早熟悉當(dāng)?shù)仡}目,對考試還是很有幫助的肋坚。
相信通過以上的分析乡括,大家對人機口考的流程已經(jīng)了解了肃廓,也知道口考的評判標(biāo)準(zhǔn)并不是由某一家公司制定的。整個中高考口語考試诲泌,看起來雖然是機器在打分盲赊,但機器是在模擬批卷老師的標(biāo)準(zhǔn),這個過程非常的公正敷扫,公開哀蘑,透明。人機口考中人工智能技術(shù)的運用葵第,并非為了替代老師绘迁,而是要以老師為標(biāo)準(zhǔn),幫助老師減少工作量卒密,今后如果再有任何公司聲稱自己是口語考試標(biāo)準(zhǔn)缀台,并以此向你推銷產(chǎn)品,你心里一定要清楚哮奇,對方就是在耍流氓膛腐。