原文作者:Jason Arbon
譯者:泰斯特
前言
AI 已經(jīng)可以在國際象棋谤逼、圍棋再芋、智力問答中擊敗人類辜伟,最近我發(fā)現(xiàn) AI 甚至可以在測試工程師最擅長的領(lǐng)域 - 軟件測試 中擊敗人類氓侧。我花了非常多的時間和精力去研究如何讓機(jī)器使用神經(jīng)網(wǎng)絡(luò)、聚類导狡、或者強(qiáng)化學(xué)習(xí)技術(shù)去執(zhí)行測試用例约巷,這是一項(xiàng)非常繁重的工作。不過從某種程度上這也是相對重復(fù)的工作烘豌。既然 AI 已經(jīng)可以在城市中駕駛汽車和玩網(wǎng)絡(luò)游戲载庭,AI 也應(yīng)該可以幫助我們執(zhí)行那么一兩個測試用例。
正文
測試工程師的飯碗能否保桌扰濉囚聚?
不斷地有測試人員問我他們的飯碗是否還保得住,而我通常會給予肯定的回答标锄。為什么呢顽铸,有如下 3 點(diǎn)原因。
- 實(shí)際的測試用例還是需要測試人員編寫料皇,AI 只是幫助我們?nèi)?zhí)行用例谓松。
- 當(dāng)我被問到這些問題時,我周圍通常站了 50 - 1000 個測試工程師践剂,我怕被打死鬼譬。
- 在很長一段時間內(nèi),部分領(lǐng)域的測試是無法用機(jī)器代替人類去衡量的逊脯,特別是對軟件定性的質(zhì)量評估优质。
某些定性的質(zhì)量評估:這個軟件有多好用?這個軟件看起來怎么樣军洼?這個承載服務(wù)的界面可以讓用戶有依賴感嗎巩螃?就算是我們專業(yè)的測試人員,包括我匕争,有時候也會對某些質(zhì)量評估標(biāo)準(zhǔn)感到困惑避乏,所以如果我們?nèi)>@些領(lǐng)域,我們的飯碗當(dāng)然是可以保住的甘桑。
來一次人機(jī)對戰(zhàn)
我曾共同舉辦了一場專門為測試人員開設(shè)的教學(xué)課程拍皮,教學(xué)的內(nèi)容是 AI 和機(jī)器學(xué)習(xí)歹叮。當(dāng)時教室里一共有 70 位學(xué)員,這些學(xué)員可不是剛剛?cè)腴T測試的菜鳥春缕,他們都是專業(yè)的測試工程師盗胀,否則他們公司也不會支付昂貴的費(fèi)用派他們來我這里接受為期一周的培訓(xùn)。而且這些測試人員也是有相當(dāng)?shù)淖孕挪艜磉@里學(xué)習(xí) AI 和機(jī)器學(xué)習(xí)锄贼,他們都是非常棒的測試工程師票灰。
我當(dāng)時在課堂上問了他們一個定性的測試問題(當(dāng)然現(xiàn)在也在問你):
如果你正在查看一個登錄頁面,那么如何確定登錄頁面是否可信宅荤? 你如何評價(jià)頁面的可信度屑迂?
可以先頭腦風(fēng)暴一波......
再花點(diǎn)時間看一看上方的例子,你有什么想法了嗎冯键?
測試專家們的挑戰(zhàn)結(jié)果
當(dāng)時教室內(nèi)的其他 70 個人也在思考這個問題惹盼,沒有人馬上舉手給出答案,房間內(nèi)不停地傳出一陣陣思索的聲音惫确。照顧到大家從零開始思考并不是一件容易的事手报,我說我本來也不知道如何作答,并鼓勵大家繼續(xù)思考改化。在 70 名頂尖測試工程師集體思考了三分多鐘后掩蛤,我們終于有了一個好的開頭。前排的一位測試媛大膽地說出了她的想法:“外語”陈肛。如果登錄頁面的應(yīng)用屬于美國應(yīng)用商店但其中包含了一些非英文的單詞揍鸟,用戶就會不太明白這個頁面到底想告訴他們什么,那么該頁面就不太會被用戶所信任句旱。
又過了一陣子阳藻,第二只手終于舉了起來,這位舉手的勇士表示如果登錄頁面上存在一些比較著名的商標(biāo)或企業(yè)名稱谈撒,那么這個頁面可能更被用戶所信任腥泥。如果用戶發(fā)現(xiàn)登錄頁上存在谷歌或者微軟的商標(biāo),那么比起其他的頁面啃匿,這個頁面將更有可能被用戶所信賴道川。如果這個頁面上的商標(biāo)用戶連聽都沒聽說過,那么這個頁面將不那么可信立宜。
在本次頭腦風(fēng)暴上,我們大概消耗了 70 * 5 分鐘的人類計(jì)算耗時臊岸。這差不多是測試行業(yè)最頂尖人才 6 小時的腦力橙数。但目前為止,我們并沒有得出一種有效的方法去給登錄頁面的信賴度打分帅戒,我們僅僅討論出可能會對信賴度產(chǎn)生影響的 2 個關(guān)鍵點(diǎn)灯帮。
AI 的挑戰(zhàn)結(jié)果
好的崖技,我們?nèi)祟愐呀?jīng)在這道題上超時。因?yàn)殡S著時間的推移钟哥,我們只會變得越來越舉棋不定迎献、沒有耐心、覺得無聊腻贰。那么 AI 在這道題上的表現(xiàn)究竟如何呢......