只要上過網(wǎng)的人,對(duì)驗(yàn)證碼那是熟的不能再熟了接癌。
這樣算比較人性化的心赶。
這樣的。
這樣的缺猛。
這樣,我沒見過的椭符。
當(dāng)你瞇著眼睛費(fèi)力分辨驗(yàn)證碼圖片中的“8”和“B”或者“O”和“0”時(shí)荔燎,你有沒有想過,這萬惡的驗(yàn)證碼销钝,存在的意義是什么有咨?
01
驗(yàn)證碼的起源
2000年初,雅虎(2000年代初期的Google)的首席研究員兼天才星探來到了Luis Von Ahn(路易斯.馮.安)所在的學(xué)校蒸健,然后進(jìn)行了一場(chǎng)名為“我們不知道如何解決的10個(gè)最大問題”的演講座享。
其中一個(gè)問題就是:垃圾郵件實(shí)在太多了,不知如何處理似忧。
有一伙人渣叛,特意制作了一種程序,可以全天無休止的批量注冊(cè)新賬號(hào)盯捌,并用這些賬號(hào)來做些不可描述的事情淳衙。
在公開版面上,刷評(píng)機(jī)器人可以用大量垃圾評(píng)論和廣告淹沒真人用戶留下的有價(jià)值的信息;
在金融交易平臺(tái)箫攀,腳本程序可以靠不停試驗(yàn)來暴力破解密碼肠牲;
在票務(wù)網(wǎng)站,就算你有三頭六臂搶不過自動(dòng)刷票的軟件靴跛;
網(wǎng)站被人一次性注冊(cè)幾百萬個(gè)垃圾帳號(hào)缀雳,然后產(chǎn)生各種垃圾信息,還可以操縱投票梢睛,使網(wǎng)站失去了公正性......
當(dāng)時(shí)的互聯(lián)網(wǎng)公司和用戶都是深受其害俏险,有苦難言。
而如何確定網(wǎng)絡(luò)請(qǐng)求是真人發(fā)送的扬绪,成了當(dāng)時(shí)維護(hù)網(wǎng)絡(luò)環(huán)境和保證用戶安全的最大問題竖独。
一位名叫路易斯(Luis Von Ahn)的天才程序員發(fā)現(xiàn):
人可以用肉眼很輕易的識(shí)別出圖片里面的東西和手寫的文本,而計(jì)算機(jī)卻很難辨認(rèn)挤牛。
基于這種思想莹痢,路易斯和他的同事合作開發(fā)了CAPTCHA?(Completely Automated Public Turing Test To Tell Computers and Humans Apart,區(qū)分人機(jī)的全自動(dòng)圖靈測(cè)試系統(tǒng))墓赴,也就是我們俗稱的驗(yàn)證碼竞膳。
那么驗(yàn)證碼是怎么杜絕那些計(jì)算機(jī)對(duì)網(wǎng)站進(jìn)行非法操作呢?
很簡(jiǎn)單诫硕,首先計(jì)算機(jī)是可以像人一樣去模擬登錄網(wǎng)頁(yè)的坦辟,但是當(dāng)它碰到驗(yàn)證碼的時(shí)候,計(jì)算機(jī)就傻眼了章办,它根本識(shí)別不出驗(yàn)證碼里面的東西锉走,但是人的話就一眼認(rèn)出來。
初代的驗(yàn)證碼僅僅只是一些扭曲的字母和數(shù)字藕届。
所謂上有政策挪蹭,下有對(duì)策,隨著計(jì)算機(jī)的識(shí)別技術(shù)越來越強(qiáng)休偶,驗(yàn)證碼的變得越來越復(fù)雜梁厉,形式、花樣百出踏兜。
到目前為止词顾,驗(yàn)證碼還是區(qū)別真人和計(jì)算機(jī)最有效的方法。
02
驗(yàn)證碼的進(jìn)化版
據(jù)統(tǒng)計(jì):全世界的網(wǎng)民每天數(shù)據(jù)驗(yàn)證碼將近2億次碱妆,而每次驗(yàn)證碼的輸入時(shí)間將近10秒肉盹,這樣算下來,每天網(wǎng)民要在驗(yàn)證碼上面花費(fèi)的時(shí)間50萬個(gè)小時(shí)山橄。
時(shí)間就是生命啊垮媒,路易斯看著這組數(shù)據(jù)陷入了沉思舍悯。
恰在當(dāng)時(shí),另一個(gè)問題有待解決:如何把浩如煙海的人類紙質(zhì)典籍?dāng)?shù)字化睡雇。
想要數(shù)字化文本萌衬,一種方法是手工錄入,但是這種方法費(fèi)時(shí)費(fèi)力它抱,還容易出現(xiàn)錄入錯(cuò)誤秕豫。
另一種方法是先掃描文本,再結(jié)合光學(xué)文字識(shí)別技術(shù)錄入文字观蓄,聽起來很美混移,但有些年代久遠(yuǎn)或本身質(zhì)量就差的文本掃描出來后實(shí)在是太模糊了。
為了利用這么多時(shí)間侮穿,也為了解決文本數(shù)字化的問題歌径,路易斯于2007年推出了新的驗(yàn)證碼系統(tǒng) reCAPTCHA(RE就是新的意思)
新的驗(yàn)證碼系統(tǒng)是如何解決問題的呢?
在 reCAPTCHA 驗(yàn)證碼系統(tǒng)里亲茅,一個(gè)驗(yàn)證碼會(huì)由兩部分構(gòu)成回铛。
第一部分和之前一樣,是自動(dòng)生成并且經(jīng)過變形處理的文字克锣,用來檢驗(yàn)?zāi)闶遣皇钦嫒恕?/p>
而第二部分茵肃,則是從無法識(shí)別的文本中截取出來的詞。
如果用戶正確輸入前半部分袭祟,那么 reCAPTCHA 就會(huì)假設(shè)用戶輸入的后半部分也是正確的验残,然后把錄入結(jié)果返回至 reCAPTCHA 的項(xiàng)目主機(jī)。
結(jié)果返回主機(jī)后巾乳,主機(jī)還會(huì)把這個(gè)結(jié)果再派發(fā)給多個(gè)用戶進(jìn)行交叉驗(yàn)證您没,以確保沒有不小心或故意輸錯(cuò)單詞的情況。
也就是說想鹰,真正有效的人機(jī)測(cè)試在驗(yàn)證碼的前半段已經(jīng)完成紊婉,而后半段,就是用戶在義務(wù)為人類文明做貢獻(xiàn)了辑舷。
比如:
1.?比如我們掃描《三國(guó)志》;
2.?將《三國(guó)志》掃描的圖片按照單個(gè)字進(jìn)行截炔燮何缓;
3.?假如隨機(jī)生成的詞A為『我』,掃描圖片的詞B為『關(guān)羽』还栓,當(dāng)然了用戶是不知道『我』還是『關(guān)羽』哪一個(gè)是系統(tǒng)產(chǎn)生的碌廓;
4.?只要用戶輸入正確的A的答案為『我』,那么系統(tǒng)也會(huì)認(rèn)為后面輸入詞就是掃描圖片上面的詞了剩盒;
5. 系統(tǒng)還會(huì)把結(jié)果B(關(guān)羽)再派發(fā)給多個(gè)用戶進(jìn)行交叉驗(yàn)證谷婆,以確保沒有不小心或故意輸錯(cuò)單詞的情況;
6.?以此類推,《三國(guó)志》就會(huì)被人在輸入驗(yàn)證碼的時(shí)候就被電子化了纪挎。
03
白嫖勞動(dòng)力的成果
So期贫,這個(gè)升級(jí)版的驗(yàn)證碼到底給世界做出了多大的貢獻(xiàn)呢?
2007 年推出之初异袄,reCAPTCHA 每天都能幫助錄入 3000 萬個(gè)字符通砍。
2008 年,這個(gè)數(shù)字飆升到了 6000 萬個(gè)烤蜕。
粗略統(tǒng)計(jì)封孙,在今天,全世界每天都有 2 億個(gè)字符通過 reCAPTCHA 錄入讽营,相當(dāng)于人類 15 萬小時(shí)的工作量虎忌。
也就是說,一個(gè)人要不吃不喝不睡連軸轉(zhuǎn)兩年半橱鹏,才能完成 reCAPTCHA 一天的工作量膜蠢。
到今天為止, reCAPTCHA 已經(jīng)錄入了從 1851 年至今的所有《紐約時(shí)報(bào)》蚀瘸,共計(jì) 1300 萬篇文章狡蝶。
除《紐約時(shí)報(bào)》外,reCAPTCHA 還數(shù)字化了超過 2500 萬本書贮勃,而全球的圖書數(shù)量約為 1.3 億本贪惹。
So,每次我們?cè)谳斎腧?yàn)證的的時(shí)候寂嘉,都是在給別人做義務(wù)勞工奏瞬,除此之外,你輸入的驗(yàn)證碼泉孩,還可能成為訓(xùn)練人工智能(AI)的養(yǎng)料硼端。
2009 年,谷歌以大約 2780 萬美元的價(jià)格收購(gòu)了 reCAPTCHA寓搬,并開始利用 reCAPTCHA 幫助標(biāo)注數(shù)據(jù)珍昨。
正如前文所說,reCAPTCHA 的前半段是在驗(yàn)證你是不是真人句喷,后半段就是真人為驗(yàn)證碼打工階段了镣典。
2012 年,Google 開始把谷歌街景中難以識(shí)別的門牌和路牌加入驗(yàn)證碼唾琼,請(qǐng)用戶幫忙標(biāo)注兄春。
如今,谷歌 AI 已經(jīng)能精確辨認(rèn)路牌上的文字和數(shù)字锡溯,準(zhǔn)確度和人眼不相上下赶舆。
當(dāng)有一天我們終于用上 Google 的自動(dòng)駕駛技術(shù)哑姚,依靠 AI 來辨識(shí)路牌和路燈時(shí),這背后不能不說沒有上千萬用戶無償標(biāo)注的苦勞芜茵。
不得不說的一點(diǎn)是叙量,運(yùn)用了谷歌AI技術(shù)的無人駕駛汽車Waymo,在自動(dòng)駕駛領(lǐng)域的地位是遙遙領(lǐng)先的夕晓,被看作是世界上最有可能最先做到完全自動(dòng)駕駛級(jí)別的公司宛乃。
這其中,當(dāng)然少不了廣大網(wǎng)友的免費(fèi)勞動(dòng)力的“辛勤勞作”蒸辆,想想每次點(diǎn)擊驗(yàn)證碼征炼,都是在為人類文明添磚加瓦或者推動(dòng)人工智能的發(fā)展,你是神馬感覺躬贡?
現(xiàn)今谆奥,收購(gòu)了reCAPCHA的谷歌已經(jīng)把大部分驗(yàn)證碼再次升級(jí)了。用戶只需要點(diǎn)擊一下“我不是機(jī)器人”按鈕拂玻,就能通過驗(yàn)證酸些。
饒是如此,驗(yàn)證碼也能從你身上蹭點(diǎn)油水檐蚜,這就是上一篇文章中說的大數(shù)據(jù)的恐怖之處了魄懂。
在你點(diǎn)擊按鈕的同時(shí),谷歌會(huì)監(jiān)控你的點(diǎn)擊行為闯第,追蹤你的鍵盤操作和鼠標(biāo)運(yùn)行軌跡市栗,甚至你打開的每一個(gè)網(wǎng)頁(yè)都可能被收集。
系統(tǒng)會(huì)用這些數(shù)據(jù)來判斷你是機(jī)器人還是真人咳短,與此同時(shí)填帽,給你推廣專門為你定制的廣告。
作者:筠筱
編輯:小天
圖片:網(wǎng)絡(luò)
文章部分?jǐn)?shù)據(jù)和圖片來源:你以為自己在填驗(yàn)證碼咙好,其實(shí)你是在給 Google 義務(wù)勞動(dòng)篡腌。