導(dǎo)讀:圖像識(shí)別技術(shù)察蹲,連接著機(jī)器和這個(gè)一無(wú)所知的世界酿雪,幫助它越發(fā)了解這個(gè)世界顾复,并最終代替我們完成更多的任務(wù)奏瞬。
計(jì)算機(jī)視覺(jué)(computer vision)是模擬人類(lèi)視覺(jué)的人工智能技術(shù)布近,用機(jī)器來(lái)“看”圖像,“理解”圖像丝格。我們知道電腦中的所有圖片都是由無(wú)數(shù)像素點(diǎn)組成撑瞧,說(shuō)白了就是一團(tuán)馬賽克。因此計(jì)算機(jī)自身并沒(méi)有畫(huà)面概念显蝌。但是在人類(lèi)經(jīng)過(guò)數(shù)千萬(wàn)年的進(jìn)化中预伺,早已擁有了復(fù)雜而精密的識(shí)別和傳感系統(tǒng);而對(duì)只有寥寥幾十年歷史的計(jì)算機(jī)而言,利用計(jì)算機(jī)視覺(jué)技術(shù)讓它看懂圖像是一件很復(fù)雜的事情曼尊。計(jì)算機(jī)場(chǎng)景識(shí)別的發(fā)展之路才剛剛開(kāi)始酬诀,今天,小編就帶大家一起骆撇,了解一下圖像識(shí)別的前世今生瞒御。
熱鬧非凡的視覺(jué)識(shí)別和搜索
這些年計(jì)算機(jī)視覺(jué)識(shí)別和搜索這個(gè)領(lǐng)域非常熱鬧,出現(xiàn)了很多的創(chuàng)業(yè)公司神郊,大公司在這方面也花了很多力氣在做肴裙。大家可以從下面的這張圖里看到的一些例子。
亞馬遜出品的Firefly當(dāng)時(shí)引起了很大的轟動(dòng)雖然這個(gè)產(chǎn)品也很難說(shuō)是不是成功涌乳,但是當(dāng)時(shí)確實(shí)是很大膽的一個(gè)舉動(dòng)蜻懦。百度也有圖像搜索和圖像識(shí)別。Google很早也有了Google Goggles這個(gè)產(chǎn)品雖然技術(shù)跟現(xiàn)在有很大的差別夕晓。Pinterest在去年也有這樣的功能問(wèn)世宛乃,就是在它自己的分享照片上可以去搜相似的照片或者是相似的產(chǎn)品。阿里巴巴的拍立淘強(qiáng)調(diào)的是用自己手機(jī)拍照片去搜索網(wǎng)上相同或者相似的商品。
那么除了這些征炼,還有一些識(shí)圖搜索引擎也不得不提析既。
Tineye是典型的以圖找圖搜索引擎,輸入本地硬盤(pán)上的圖片或者輸入圖片網(wǎng)址谆奥,即可自動(dòng)幫你搜索相似圖片渡贾,搜索準(zhǔn)確度相對(duì)來(lái)說(shuō)還比較令人滿(mǎn)意。
百度正式上線(xiàn)了其最新的搜索功能——“識(shí)圖”雄右。該功能是百度基于相似圖片識(shí)別技術(shù)空骚,讓用戶(hù)通過(guò)上傳本地圖片或者輸入圖片的URL地址之后,百度再根據(jù)圖像特征進(jìn)行分析擂仍,進(jìn)而從互聯(lián)網(wǎng)中搜索出與此相似的圖片資源及信息內(nèi)容囤屹。
GazoPa搜索圖片時(shí),不依據(jù)關(guān)鍵詞進(jìn)行檢索逢渔,而是通過(guò)圖片自身的某些特征(例如色彩肋坚,形狀等信 息)來(lái)進(jìn)行搜索。
Live.com允許你進(jìn)行一次關(guān)鍵字搜索后再執(zhí)行相似性的搜索肃廓。你可以為L(zhǎng)ive索引中的任意一張圖片尋找相似的圖片智厌,但搜索結(jié)果看起來(lái)并不是很精確。
Terragalleria主要基于視覺(jué)上的相似性盲赊,而不考慮圖片的內(nèi)容铣鹏。
當(dāng)然還有一個(gè)值得提起的后起之秀——“拍圖購(gòu)”
繼拍立淘之后承接國(guó)內(nèi)電商圖搜領(lǐng)域的新橋梁,反饋速度快哀蘑,搜索準(zhǔn)確率達(dá)到80%诚卸,同時(shí)還能提供更多領(lǐng)域的圖像搜索服務(wù)。
圖像搜索——從火熱到?jīng)]落再到興起
下面我們回到圖像搜索歷史進(jìn)程上來(lái)绘迁,圖搜發(fā)展至今也是經(jīng)歷了不同的階段的合溺。
最早在二十世紀(jì)九十年代時(shí)那個(gè)時(shí)候叫做CBIR(Content-Based Image Retrieval)即基于內(nèi)容的圖像檢索。但是那時(shí)基本上只能在幾千缀台、幾萬(wàn)幅圖上進(jìn)行檢索而且檢索的效果很難保證棠赛。當(dāng)時(shí)有一個(gè)一直流行到現(xiàn)在的詞叫做“語(yǔ)義鴻溝”這也是當(dāng)時(shí)我們經(jīng)常用來(lái)質(zhì)疑基于圖像的搜索或CBIR到底靠不靠譜。因?yàn)楫?dāng)時(shí)的特征難以區(qū)分下圖所示的兩種Case膛腐。
所以這個(gè)方向到了2000年之后我們有時(shí)候開(kāi)玩笑把它叫做Sunset Project也就是像落日一樣沒(méi)有太大的希望了睛约。這種基于樣例的檢索其實(shí)在之前也經(jīng)常被人質(zhì)疑。
樣例從哪里來(lái)依疼?
如果我有了這個(gè)樣例為什么還要搜索呢痰腮?
當(dāng)然這個(gè)問(wèn)題從今天來(lái)看已經(jīng)不是問(wèn)題了!
因?yàn)樵谏蟼€(gè)世紀(jì)九十年代的時(shí)候獲取一個(gè)圖像的樣本還不是那么容易律罢。在手機(jī)相機(jī)那么普及的今天獲取一個(gè)圖像是易如反掌的所以今天一般沒(méi)有人會(huì)問(wèn)這個(gè)問(wèn)題。
圖像搜索的沒(méi)落直到2008年左右才有所起色當(dāng)時(shí)出現(xiàn)了一家叫TinEye的公司提供這樣一種網(wǎng)絡(luò)服務(wù)你提交一個(gè)圖片后它可以幫你找互聯(lián)網(wǎng)上跟此圖非常相似的圖片。這在當(dāng)時(shí)引起了非常多的討論也就是說(shuō)它解決了當(dāng)時(shí)那些技術(shù)無(wú)法解決的scalability的問(wèn)題误辑。
那么這個(gè)scalability是個(gè)什么意思呢沧踏?做圖像的檢索時(shí),當(dāng)圖片的量非常大是沒(méi)有辦法把Query圖像的特征與數(shù)據(jù)庫(kù)里面的圖像進(jìn)行一一對(duì)比的巾钉。以現(xiàn)在的計(jì)算能力如果圖像只有幾千個(gè)甚至上萬(wàn)個(gè)問(wèn)題都不是很大的翘狱。但是當(dāng)你的圖像再往大到千萬(wàn)、億級(jí)甚至到十億砰苍、千億級(jí)別的時(shí)候就沒(méi)有辦法了潦匈。
所以此時(shí)就要把圖片進(jìn)行索引。索引在文本搜索里面是通過(guò)倒排的方法來(lái)做這個(gè)是非常容易實(shí)現(xiàn)的赚导。但是圖像不一樣圖像的描述是它的特征而這個(gè)特征是一個(gè)向量茬缩。這個(gè)向量怎樣能夠有效地組織起來(lái)實(shí)現(xiàn)快速地檢索這是當(dāng)時(shí)TinEye系統(tǒng)往前走了一步的問(wèn)題。
但是索引這件事情解決了之后是不是就解決了基于內(nèi)容的圖像搜索問(wèn)題很遺憾實(shí)際上是沒(méi)有的吼旧。因?yàn)樗饕皇墙鉀Q了scalability的問(wèn)題凰锡,但是圖像的表征問(wèn)題也就是怎么樣有效描述這個(gè)圖像的問(wèn)題還沒(méi)有很好地解決。
如上所說(shuō)這個(gè)問(wèn)題就是
什么樣的特征才是有效的
即可以讓我們“認(rèn)為的”相似的圖像
在特征上相似并且也是我們認(rèn)為相似的這樣一個(gè)問(wèn)題圈暗。
這個(gè)問(wèn)題真正取得進(jìn)展確實(shí)是在深度學(xué)習(xí)出來(lái)之后它可以讓我們?nèi)グ凑兆约核胍_(dá)到的目標(biāo)去學(xué)習(xí)一個(gè)神經(jīng)網(wǎng)絡(luò)通過(guò)這個(gè)神經(jīng)網(wǎng)絡(luò)去抽取圖像的特征掂为。
圖像搜索的明天
展望圖像搜索和識(shí)別技術(shù)的未來(lái)小編認(rèn)為:
這可能不是某一個(gè)算法能解決的,
也不是僅憑深度學(xué)習(xí)就可以解決的员串,
更不是說(shuō)一個(gè)搜索系統(tǒng)积锅、識(shí)別系統(tǒng)就可以解決的。
我認(rèn)為是四個(gè)方面結(jié)合起來(lái)
數(shù)據(jù)瞭恰、用戶(hù)窝稿、模型和系統(tǒng)。這四個(gè)方面放在一起可能不斷地縮小語(yǔ)義鴻溝使得我們的搜索“所想”就能夠得到“所得”访忿。