首先說(shuō)明,這里的圖片搜索并不是通過(guò)關(guān)鍵詞搜索咐低,而是通過(guò)圖片搜索圖片,或者通過(guò)圖片推薦圖片的場(chǎng)景袜腥。
目前還沒(méi)有一些數(shù)據(jù)說(shuō)明到底通過(guò)圖片搜索或推薦圖片的場(chǎng)景有多普遍见擦,但是作為一個(gè)經(jīng)常在淘寶上買(mǎi)買(mǎi)買(mǎi)的剁手黨自身體會(huì),我在淘寶常用的功能之一就是拍了照片在淘寶上搜同款羹令。另外最近也會(huì)逛逛pinterest鲤屡,在pinterest中也會(huì)有相似圖片推薦。
如果marketers 或者business owners了解一些圖片優(yōu)化技巧福侈,可能會(huì)讓自己的圖片或者產(chǎn)品有更多機(jī)會(huì)的曝光酒来。
做搜索引擎優(yōu)化或者推薦優(yōu)化與其它在線營(yíng)銷(xiāo)方式很不同一點(diǎn)是,需要了解搜索引擎或者推薦引擎的基本實(shí)現(xiàn)原理肪凛,當(dāng)你開(kāi)始對(duì)一些規(guī)推薦則有一些大致的了解的時(shí)候堰汉,就可以開(kāi)始利用它們了辽社。
無(wú)意中,正好看到阮一峰寫(xiě)了兩篇關(guān)于相似圖片判定應(yīng)用比較廣泛的幾種算法翘鸭,總結(jié)如下:
感知哈希算法:
1. 把所有圖片都縮小成同一尺寸滴铅,如 8*8 64個(gè)像素
2.? 把圖片轉(zhuǎn)變?yōu)?4級(jí)灰度,并且計(jì)算出一個(gè)圖片的灰度平均值
3. 把圖片的每一個(gè)像素都與這個(gè)平均值比較就乓,如果大于等于平均值記為1汉匙,否則記為0
4. 將上一步的比較結(jié)果,組合在一起生蚁,就構(gòu)成了一個(gè)64位的整數(shù)噩翠,即為圖片的fingerprints,比較圖片的fingerprints邦投,根據(jù)不相同的數(shù)據(jù)位的數(shù)量來(lái)判斷相似度绎秒。
顏色分布法:
我們知道,每一種顏色都可以通過(guò)rgba(即紅尼摹,綠见芹,藍(lán),透明度)來(lái)表示蠢涝,那么一張圖片的所有像素的顏色以這種方式表現(xiàn)出來(lái)玄呛,就會(huì)生成一個(gè)rgba直方圖,如下圖:
其中上方最后一張直方圖就是rgba疊加起來(lái)的效果和二。然后將該直方圖通過(guò)數(shù)學(xué)表達(dá)徘铝。當(dāng)然,因?yàn)閞gba取值范圍都是0-255惯吕,所以計(jì)算量會(huì)特別大惕它,通常的做法是進(jìn)行簡(jiǎn)化,最終會(huì)將直方圖表示為一個(gè)多為向量废登,這個(gè)向量就作為該圖片的fingerprint淹魄,然后可以通過(guò)皮爾遜相關(guān)系數(shù)(Pearson correlation coefficient)或者余弦相似(cosine simliarity)進(jìn)行相似計(jì)算。
內(nèi)容特征法
將原圖先轉(zhuǎn)變?yōu)榛叶葓D片堡距,再轉(zhuǎn)變成黑白圖片:
內(nèi)容特征法認(rèn)為甲锡,黑白輪廓相近,則兩張圖片也相近羽戒。
“顯然缤沦,前景色與背景色反差越大,輪廓就越明顯易稠。這意味著缸废,如果我們找到一個(gè)值,可以使得前景色和背景色各自的"類(lèi)內(nèi)差異最小"(minimizing the intra-class variance),或者"類(lèi)間差異最大"(maximizing the inter-class variance)企量,那么這個(gè)值就是理想的閾值测萎。”
將黑白圖片通過(guò)矩陣表示梁钾,矩陣的每個(gè)值對(duì)應(yīng)原圖的一個(gè)像素绳泉,0表示黑色逊抡,1表示白色姆泻。兩張圖片的矩陣不同之處越少,則圖片越相似冒嫡。
以上三種算法只是圖片相似度判斷中比較基本的三種方法拇勃,實(shí)際上,以圖搜圖孝凌,以及通過(guò)圖片推薦圖片的場(chǎng)景會(huì)更加復(fù)雜方咆。不過(guò)我們可以從上述三種算法中提煉出的信息是,相似圖片的判定與以下因素比較相關(guān):
1. 圖片中物體輪廓
2. 圖片的顏色
3. 圖片中物體 與背景色差
有了這些信息蟀架,我們就可以有針對(duì)性的做一些圖片優(yōu)化工作了:
1. 最好對(duì)產(chǎn)品的個(gè)角度進(jìn)行拍照
2. 產(chǎn)品的背景應(yīng)當(dāng)盡量簡(jiǎn)單瓣赂,以免對(duì)圖片中的產(chǎn)品識(shí)別產(chǎn)生影響
3. 可以為產(chǎn)品設(shè)置多種背景色
4. 非產(chǎn)品圖片的場(chǎng)景中,如Pinterest中分享的一些文字banner片拍,可以嘗試做多個(gè)煌集,不同顏色,不同風(fēng)格捌省,不同樣式等