論文地址 http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.104.2585&rep=rep1&type=pdf
項目背景
有一些網(wǎng)站比如豆瓣擁有幾十億結(jié)構(gòu)類似的圖片, 為了更好的壓縮, 豆瓣會對所有用戶的圖片生成大小一樣的縮略圖.
一些分析師想要在這些圖片中找到某個小姐姐的地址如同大海撈針, 畢竟在豆瓣只要有400個粉絲就是大V了.
傳統(tǒng)的圖片內(nèi)容hash工具, 比如pHash 在對圖片進行處理時, 需要經(jīng)過 壓縮->灰度化->LDT->編碼這樣的階段, 大量的矩陣運算會拖垮運行效率.
而這篇論文的方法由于算法復(fù)雜度可控, 更適合尋找完全相同的圖片
解決方法
對任何一個圖像進行穩(wěn)定打點, 然后通過比較取樣點, 和周圍的8個取樣點的明暗關(guān)系來形成一個 唯一的hash碼.
這種編碼的結(jié)果是定長的, 且沒有涉及到矩陣運算過程.所以相對來說速度會快的多.
因為它是通過采樣來比較明暗關(guān)系, 所以它無法處理圖片旋轉(zhuǎn), 切割, 顏色涂改的問題.
只能處理圖片的小范圍水印, 大小拉伸, 壓縮的問題.