10月25日,維權(quán)騎士發(fā)步了2017年Q3內(nèi)容行業(yè)版權(quán)報告猪腕,包括微信公眾號冗澈,百家號钦勘,頭條號陋葡,豆瓣等主流平臺。同時一些人對此報告發(fā)表了嘲諷彻采,稱微博腐缤、QQ空間等平臺由于侵權(quán)數(shù)據(jù)太大,會導(dǎo)致維權(quán)騎士服務(wù)器癱瘓肛响,所以沒被詳細(xì)列出來岭粤。
看到這種沒搞清楚事情因果關(guān)系的評論,我在辦公室里當(dāng)時就笑出了聲特笋。
在談微博和空間為何榜上無名之前剃浇,我們首先要搞清楚維權(quán)騎士對侵權(quán)的定義(算法上的),也就是在檢查一篇文章是否侵權(quán)的時候究竟檢查的是哪一部分算侵權(quán)猎物。
一篇文章的內(nèi)容分文字和圖片兩塊虎囚。
在檢查是否構(gòu)成侵權(quán)時,我們讓機器檢查蔫磨,也只能檢查的是文字內(nèi)容淘讥。為什么是文字內(nèi)容呢,因為字符在編碼表中的編號是唯一的堤如,即使使用了不同的編碼表蒲列,如Unicode、GB18030搀罢、BIG5蝗岖、UTF-8……只要比對編碼表,就可以輕松的知道雙方的文字內(nèi)容是否一樣榔至。
對于圖片檢查的困難主要源于2個方面:
一是識圖算法上的難度抵赢。利用圖片的編碼來檢索是不現(xiàn)實的,原因如下:
首先圖片沒有統(tǒng)一的壓縮算法,JPG要是世界第一好用的格式瓣俯,那怎么會有人搞個PNG出來呢杰标?GIF第一個不服啊,我能播動圖彩匕,你JPG能嗎腔剂?EPS也要會會你這JPG印出來究竟清晰不清晰。
其次圖片有分辨率一說驼仪,1M的原圖和100K的截圖肉眼看著區(qū)別不大掸犬,數(shù)據(jù)上可不是簡單的1/10。除非是一模一樣的兩張圖绪爸,更不用說兩張不同格式的圖片了湾碎。
所以目前無論是百度、淘寶以及其他主流識圖的算法都是根據(jù)色塊來檢索的奠货,那么即使在文章中使用的是原創(chuàng)圖片介褥,放到搜索引擎中的結(jié)果除了原圖之外還會有其他顏色相近,但實際上不相干的圖递惋。
大家都不想寫文章配了張風(fēng)景柔滔,結(jié)果提示你“您的圖片與以下圖片有74%的相似度,可能構(gòu)成抄襲”吧萍虽。
二是對于盜圖的界定睛廊。機器如何識別我文章里這張圖只是一張配圖,還是我這篇文章就是為了展示我的圖片作品杉编?
我引用了別人的圖片超全,文章相似度又應(yīng)該怎么算,圖片和文字的權(quán)重是怎樣設(shè)定的邓馒?
如果不能引用圖片嘶朱,那我寫的這個回答也“抄襲”了題主的截圖。
盜圖這事兒連阿里都得靠人工舉報绒净,維權(quán)騎士要是實現(xiàn)了這個功能见咒,那生意可就不局限于維權(quán)領(lǐng)域了。
微博和空間沒有上榜的原因是多方面的挂疆。我們先看一下微博和空間大V抄襲的模式是怎么樣的↓↓↓
為什么大家說微博官方爛泥扶不上墻改览?說的無非就是新浪一不嚴(yán)打抄襲,二不配合檢查缤言。
這就涉及到一個問題:我們?yōu)槭裁窗l(fā)微博宝当?
看一下微博的啟動頁↓↓↓
我們發(fā)微博的初衷不就是:唉,我覺得這事兒好好玩/mmp胆萧,發(fā)出來跟大家分享一下庆揩。
簡而言之俐东,微博官方對于內(nèi)容原創(chuàng)性是沒有要求的。
像上面截圖的知乎醬订晌,人家的邏輯就是:我也沒說這是我回答的虏辫,我就是刷知乎看到好玩的回答來分享一下。侵權(quán)锈拨?不好意思砌庄,你都發(fā)現(xiàn)了那我刪了吧。付費是永遠不可能付費轉(zhuǎn)載的奕枢。
還有大量公眾性的東西娄昆,比如天氣預(yù)報,比如新聞缝彬,這些東西混在一起萌焰,這就有了上面說的對于抄襲界定的問題。
除了界定的問題谷浅,抄襲形式也是一個重要的原因扒俯。
微博和空間的抄襲形式大部分都是截圖啊壳贪!
要從圖片中將抄襲的內(nèi)容糾出來陵珍,就需要借助OCR技術(shù)。和OCR比起來违施,文本檢查真的就只是簡單的匹配識別。
別忘了在此之前還得把帶文章的圖片和普通圖片區(qū)分開來瑟幕。
對于反查重我想磕蒲,道高一尺魔高一丈。洗稿現(xiàn)在都查不出來只盹,我弄點花式背景辣往,萌萌噠的字體,還不是易如反掌殖卑?完全不會影響人類閱讀站削,但是就讓你機器的識別正確率下去了。連識別的字都不正確孵稽,又談何鑒定抄襲许起?
這種浪費算力的事,等量子計算真正進入商用領(lǐng)域或許可以考慮一下菩鲜?
至于檢測內(nèi)容的來源园细,有兩種獲取方法:
1.和主流平臺合作,獲取官方數(shù)據(jù)接校,內(nèi)容的提供交給別人來做猛频,這樣比較節(jié)約自家服務(wù)器的性能。
2.就是自己到處爬,但是會受到爬蟲協(xié)議的制約鹿寻,比如說↓↓↓
淘寶頭條100%原創(chuàng)我是不信的睦柴。
新浪微博不提供自己平臺內(nèi)容的原因不是很明顯嗎,如果重復(fù)的算抄襲不讓發(fā)毡熏,還有什么人氣爱只?這是讓微博死啊招刹!