如何看待維權(quán)騎士最新發(fā)布侵權(quán)排行中微博和QQ空間榜上無名刊殉?

10月25日,維權(quán)騎士發(fā)步了2017年Q3內(nèi)容行業(yè)版權(quán)報告猪腕,包括微信公眾號冗澈,百家號钦勘,頭條號陋葡,豆瓣等主流平臺。同時一些人對此報告發(fā)表了嘲諷彻采,稱微博腐缤、QQ空間等平臺由于侵權(quán)數(shù)據(jù)太大,會導(dǎo)致維權(quán)騎士服務(wù)器癱瘓肛响,所以沒被詳細(xì)列出來岭粤。

看到這種沒搞清楚事情因果關(guān)系的評論,我在辦公室里當(dāng)時就笑出了聲特笋。

在談微博和空間為何榜上無名之前剃浇,我們首先要搞清楚維權(quán)騎士對侵權(quán)的定義(算法上的),也就是在檢查一篇文章是否侵權(quán)的時候究竟檢查的是哪一部分算侵權(quán)猎物。

一篇文章的內(nèi)容分文字和圖片兩塊虎囚。

在檢查是否構(gòu)成侵權(quán)時,我們讓機器檢查蔫磨,也只能檢查的是文字內(nèi)容淘讥。為什么是文字內(nèi)容呢,因為字符在編碼表中的編號是唯一的堤如,即使使用了不同的編碼表蒲列,如Unicode、GB18030搀罢、BIG5蝗岖、UTF-8……只要比對編碼表,就可以輕松的知道雙方的文字內(nèi)容是否一樣榔至。

對于圖片檢查的困難主要源于2個方面:

一是識圖算法上的難度抵赢。利用圖片的編碼來檢索是不現(xiàn)實的,原因如下:

首先圖片沒有統(tǒng)一的壓縮算法,JPG要是世界第一好用的格式瓣俯,那怎么會有人搞個PNG出來呢杰标?GIF第一個不服啊,我能播動圖彩匕,你JPG能嗎腔剂?EPS也要會會你這JPG印出來究竟清晰不清晰。

其次圖片有分辨率一說驼仪,1M的原圖和100K的截圖肉眼看著區(qū)別不大掸犬,數(shù)據(jù)上可不是簡單的1/10。除非是一模一樣的兩張圖绪爸,更不用說兩張不同格式的圖片了湾碎。

所以目前無論是百度、淘寶以及其他主流識圖的算法都是根據(jù)色塊來檢索的奠货,那么即使在文章中使用的是原創(chuàng)圖片介褥,放到搜索引擎中的結(jié)果除了原圖之外還會有其他顏色相近,但實際上不相干的圖递惋。

大家都不想寫文章配了張風(fēng)景柔滔,結(jié)果提示你“您的圖片與以下圖片有74%的相似度,可能構(gòu)成抄襲”吧萍虽。

二是對于盜圖的界定睛廊。機器如何識別我文章里這張圖只是一張配圖,還是我這篇文章就是為了展示我的圖片作品杉编?

我引用了別人的圖片超全,文章相似度又應(yīng)該怎么算,圖片和文字的權(quán)重是怎樣設(shè)定的邓馒?

如果不能引用圖片嘶朱,那我寫的這個回答也“抄襲”了題主的截圖。

盜圖這事兒連阿里都得靠人工舉報绒净,維權(quán)騎士要是實現(xiàn)了這個功能见咒,那生意可就不局限于維權(quán)領(lǐng)域了。

微博和空間沒有上榜的原因是多方面的挂疆。我們先看一下微博和空間大V抄襲的模式是怎么樣的↓↓↓

為什么大家說微博官方爛泥扶不上墻改览?說的無非就是新浪一不嚴(yán)打抄襲,二不配合檢查缤言。

這就涉及到一個問題:我們?yōu)槭裁窗l(fā)微博宝当?

看一下微博的啟動頁↓↓↓

我們發(fā)微博的初衷不就是:唉,我覺得這事兒好好玩/mmp胆萧,發(fā)出來跟大家分享一下庆揩。

簡而言之俐东,微博官方對于內(nèi)容原創(chuàng)性是沒有要求的。

像上面截圖的知乎醬订晌,人家的邏輯就是:我也沒說這是我回答的虏辫,我就是刷知乎看到好玩的回答來分享一下。侵權(quán)锈拨?不好意思砌庄,你都發(fā)現(xiàn)了那我刪了吧。付費是永遠不可能付費轉(zhuǎn)載的奕枢。

還有大量公眾性的東西娄昆,比如天氣預(yù)報,比如新聞缝彬,這些東西混在一起萌焰,這就有了上面說的對于抄襲界定的問題。

除了界定的問題谷浅,抄襲形式也是一個重要的原因扒俯。

微博和空間的抄襲形式大部分都是截圖啊壳贪!

要從圖片中將抄襲的內(nèi)容糾出來陵珍,就需要借助OCR技術(shù)。和OCR比起來违施,文本檢查真的就只是簡單的匹配識別。

別忘了在此之前還得把帶文章的圖片和普通圖片區(qū)分開來瑟幕。

對于反查重我想磕蒲,道高一尺魔高一丈。洗稿現(xiàn)在都查不出來只盹,我弄點花式背景辣往,萌萌噠的字體,還不是易如反掌殖卑?完全不會影響人類閱讀站削,但是就讓你機器的識別正確率下去了。連識別的字都不正確孵稽,又談何鑒定抄襲许起?

這種浪費算力的事,等量子計算真正進入商用領(lǐng)域或許可以考慮一下菩鲜?

至于檢測內(nèi)容的來源园细,有兩種獲取方法:

1.和主流平臺合作,獲取官方數(shù)據(jù)接校,內(nèi)容的提供交給別人來做猛频,這樣比較節(jié)約自家服務(wù)器的性能。

2.就是自己到處爬,但是會受到爬蟲協(xié)議的制約鹿寻,比如說↓↓↓

淘寶頭條100%原創(chuàng)我是不信的睦柴。

新浪微博不提供自己平臺內(nèi)容的原因不是很明顯嗎,如果重復(fù)的算抄襲不讓發(fā)毡熏,還有什么人氣爱只?這是讓微博死啊招刹!

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末恬试,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子疯暑,更是在濱河造成了極大的恐慌训柴,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,496評論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件妇拯,死亡現(xiàn)場離奇詭異幻馁,居然都是意外死亡,警方通過查閱死者的電腦和手機越锈,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,407評論 3 392
  • 文/潘曉璐 我一進店門仗嗦,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人甘凭,你說我怎么就攤上這事稀拐。” “怎么了丹弱?”我有些...
    開封第一講書人閱讀 162,632評論 0 353
  • 文/不壞的土叔 我叫張陵德撬,是天一觀的道長。 經(jīng)常有香客問我躲胳,道長蜓洪,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,180評論 1 292
  • 正文 為了忘掉前任坯苹,我火速辦了婚禮隆檀,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘粹湃。我一直安慰自己恐仑,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 67,198評論 6 388
  • 文/花漫 我一把揭開白布再芋。 她就那樣靜靜地躺著菊霜,像睡著了一般。 火紅的嫁衣襯著肌膚如雪济赎。 梳的紋絲不亂的頭發(fā)上鉴逞,一...
    開封第一講書人閱讀 51,165評論 1 299
  • 那天记某,我揣著相機與錄音,去河邊找鬼构捡。 笑死液南,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的勾徽。 我是一名探鬼主播滑凉,決...
    沈念sama閱讀 40,052評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼喘帚!你這毒婦竟也來了畅姊?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,910評論 0 274
  • 序言:老撾萬榮一對情侶失蹤吹由,失蹤者是張志新(化名)和其女友劉穎若未,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體倾鲫,經(jīng)...
    沈念sama閱讀 45,324評論 1 310
  • 正文 獨居荒郊野嶺守林人離奇死亡粗合,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,542評論 2 332
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了乌昔。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片隙疚。...
    茶點故事閱讀 39,711評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖磕道,靈堂內(nèi)的尸體忽然破棺而出供屉,到底是詐尸還是另有隱情,我是刑警寧澤捅厂,帶...
    沈念sama閱讀 35,424評論 5 343
  • 正文 年R本政府宣布贯卦,位于F島的核電站,受9級特大地震影響焙贷,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜贿堰,卻給世界環(huán)境...
    茶點故事閱讀 41,017評論 3 326
  • 文/蒙蒙 一辙芍、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧羹与,春花似錦故硅、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,668評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至腾誉,卻和暖如春徘层,著一層夾襖步出監(jiān)牢的瞬間峻呕,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,823評論 1 269
  • 我被黑心中介騙來泰國打工趣效, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留瘦癌,地道東北人。 一個月前我還...
    沈念sama閱讀 47,722評論 2 368
  • 正文 我出身青樓跷敬,卻偏偏與公主長得像讯私,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子西傀,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,611評論 2 353

推薦閱讀更多精彩內(nèi)容