第二章 垃圾識別術(shù)入門:如何找到 需要的信息及如何辨別信息真?zhèn)?/h1>
YahooPipes
是RSS混合器,幫助合并和重組各種各樣不同來源的數(shù)據(jù)。
好信息探測儀
集合了技術(shù)和人際交往的優(yōu)勢盹愚, 能夠增強人的信息力接奈。
WikiTrust
一個針對維基百科作者及加州大學圣克魯斯分校所有信息的信譽評估系統(tǒng)默终。用戶安裝了WikiTrust插件之后,維基百科的頁面就會以多種顏色顯示比原,不同 的顏色代表文字的不同信譽度。比之那些從未被修訂過的文本杠巡,經(jīng)歷過 一兩次修訂的文本信譽度要更高量窘。同樣的,如果經(jīng)過某些作者的編輯之后氢拥,相關(guān)詞條很長時間都沒有重新修訂的必要蚌铜,那么這些作者的信譽度就會提升。(下圖為例子)
Wiki-Watch
通過研究引用信息源的數(shù)量嫩海、作者的數(shù)量和剩余以及相關(guān)鏈接的數(shù)量來評估維基百科詞條的可靠性冬殃。(下圖為Wiki-Watch評級一篇維基百科文章。 橙色的文本段落由WikiTrust評為“不可信”出革。)
算法權(quán)威
一種認為自動的信息提取過程具有權(quán) 威性的看法造壮,這種過程通常是從廣泛的、不一定值得信任的信息源中獲取信息骂束。這個過程完全自動化耳璧,沒有任何人支持信息提取的結(jié)果,也沒 有任何人聲稱‘因為你相信我展箱,所以你得相信這些信息旨枯。
Truthy
它能追蹤 Twitter的謠言產(chǎn)生和傳播的過程。Truthy能夠探測到流言混驰,并且用流行病學模型來追溯流言的模型攀隔, 它還提供了一個“Truthy按鈕”皂贩,網(wǎng)民只要點擊這個按鈕,就能舉報相關(guān)的網(wǎng)站昆汹。
維基現(xiàn)實
在維基百科上發(fā)布虛假消息明刷,這樣就能 用維基百科創(chuàng)造出虛假的真實恶阴。
Flickr
雅虎旗下圖片分享網(wǎng)站荷并。由加拿大Ludicorp公司所開發(fā)設(shè)計。
書摘
1.信息力的三個元素:注意力技能孝偎、有效的技術(shù)以及社會化互動映皆。
2.使用這些工具挤聘,學生能夠調(diào)試自己的注意力,迅速地找到最新捅彻、最可靠的信息流组去,不論他們感興趣的話題是什么......還是其他跟特定行業(yè)有關(guān)的事件。這個過程的關(guān)鍵是“調(diào)試”和“信息流”步淹。
3.RSS推送从隆,訂閱了某個網(wǎng)站RSS 的用戶,將實時接收到網(wǎng)站的最新消息缭裆。Google Reader广料、Bloglines、 Netvibes以及蘋果的郵件應用等RSS閱讀器允許用戶通過RSS訂閱博客或 者其他信息幼驶。
4.在Netvibes閱讀器中艾杏,我......有一個面板專為我不斷變動的個人興趣而設(shè)。在每個面板下盅藻,我都能便捷地為不同的主題創(chuàng)建頁面购桑。比如說, 我有一個關(guān)于數(shù)字化新聞的Netvibes的面板氏淑,這個面板包含新工具勃蜘、新方法......等不同的頁面。我可以將這些頁面拖動到不同的位置上假残,讓它們以適合我注意力習慣的方式呈現(xiàn)出 來缭贡。
5.互聯(lián)網(wǎng)出現(xiàn)之前的信息發(fā)布模式是“先篩選后發(fā)布”, 編輯和出版商會先審核文本辉懒,然后再發(fā)布合格的信息阳惹;而如今,“先發(fā) 布后篩選”大行其道眶俩。
6.谷歌的 PageRank算法以用戶觀點的加權(quán)總和為基礎(chǔ)生成網(wǎng)頁排序莹汤,這種排序可能挺好,但不一定可靠颠印。易趣纲岭、Digg和Facebook等虛擬社區(qū)出于不同的原因也會收集用戶的看法抹竹。Digg是一個新聞網(wǎng)站,但用戶......只是點擊“Dig”和“Bury”按鈕為網(wǎng)站上的新聞報道和視頻投票止潮。Digg社區(qū)非常龐大窃判,一篇......的反饋可能讓一個小型服務器崩潰。這種基于受歡迎程度的排名很容易受人操縱.
7.權(quán)威實際上有雙重功能喇闸。求助于權(quán)威兢孝,一方面能夠增加獲 得正確信息的概率,另一方面能減少犯錯的懲罰仅偎。權(quán)威的信息源不僅僅 是你所信任的信息源;它還是你和你的‘參照系’中的人共同信任的信 息源雳殊。
8.有了谷歌橘沥,你的參照系變成了所有在網(wǎng)頁上引用鏈接的人;有了 Digg夯秃,Digg社區(qū)就是你的參照系座咆。必須將垃圾識別的技能應用到對所謂 的權(quán)威性社區(qū)的評估上。同時仓洼,這些社區(qū)本身也提供了利用集體智慧判 斷信息真?zhèn)蔚臋C會介陶。垃圾識別和知識查找如今成為了社會化的活動。
9.讓人們定制信息篩選器的信息力工具方興未艾色建。DataSift.net每天 篩選7000萬條推文哺呜,也就是每秒鐘800條,它使用的是基于規(guī)則的篩選機制(比如箕戳,“在個人簡介中不包含‘社會化媒體’字樣并且擁有500 名以上粉絲的用戶所發(fā)的推文中篩選出包含‘谷歌’字樣的推文某残,或 者“從我個人的Twitter小組‘科技品牌’中篩選出被轉(zhuǎn)發(fā)過100次以上 的推文×晡”)PARC則推出了實驗性的信息推薦系 統(tǒng)“zerozero88”玻墅,它“使用戶避免錯過深埋在信息大山中的重要的信 息,從而解決信息過載的問題”.
是RSS混合器,幫助合并和重組各種各樣不同來源的數(shù)據(jù)。
集合了技術(shù)和人際交往的優(yōu)勢盹愚, 能夠增強人的信息力接奈。
一個針對維基百科作者及加州大學圣克魯斯分校所有信息的信譽評估系統(tǒng)默终。用戶安裝了WikiTrust插件之后,維基百科的頁面就會以多種顏色顯示比原,不同 的顏色代表文字的不同信譽度。比之那些從未被修訂過的文本杠巡,經(jīng)歷過 一兩次修訂的文本信譽度要更高量窘。同樣的,如果經(jīng)過某些作者的編輯之后氢拥,相關(guān)詞條很長時間都沒有重新修訂的必要蚌铜,那么這些作者的信譽度就會提升。(下圖為例子)
通過研究引用信息源的數(shù)量嫩海、作者的數(shù)量和剩余以及相關(guān)鏈接的數(shù)量來評估維基百科詞條的可靠性冬殃。(下圖為Wiki-Watch評級一篇維基百科文章。 橙色的文本段落由WikiTrust評為“不可信”出革。)
一種認為自動的信息提取過程具有權(quán) 威性的看法造壮,這種過程通常是從廣泛的、不一定值得信任的信息源中獲取信息骂束。這個過程完全自動化耳璧,沒有任何人支持信息提取的結(jié)果,也沒 有任何人聲稱‘因為你相信我展箱,所以你得相信這些信息旨枯。
它能追蹤 Twitter的謠言產(chǎn)生和傳播的過程。Truthy能夠探測到流言混驰,并且用流行病學模型來追溯流言的模型攀隔, 它還提供了一個“Truthy按鈕”皂贩,網(wǎng)民只要點擊這個按鈕,就能舉報相關(guān)的網(wǎng)站昆汹。
在維基百科上發(fā)布虛假消息明刷,這樣就能 用維基百科創(chuàng)造出虛假的真實恶阴。
雅虎旗下圖片分享網(wǎng)站荷并。由加拿大Ludicorp公司所開發(fā)設(shè)計。
1.信息力的三個元素:注意力技能孝偎、有效的技術(shù)以及社會化互動映皆。
2.使用這些工具挤聘,學生能夠調(diào)試自己的注意力,迅速地找到最新捅彻、最可靠的信息流组去,不論他們感興趣的話題是什么......還是其他跟特定行業(yè)有關(guān)的事件。這個過程的關(guān)鍵是“調(diào)試”和“信息流”步淹。
3.RSS推送从隆,訂閱了某個網(wǎng)站RSS 的用戶,將實時接收到網(wǎng)站的最新消息缭裆。Google Reader广料、Bloglines、 Netvibes以及蘋果的郵件應用等RSS閱讀器允許用戶通過RSS訂閱博客或 者其他信息幼驶。
4.在Netvibes閱讀器中艾杏,我......有一個面板專為我不斷變動的個人興趣而設(shè)。在每個面板下盅藻,我都能便捷地為不同的主題創(chuàng)建頁面购桑。比如說, 我有一個關(guān)于數(shù)字化新聞的Netvibes的面板氏淑,這個面板包含新工具勃蜘、新方法......等不同的頁面。我可以將這些頁面拖動到不同的位置上假残,讓它們以適合我注意力習慣的方式呈現(xiàn)出 來缭贡。
5.互聯(lián)網(wǎng)出現(xiàn)之前的信息發(fā)布模式是“先篩選后發(fā)布”, 編輯和出版商會先審核文本辉懒,然后再發(fā)布合格的信息阳惹;而如今,“先發(fā) 布后篩選”大行其道眶俩。
6.谷歌的 PageRank算法以用戶觀點的加權(quán)總和為基礎(chǔ)生成網(wǎng)頁排序莹汤,這種排序可能挺好,但不一定可靠颠印。易趣纲岭、Digg和Facebook等虛擬社區(qū)出于不同的原因也會收集用戶的看法抹竹。Digg是一個新聞網(wǎng)站,但用戶......只是點擊“Dig”和“Bury”按鈕為網(wǎng)站上的新聞報道和視頻投票止潮。Digg社區(qū)非常龐大窃判,一篇......的反饋可能讓一個小型服務器崩潰。這種基于受歡迎程度的排名很容易受人操縱.
7.權(quán)威實際上有雙重功能喇闸。求助于權(quán)威兢孝,一方面能夠增加獲 得正確信息的概率,另一方面能減少犯錯的懲罰仅偎。權(quán)威的信息源不僅僅 是你所信任的信息源;它還是你和你的‘參照系’中的人共同信任的信 息源雳殊。
8.有了谷歌橘沥,你的參照系變成了所有在網(wǎng)頁上引用鏈接的人;有了 Digg夯秃,Digg社區(qū)就是你的參照系座咆。必須將垃圾識別的技能應用到對所謂 的權(quán)威性社區(qū)的評估上。同時仓洼,這些社區(qū)本身也提供了利用集體智慧判 斷信息真?zhèn)蔚臋C會介陶。垃圾識別和知識查找如今成為了社會化的活動。
9.讓人們定制信息篩選器的信息力工具方興未艾色建。DataSift.net每天 篩選7000萬條推文哺呜,也就是每秒鐘800條,它使用的是基于規(guī)則的篩選機制(比如箕戳,“在個人簡介中不包含‘社會化媒體’字樣并且擁有500 名以上粉絲的用戶所發(fā)的推文中篩選出包含‘谷歌’字樣的推文某残,或 者“從我個人的Twitter小組‘科技品牌’中篩選出被轉(zhuǎn)發(fā)過100次以上 的推文×晡”)PARC則推出了實驗性的信息推薦系 統(tǒng)“zerozero88”玻墅,它“使用戶避免錯過深埋在信息大山中的重要的信 息,從而解決信息過載的問題”.