互聯(lián)網(wǎng)和搜索引擎的出現(xiàn)吞歼,讓現(xiàn)代人對信息的獲取變得極其容易。但是塔猾,每個人的信息檢索能力差異明顯浆熔,甚至有人提出了 “搜商” 這個詞來評價一個人搜索信息的能力。
在一些文章中桥帆,我們經(jīng)骋皆觯可以看到作者旁征博引,使用了大量的案例老虫、統(tǒng)計數(shù)據(jù)叶骨、文獻等。一方面祈匙,是這些作者擁有海量的閱讀量忽刽,另一方面也是這些作者更善于使用互聯(lián)網(wǎng)去獲取數(shù)據(jù)。
因此夺欲,互聯(lián)網(wǎng)信息檢索是一個非常重要的能力跪帝。這里,我整理了一些常用的信息檢索材料些阅,希望能幫助到寫作和需要在網(wǎng)絡中獲取數(shù)據(jù)的人們伞剑。
搜索引擎
搜索引擎大家都會使用,但是有一些小的技巧可以幫助我們讓搜索引擎工作得更準確和高效市埋。
精確搜索黎泣。 使用雙引號可以實現(xiàn)精確搜索,會完全匹配引號內(nèi)的關鍵詞缤谎,搜索引擎不會進行分詞處理抒倚。例如,搜索 “操作系統(tǒng)”坷澡,如果不使用雙引號會被智能拆詞托呕,返回操作、系統(tǒng)、操作系統(tǒng)等內(nèi)容项郊。
站內(nèi)搜索馅扣。 使用 “site:域名 + 關鍵詞” 可以進行對某個網(wǎng)站內(nèi)進行搜索。這個功能非常實用呆抑,比如岂嗓,你需要搜索維基百科中關于 java 的詞條汁展,只需要使用 “site:wikipedia.org java” 語法就可以只從維基百科中獲得內(nèi)容鹊碍。
文件類型匹配。 使用 “關鍵詞 filetype:文件類型”可以搜索出需要類型的文件食绿。但是需要注意侈咕,有些搜索引擎支持的文件類型不多,常用的就是 pdf器紧、doc耀销、ppt 等。
通配符搜索铲汪。 使用通配符 “*” 可以讓搜索引擎更好的獲取需要匹配的內(nèi)容熊尉。比如需要搜索,柏拉圖的《理想國》掌腰,只記得前面 “理想” 兩個字狰住,幾乎不能搜索出需要的內(nèi)容,可以使用通配符減少干擾齿梁。
邏輯表達式催植。 使用邏輯表達式 “AND”、“OR”勺择、“-”创南,可以表達并、或省核、非三種邏輯語句稿辙,比如你需要搜索電視臺,但是不需要中央電視臺的內(nèi)容气忠,可以使用 ”電視臺 - 中央電視臺“邓深。不過,不同的搜索引擎支持的情況不一樣笔刹。
書名號芥备。 使用書名號可以過濾書籍、電影和其他類型的作品舌菜。使用書名號可以排除大量干擾萌壳,比如輸入《理想國》可以獲得只和出版物相關的內(nèi)容。
使用搜索引擎的高級方法,不僅可以幫我們快速地找到需要的內(nèi)容袱瓮,還可以取得意想不到的效果缤骨。比如,使用精確搜索的時候尺借,由于關鍵詞的原因绊起,搜索引擎的廣告推廣會大大減少。
文獻檢索
除了做科研的人群高度依賴文獻之外燎斩,軟件開發(fā)有時候也需要查詢一些文獻資料虱歪,避免自己盲目試錯。在寫一些文章栅表、材料時候需要強有力的證據(jù)笋鄙,也可以查詢一些論文、期刊等材料佐證自己的觀點怪瓶。
對于國內(nèi)外的文獻檢索方式不同萧落,也有一些注意事項需要關注。
文獻檢索方式
文獻檢索可以通過不同的方式洗贰。如果知道標題找岖,可以通過標題檢索。也可以通過文獻中的關鍵詞敛滋、摘要來進行搜索许布。如果知道了 DOI 可以直接通過 DOI 檢索, DOI 相當于文獻的一個身份證號碼矛缨。
DOI 全稱為DigitalObject Unique Identifier爹脾,是指數(shù)字對象唯一標識符。目前箕昭,大部分文獻都有了 DOI灵妨。DOI 的格式分為前綴和后綴兩部分組成,之間用“/”分開落竹。前綴相對于網(wǎng)絡域名泌霍,由國際數(shù)字對象識別號基金會發(fā)放,后綴可以由發(fā)布者確定述召。
中文文獻還可以使用”中圖分類號“來在特定分類下尋找自己想要的資源朱转,以及”文獻標志碼“來區(qū)別來文獻的性質(zhì)。
例如《計算機科學與技術(shù)》期刊論文 《基于面向?qū)ο笏枷氲能浖到y(tǒng)分析與設計》中积暖。中圖分類號為 TB 111.521 說明了它是中國圖書館分類”工業(yè)技術(shù)“的子類下藤为。 文獻標志碼為 A 說明是理論與應用研究學術(shù)論文。doi:10.3969/j.issn.1672-5468.2020.06.0夺刑,可以在相關數(shù)據(jù)庫中精確定位該文章缅疟。
文獻檢索的渠道
文獻檢索的渠道一般有搜索引擎的學術(shù)頻道分别,常見的有 Google 學術(shù)、百度學術(shù)存淫,以及文獻庫知網(wǎng)耘斩、維普數(shù)據(jù)庫。一般來說搜索引擎的檢索能力更強桅咆,不過也必須跳轉(zhuǎn)到專業(yè)數(shù)據(jù)庫訪問內(nèi)容括授。一般專業(yè)的數(shù)據(jù)都需要收費,免費賬戶只能看到摘要信息岩饼。
下面是幾個比較主流和常用的文獻檢索和下載的渠道荚虚。
Google 學術(shù) https://scholar.google.com。 Google 學術(shù)可以檢索中英文文獻材料忌愚,如果 Google學術(shù)是直接從開放的電子期刊中檢索到的曲管,還可以直接下載却邓。同時硕糊,還可以獲取相關文章和來源版本,檢索能力和準確性都比較高腊徙。唯一不足就是無法大部分檢索的內(nèi)容無法直接下載简十。
知網(wǎng) https://www.cnki.net/。 知網(wǎng)是國內(nèi)專業(yè)的文獻數(shù)據(jù)庫撬腾,號稱是中國知識基礎設施工程螟蝙。知網(wǎng)的文獻收入非常全,不僅僅是期刊論文民傻,還包含了專利和標準胰默。由于是專業(yè)的文獻數(shù)據(jù)庫,因此費用也比較高漓踢。如果想獲得免費的下載渠道牵署,可以使用大學校園網(wǎng)、圖書館電子期刊獲得部分收費資源喧半。
sci-hub奴迅。 如果獲得了文獻的 DOI,可以通過 sci-hub 自由的下載 90% 左右的外文文獻挺据。sci-hub 的作者 Alexandra Elbakyan 通過特定的技術(shù)聚合了這個大學取具、圖書館的渠道資源,實現(xiàn)了自由下載扁耐。sci-hub 也提供了 Chrome 插件的下載模式暇检,讓下載更加方便。
統(tǒng)計數(shù)據(jù)
統(tǒng)計數(shù)據(jù)對于科學的研究的意義不言而喻婉称,也是決策系統(tǒng)的技術(shù)块仆,通過引用一些統(tǒng)計數(shù)據(jù)心墅,可以增加文章和報告的說服力。
統(tǒng)計數(shù)據(jù)一般來源兩個方面榨乎。一部分是國家單位或者機構(gòu)按照年度怎燥、季度公布的統(tǒng)計信息,另一方面來源于一些學界對某個行業(yè)的研究蜜暑,這些內(nèi)容可以在研究報告中獲得铐姚。
國家統(tǒng)計局 https://data.stats.gov.cn/。 國家統(tǒng)計局會公布國內(nèi)各種社會和經(jīng)濟統(tǒng)計數(shù)據(jù)肛捍,以及趨勢分析隐绵。可以做為主要的拙毫、可靠的統(tǒng)計數(shù)據(jù)來源依许。國家數(shù)據(jù)還可以根據(jù)季度、月度檢索數(shù)據(jù)缀蹄。
github-awesome-public-datasets峭跳。awesome-public-datasets 是一個開源的開放數(shù)據(jù)聚合倉庫,它可以作為一個非常全面的數(shù)據(jù)獲取渠道缺前,包含各個細分領域的數(shù)據(jù)庫資源蛀醉,自然科學和社會科學的覆蓋都很全面。
皮書數(shù)據(jù)庫 https://www.pishu.com.cn/衅码。 皮書數(shù)據(jù)庫可以獲得各個行業(yè)的研究報告拯刁。一般白皮書為政府工作報告,藍皮書為行業(yè)研究機構(gòu)的研究報告逝段。皮書中垛玻,一般不僅僅有統(tǒng)計數(shù)據(jù),還有行業(yè)趨勢和分析奶躯。
指數(shù)平臺帚桩。 指數(shù)也算一種特殊的統(tǒng)計數(shù)據(jù),不過它是經(jīng)過特定的數(shù)據(jù)處理方法加工而成巫糙,往往和特定的行業(yè)有關朗儒。比如百度指數(shù)提供了搜索關鍵詞的熱度排名;國家統(tǒng)計局提供了消費物價指數(shù)参淹;股市中有中證指數(shù)用于指數(shù)基金投資醉锄。
還有一些比較專業(yè)的行業(yè)數(shù)據(jù)機構(gòu),比如前瞻數(shù)據(jù)庫浙值、中宏數(shù)據(jù)庫恳不,這些數(shù)據(jù)提供商一般收費,會提供額外的決策指南开呐。
文/Thoughtworks 林寧
原文鏈接:信息檢索指南-Thoughtworks洞見