第一章
1.1 信息組織的環(huán)境與背景
- 信息檢索工具的變化
- 手工檢索時(shí)代:目錄、題錄狞洋、索引等。
- 計(jì)算機(jī)檢索時(shí)代:各種檢索系統(tǒng)绿店,核心是數(shù)據(jù)庫吉懊。
- 網(wǎng)絡(luò)檢索時(shí)代:檢索型、目錄型假勿、混合型檢索工具借嗽。
- 各種檢索工具的涌現(xiàn),目前互聯(lián)網(wǎng)上運(yùn)行的搜索引擎至少有幾千種之多转培。
- 信息檢索技術(shù)的進(jìn)步
- 按照信息存儲(chǔ)的載體和實(shí)現(xiàn)查找的技術(shù)手段恶导,信息檢索可以分為手工檢索、機(jī)械檢索堡距、光電檢索甲锡、計(jì)算機(jī)檢索。
- 網(wǎng)絡(luò)信息檢索采用的檢索技術(shù)包括:布爾邏輯檢索羽戒、自然語言檢索、多語種檢索虎韵、字段檢索易稠、區(qū)分大小寫檢索、限制檢索包蓝、二次檢索驶社、自然語言檢索、多語種檢索测萎、加權(quán)檢索亡电、模糊檢索、概念檢索硅瞧、相關(guān)反饋檢索等份乒。
1.2 信息組織的相關(guān)概念與內(nèi)容
什么是組織
組織是一種為了創(chuàng)造次序與結(jié)構(gòu)的有意識(shí)的行為什么是組織系統(tǒng)
對(duì)資源進(jìn)行有目的性地分類和提供資源交互的集合。
組織系統(tǒng)包括兩個(gè)方面:資源與交互組織系統(tǒng)的三層體系
用戶界面腕唧、業(yè)務(wù)邏輯或辖、數(shù)據(jù)組織對(duì)象的種類
物理實(shí)體:實(shí)體書、地圖枣接、CD颂暇、DVD
關(guān)于物理實(shí)體的信息:圖書館卡片目錄、傳感器和射頻識(shí)別標(biāo)簽
數(shù)字資源:電子郵件但惶、電子書耳鸯、MP3湿蛔、視頻。
關(guān)于數(shù)字資源的信息:數(shù)字圖書館目錄县爬、門戶網(wǎng)站阳啥、聚合網(wǎng)站組織鏈接到其他數(shù)字資源資源、文獻(xiàn)與館藏各指什么
資源通常上指一切能夠支持目標(biāo)導(dǎo)向活動(dòng)的有價(jià)值的事物捌省。
文獻(xiàn)是通常用于數(shù)字或物理形式的信息資源苫纤。
館藏是為有些目的所選擇的一組資源。什么是元數(shù)據(jù)
元數(shù)據(jù)是描述其它數(shù)據(jù)的數(shù)據(jù)纲缓,或者說是用于提供某種資源的有關(guān)信息的結(jié)構(gòu)數(shù)據(jù)卷拘。信息組織是什么
信息+組織
是根據(jù)信息的內(nèi)容特征和外部特征,采用一定的原則和方法祝高,對(duì)信息進(jìn)行加工處理栗弟,使之有序可用的過程。
1.3 組織活動(dòng)決策的6個(gè)方面
-
What is being organized工闺?
- 不同組織系統(tǒng)的組織對(duì)象存在不同乍赫,如圖書館、博物館陆蟆、檔案館
- 當(dāng)所需組織的資源包含相應(yīng)的信息內(nèi)容時(shí)雷厂,需要考慮的不僅是物理屬性,更
- 多是概念或知識(shí)方面的特征叠殷,因而具有一定的挑戰(zhàn)性改鲫。
越來越多的組織系統(tǒng)處理和組織的資源是原生數(shù)字資源
-
Why is it being organized?
- The central purpose of systems for organizing information [is] bringing like things together and differentiating among them.(信息組織的中心目的是集合相似的事物并加以區(qū)別)
- 交互是組織系統(tǒng)的原因
-
How much is it being organized?
- 不是所有文獻(xiàn)都應(yīng)具有相同的組織程度
- 影響因素:
- 范圍和規(guī)模
- 目標(biāo)用戶數(shù)量和多樣性
- 可用技術(shù)
-
When is it being organized?
- 資源被創(chuàng)造時(shí)
- 被添入一些集合時(shí)
- 被使用時(shí)
- 從不
- 一直(對(duì)于連續(xù)或者增量的資源)
-
How or by whom, or by what computational processes, is itbeing organized?
- 作者或創(chuàng)作者
- 專業(yè)組織者
- 普通用戶
- 機(jī)構(gòu)用戶
- 自動(dòng)處理
- 組織活動(dòng)從資源產(chǎn)生時(shí)就開始發(fā)生,嵌入到資源的整個(gè)生命周期中林束。
-
Where is it Organized?
- 物理安排
- 數(shù)字資源的無形或無關(guān)安排
第二章
信息組織系統(tǒng)的4種活動(dòng)
- 選擇信息資源
- 選擇是一個(gè)發(fā)現(xiàn)像棘,識(shí)別,評(píng)估資源并納入組織系統(tǒng)中某一集合的過程
- 選擇的方法和標(biāo)準(zhǔn)因不同領(lǐng)域而異壶冒,但它們要確保資源能夠?qū)崿F(xiàn)“面向目標(biāo)的活動(dòng)“
- 選擇與組織
- 選擇和保留所有資源——信息過載缕题、弱組織原則
- 選擇在組織之前——需要一個(gè)一個(gè)地評(píng)估獨(dú)特或罕見資源
- 選擇和組織并發(fā)——同質(zhì)或可預(yù)測的資源;
- 選擇在組織之后——根據(jù)模式創(chuàng)建的資源
- 選擇標(biāo)準(zhǔn):基于某些特定目的效用價(jià)值胖腾、內(nèi)在價(jià)值烟零、最新、建立品牌或聲譽(yù)胸嘁、適于使用等
- 選擇具有個(gè)體性
- 需要解決路徑依賴的問題
- 選擇與采樣
- 如果你的目標(biāo)是對(duì)樣本進(jìn)行推論而不需要研究其所有實(shí)例瓶摆,則通過從大量群體中隨機(jī)抽樣來選擇資源至關(guān)重要。
- 良好的統(tǒng)計(jì)樣本是指被選資源和未被選資源在重要程度上沒有不同性宏。
- 組織信息資源
- 幾乎任何資源的屬性都可以用來組織它們群井,但是最適當(dāng)或有效的屬性因資源類型和任務(wù)而異
- 在資源創(chuàng)建或被選擇之前,就應(yīng)當(dāng)決定在組織中使用哪些資源屬性
- 設(shè)計(jì)基于資源的交互
- 對(duì)交互的要求
- 特定資源的交互能創(chuàng)造最大價(jià)值
- 不同交互的優(yōu)先級(jí)通常由預(yù)期用戶決定
- 便于被用戶發(fā)現(xiàn)和調(diào)用
- 認(rèn)識(shí)直接交互與中介交互
- 交互與價(jià)值創(chuàng)造:物理資源的價(jià)值創(chuàng)造毫胜、數(shù)字資源的價(jià)值創(chuàng)造书斜、智慧資源的價(jià)值創(chuàng)造
- 功能可見性:功能可見性的交互不同于那些通過有意識(shí)的描述诬辈、整理或技術(shù)之后產(chǎn)生的“被設(shè)計(jì)的交互”
- 設(shè)計(jì)支持交互:利用物理資源、數(shù)字化資源和數(shù)據(jù)庫
- 數(shù)字化與交互
- 對(duì)交互的要求
- 維護(hù)信息資源
- 維護(hù)包括確保資源在將來的某個(gè)時(shí)候可供使用或重用的一切活動(dòng)荐吉。
- 組織與維護(hù):我們?nèi)绾谓M織資源的集合能決定維護(hù)的種類和難度焙糟。
- 選擇與維護(hù):維護(hù)需要符合選擇標(biāo)準(zhǔn),更小心地維護(hù)精心挑選的資源
- 保護(hù):保護(hù)物質(zhì)資源需要在防止其惡化的條件下样屠,并改進(jìn)訪問或恢復(fù)資源的舉措
- 文獻(xiàn)修復(fù)
- 數(shù)字資源的保護(hù)
第三章
3.1 什么是資源
粒度:粒度是指對(duì)于特定信息資源屬性的詳細(xì)程度或精確程度水平
標(biāo)識(shí)符:是一種特殊命名穿撮,它通過規(guī)則以受控的方式分配,規(guī)則定義可能的值和命名原則痪欲。
-
資源的名稱:指的是對(duì)某一資源區(qū)別于其他資源的標(biāo)簽悦穿。
名稱的選擇往往受到多種因素的影響,如公眾的可獲取性业踢、習(xí)慣語言類型栗柒、機(jī)構(gòu)政策、個(gè)人以及文化偏見
3.2 資源的屬性
-
資源域:每個(gè)資源具有一定的區(qū)別于其他資源的本質(zhì)或類型
- 域是一個(gè)直觀的概念知举,我們可以通過定義某一地點(diǎn)某一時(shí)間特設(shè)資源的分組瞬沦,而不是基于天然或內(nèi)在資源的任意分組。
- 對(duì)于物理資源而言雇锡,域的區(qū)別較為容易逛钻,即可以粗略根據(jù)物質(zhì)容易感知的屬性做物質(zhì)類型的區(qū)分。
- 對(duì)于信息資源而言锰提,容易被感知的屬性往往不可靠和不相關(guān)绣的,因此更多的是基于語義特征來進(jìn)行域的區(qū)別。
- 信息資源可以被分類和分層欲账,但有時(shí)候類別邊界不清晰卻更有益于從弱結(jié)構(gòu)的敘事內(nèi)容到高度結(jié)構(gòu)化的事務(wù)性內(nèi)容發(fā)現(xiàn)信息資源的域。
- 不同結(jié)構(gòu)域或類型的文檔可以根據(jù)被語義規(guī)定的內(nèi)容區(qū)分芭概,即通過其內(nèi)部結(jié)構(gòu)數(shù)量赛不、呈現(xiàn)方式和內(nèi)容結(jié)構(gòu)的相關(guān)性。
- 域是一個(gè)直觀的概念知举,我們可以通過定義某一地點(diǎn)某一時(shí)間特設(shè)資源的分組瞬沦,而不是基于天然或內(nèi)在資源的任意分組。
-
資源格式
- 無論是物理環(huán)境還是數(shù)字環(huán)境罢洲,信息資源都可以以各種格式存在踢故。當(dāng)涉及到信息資源的存儲(chǔ)時(shí),信息資源的格式就顯得尤為重要惹苗。
- 雖然許多數(shù)字信息都可以用來關(guān)聯(lián)物理的或者數(shù)字的資源殿较,但是知道哪個(gè)是最原始或者最重要的信息資源十分的重要,特別是對(duì)于那些獨(dú)特的或者有價(jià)值的信息資源而言桩蓉。
- 數(shù)字信息資源的格式種類繁多淋纲,基本可以從兩個(gè)維度進(jìn)行分類和比較:內(nèi)容表示顯性化程度和內(nèi)容與表示的分離程度
-
資源的能動(dòng)性
- 代理是在某種程度上促使資源可以自發(fā)引起自身的行動(dòng)。主要包括被動(dòng)型與主動(dòng)型院究。
- 被動(dòng)型:組織系統(tǒng)中的被動(dòng)型資源無處不在洽瞬,這些資源通常是無形的本涕,只有某些行動(dòng)的觸發(fā)才能使得他們變得有價(jià)值。
- 主動(dòng)型:主動(dòng)型資源通常依靠自己創(chuàng)造效益和價(jià)值伙窃,有時(shí)候也通過觸發(fā)被動(dòng)型資源產(chǎn)生菩颖。
-
智能性連續(xù)體:
- 感知與意識(shí):是資源媒介感知周圍環(huán)境和其他資源的互動(dòng)的基礎(chǔ)。但感知事物本身并不能為組織系統(tǒng)創(chuàng)造任何價(jià)值为障。
- 刺激:
- 當(dāng)資源通過信息的感知采取行動(dòng)時(shí)晦闰,才具備創(chuàng)造價(jià)值和影響的能力。
- 驅(qū)動(dòng)器通常被用來描述可以控制物理機(jī)械或者系統(tǒng)的東西鳍怨。
- 資源通過傳輸信息來驅(qū)使燈的開或者關(guān)呻右。
- 關(guān)聯(lián):主動(dòng)型資源要發(fā)揮自身的作用,就必須要與控制其他資源的驅(qū)動(dòng)器相關(guān)聯(lián)京景。
- 計(jì)算或計(jì)算力:主動(dòng)型資源通衬瘢可以通過閱讀傳感器的信息,然后分析信息的內(nèi)容并不斷去調(diào)整行動(dòng)爆安。
- 可組合性與合作:智能的主動(dòng)型資源不僅僅能夠分析所搜集的信息和為之調(diào)整行為烦却,還可以在共同遵守一定格式和規(guī)范的基礎(chǔ)上,匯聚不同來源的信息來創(chuàng)造更大的價(jià)值鄙皇。即開放芜赌、標(biāo)準(zhǔn)的數(shù)據(jù)格式和交流條款可以使得不同來源的信息聚合在一起,從而更好地進(jìn)行分析伴逸,產(chǎn)生更大的價(jià)值缠沈。
描述性信息對(duì)于描述原始資源具有重要作用,通常被稱為元數(shù)據(jù)错蝴。
對(duì)組織而言洲愤,區(qū)別原始資源和描述性資源是一件重要事情。
- 代理是在某種程度上促使資源可以自發(fā)引起自身的行動(dòng)。主要包括被動(dòng)型與主動(dòng)型院究。
-
資源格式與焦點(diǎn):將物理資源和數(shù)字資源的格式的對(duì)比與原始資源與描述性資源的對(duì)比結(jié)合起來就形成了以下的框架:
- A 物理形式描述物理資源
- 描述性資源與物理資源的關(guān)系是通過將描述性資源以物理形式進(jìn)行編碼顷锰。
- B 數(shù)字形式描述物理資源
- 數(shù)字形式描述物理資源最典型的案例就是通過圖書館在線目錄定位實(shí)體圖書館資源的館藏所在位置柬赐。
- 數(shù)字描述性資源是供應(yīng)鏈管理中最重要的一環(huán),他們描述了零售官紫、運(yùn)輸以及每一個(gè)商品環(huán)節(jié)的準(zhǔn)確和及時(shí)的信息肛宋,這些描述物理資源的數(shù)字資源包括了溫度傳感器和RFID標(biāo)簽等
- C 數(shù)字形式描述數(shù)字資源
- 描述數(shù)字資源的數(shù)字資源也就是對(duì)網(wǎng)絡(luò)原生的信息資源進(jìn)行描述。
- D 物理形式描述數(shù)字資源
- 報(bào)紙廣告束世、馬路廣告商品貨架上的可以被手機(jī)掃描商品或服務(wù)信息的二維碼就是以物理形式描述數(shù)字資源酝陈。
- A 物理形式描述物理資源
3.3命名資源
- 為什么要給資源命名
給資源命名可以幫助我們尋找到資源、描述資源毁涉、復(fù)用資源沉帮、鏈接資源等。 - 資源命名中存在的問題
詞匯問題
人們描述事物中所選擇的單詞與他們的經(jīng)歷和語境有關(guān)系同義詞、多義詞遇西、假同源詞等
當(dāng)資源有同義詞或者多義詞時(shí)容易被錯(cuò)誤辨別馅精,難以用自動(dòng)化的程序確定其正確的表示方式不恰當(dāng)聯(lián)系的命名
假同源,如在中國粱檀,4是不吉祥的數(shù)字洲敢,意味著死亡通過假設(shè)常量屬性的命名
通過假設(shè)常量屬性來命名是建立在資源屬性的基礎(chǔ)上,但是隨著資源本身的變化茄蚯,其屬性的含義也會(huì)跟著改變压彭。語義差距
指在命名和描述資源時(shí),用自動(dòng)化方式代替人為方式描述產(chǎn)生語義的差距渗常。
- 選擇好的命名和標(biāo)識(shí)符(五個(gè)方面)
- 需要讓命名有富含信息量
- 使用受控語言
- 允許別名
- 使標(biāo)識(shí)唯一或者被限定
- 區(qū)分識(shí)別和解決
第四章:
4.1 資源描述
- 為什么要描述資源壮不?
- 資源描述的目的是便于查閱、區(qū)分皱碘、檢索這些資源询一,以及管理資源獲取入口和保存這些資源。
- 當(dāng)資源無法獲取或使用時(shí)癌椿,資源描述通常是所描述資源的功能性替代品
- 資源描述的方法或框架(RDF)
- RDF:是一種計(jì)算機(jī)可處理的網(wǎng)絡(luò)資源描述的標(biāo)準(zhǔn)模型健蕊,是語義網(wǎng)構(gòu)建的基礎(chǔ)
- RDF關(guān)鍵思想:使用URI識(shí)別在線資源,如網(wǎng)頁踢俄,以及線下資源如人和國家缩功。
eg:可以用http://im.sysu.edu.cn/指代中山大學(xué)資訊管理學(xué)院,而不僅是學(xué)院的網(wǎng)頁 - RDF是一個(gè)框架都办,用來描述web資源嫡锌。它使用Web標(biāo)識(shí)符來標(biāo)識(shí)事物,并通過屬性與屬性值來描述資源琳钉。資源是可擁有URI的任何事物势木,比如 http://www.reibang.com/writer ;屬性是擁有名稱的資源歌懒,比如 author或 homepage跟压;屬性值就是某個(gè)屬性的值,當(dāng)然這個(gè)值也可以是另外一個(gè)資源歼培。
- 資源,屬性茸塞,屬性值可以組合形成RDF陳述躲庄,分別稱為陳述的主體、謂語和客體钾虐,也即RDF的三元組噪窘。顯見,主體與屬性必須是資源效扫,客體則可以是資源或任意值倔监。
- RDF使用XML編寫直砂,它的設(shè)計(jì)編寫目的不是為了顯示給人看,而是設(shè)計(jì)為可被計(jì)算機(jī)閱讀和理解浩习。
- 于是RDF信息會(huì)有若干種序列化形式静暂,即可使用三元組表示<Subject><Predicate><Object>,亦可使用XML表示等谱秽。
- 資源描述的其他框架(MARC21:包括作者洽蛀,標(biāo)題,出版年疟赊,出版商和頁碼等)
4.2 資源屬性
-
源屬性類型
- 內(nèi)在靜態(tài)屬性
- 外在靜態(tài)屬性
- 內(nèi)在動(dòng)態(tài)屬性
- 外在動(dòng)態(tài)屬性
-
內(nèi)在屬性是資源所固有的屬性郊供,部分是靜態(tài)的,也有動(dòng)態(tài)的近哟,但是是從資源內(nèi)部發(fā)生變化驮审,而不是由于外部行動(dòng)或努力而改變,有時(shí)可用于標(biāo)識(shí)符吉执。
- 內(nèi)在屬性——物理屬性
- 表面可見的物理的或可感知的屬性
- 對(duì)于自然事物疯淫,這些物理屬性非常適合進(jìn)行描述
- 這些屬性具有一定的特色或一致性、可預(yù)測性和關(guān)聯(lián)性
- 對(duì)于人造產(chǎn)品鼠证,外觀屬性預(yù)測性較差峡竣,重要的是外觀下所具有的功能。
- 對(duì)于物理形式的信息量九,外觀與內(nèi)容之間的關(guān)聯(lián)因文檔類型不同而不同适掰。
- 內(nèi)在屬性——物理屬性
-
外在屬性是人為賦予的一種屬性,部分外在屬性是靜態(tài)的:名字或識(shí)別符荠列,部分外在屬性是動(dòng)態(tài)的类浪。
- 外在屬性——文化屬性
- 文化屬性來源于傳統(tǒng)語言的使用或文化,或者涉及到與此類似的方面肌似。
- 由于文化屬性來源于文化或語言知識(shí)费就,因而對(duì)于缺少相同視角或經(jīng)歷的人來說是難以理解的。
- 外在屬性——情境屬性
- 與事物被描述時(shí)所處的情景或情境相關(guān)川队。
- 情境是指與用戶力细、應(yīng)用程度和周圍環(huán)境之間交互相關(guān)的情景的特征化信息。
- 隨著情境的改變固额,可能基于情境的描述會(huì)變得不再使用眠蚂。
- 外在屬性——結(jié)構(gòu)屬性
- 事物的內(nèi)在或外在結(jié)構(gòu)對(duì)于描述來說是有用的。
- 組成部分的數(shù)量或排列斗躏。
- 與其他資源的關(guān)聯(lián)的數(shù)量和類型逝慧。
- 外在屬性——文化屬性
-
資源描述的7個(gè)環(huán)節(jié)
1)選擇范圍和焦點(diǎn)描述實(shí)例或館藏: 確定資源粒度之后,就是確定是否需要分別描述這些資源
抽象化資源描述: 一個(gè)應(yīng)用于整個(gè)資源類型的描述方案(如模型或元數(shù)據(jù)標(biāo)準(zhǔn))
-
范圍,規(guī)模與資源描述
- 隨著要描述的資源的范圍擴(kuò)大和規(guī)模增長笛臣,資源描述的要求會(huì)越來越復(fù)雜云稚。
- 相應(yīng)地,資源描述的語言沈堡,從描述性術(shù)語列表静陈,到帶定義的詞匯表,到有一定內(nèi)容規(guī)則的受控詞表踱蛀,再到利用與其他上位詞窿给、下位詞和相關(guān)術(shù)語之間的語義關(guān)系進(jìn)行定義之后的敘詞表
- 圖書館的書目描述很復(fù)雜:專業(yè)人員、AACR2的11類資源區(qū)分和數(shù)以百計(jì)的描述元素率拒、合作描述崩泡、標(biāo)準(zhǔn)化和統(tǒng)一描述。
- 網(wǎng)絡(luò)資源描述:DC元數(shù)據(jù)猬膨,15個(gè)元素角撞、非專業(yè)人員。
2)確定目標(biāo)
- 支持選擇
- 發(fā)現(xiàn):有哪些可用資源勃痴?
- 性能與兼容性:資源是否滿足功能或兼容性需求谒所?
- 鑒別: 如時(shí)間戳,水印沛申,加密劣领,校驗(yàn)碼,數(shù)字簽名等.
- 評(píng)估:資源的價(jià)值铁材,成本尖淘,回報(bào)率,保存期限著觉,相關(guān)的評(píng)分村生、排序或質(zhì)量測度方式以及這些方式的質(zhì)量如何?
- 支持組織
- 組織可以定義為:為描述和配置資源指定原則或條例以便實(shí)現(xiàn)更好的交互能力
- 實(shí)體資源通常根據(jù)其有形或可感知的屬性饼丘,如大小趁桃,顏色,組成材料肄鸽,形狀等卫病。
- 支持交互
- 書目記錄功能需求FRBR 應(yīng)用于組織系統(tǒng)的四個(gè)目的包括:
- 發(fā)現(xiàn)已經(jīng)存在的資源
- 從資源集中選擇一個(gè)資源
- 如果你只有該資源的描述,可以進(jìn)一步獲得這個(gè)資源: 物理形式與數(shù)字形式的方式不同
- 導(dǎo)航:當(dāng)用戶不清楚他們的信息需求時(shí)典徘,使用關(guān)系性和結(jié)構(gòu)化描述進(jìn)行導(dǎo)航效果更好忽肛。
3)識(shí)別屬性
- 任何資源都需要從多角度描述,這些描述均與不同屬性相關(guān)烂斋,取決于交互類型和所處情境
- 不同類型資源需要包含不同的屬性
- 資源描述中所使用的屬性取決于描述的主體
- 概念層次相同的屬性在實(shí)現(xiàn)層次可能不同。基于時(shí)間的資源的總結(jié)性描述具有非常大的挑戰(zhàn)汛骂,如電影罕模,歌曲等 。
4)設(shè)計(jì)描述詞表
- 原則:用戶便利性帘瞭、表達(dá)性淑掌、充分性和必要性、標(biāo)準(zhǔn)化蝶念、整合
- 兩大挑戰(zhàn):
- 需要額外的和特定的情境
- 原則之間可能存在一定的沖突
5)設(shè)計(jì)描述形式
- 描述用的標(biāo)記符號(hào)抛腕、描述用的句法
6)編制資源描述
- 編制主體:資源、用戶或計(jì)算或自動(dòng)化手段的專業(yè)人士媒殉、作者或創(chuàng)造者
- 每個(gè)編制主體都有不同的特點(diǎn)担敌,最好使用混合的方式取長補(bǔ)短。如廷蓉,由終端用戶為一個(gè)新的資源領(lǐng)域標(biāo)記相應(yīng)詞匯全封,由專家進(jìn)行精確之后再借助于軟件工具利用分類器生成摘要
7)評(píng)價(jià)資源描述
- 依據(jù)一些標(biāo)準(zhǔn)或維度評(píng)估其質(zhì)量
- 最常用的標(biāo)準(zhǔn)為:準(zhǔn)確度,、完整性桃犬、一致性.
- 其他典型的標(biāo)準(zhǔn)如:時(shí)效性刹悴、互操作性、可用性.
第五章
-
描述關(guān)系的5種觀點(diǎn)
- 語義學(xué)的觀點(diǎn): 聯(lián)合的意義
- 詞匯學(xué)的觀點(diǎn):如何用特定語言的單詞來表達(dá)關(guān)系
- 結(jié)構(gòu)上的觀點(diǎn):分析資源之間的關(guān)聯(lián)攒暇、排列土匀、接近或連接的模式(并經(jīng)常忽略它們的原因)
- 架構(gòu)上的觀點(diǎn):強(qiáng)調(diào)關(guān)系組成部分的數(shù)量和抽象級(jí)別一起表征其復(fù)雜性
- 實(shí)施層面的觀點(diǎn):如何以特定符號(hào)和語法實(shí)現(xiàn)關(guān)系,以及在某些技術(shù)環(huán)境中將關(guān)系排列和存儲(chǔ)的方式
三種廣義的語義關(guān)系(重)
- 包含關(guān)系(是一個(gè)……形用、是……的一種類型就轧、是……的一部分、在……中)
- 歸屬關(guān)系(是……作者的作品尾序、是……的配偶钓丰、是……的員工)
- 擁有關(guān)系(擁有)
-
本體(Ontologies)(重)和分類法(taxonomy)在表達(dá)語義關(guān)系上的區(qū)別
- 分類法可以捕捉到在某個(gè)范疇的種類包含關(guān)系的系統(tǒng),但是除了種類包含關(guān)系之外還有很多種關(guān)系每币。這些其他類型的關(guān)系携丁,都在表述著這個(gè)范疇的知識(shí),對(duì)了解這個(gè)范疇或者多個(gè)范疇相關(guān)的資源或活動(dòng)都有幫助兰怠。
- 眾多的關(guān)系組成的網(wǎng)絡(luò)可以創(chuàng)建出一種資源梦鉴,叫本體。關(guān)于本體的視圖揭保,顯示出它也具備一種分類法作為自身概念的展臺(tái)肥橙。
- 本體,在某些組織系統(tǒng)秸侣,屬于不可或缺的部分存筏,特別是信息密集的系統(tǒng)宠互,其資源的范圍和規(guī)模需要一套全面而受控的描述詞表
-
詞匯關(guān)系的種類
- 下位關(guān)系和上位關(guān)系,這可對(duì)應(yīng)種類包含關(guān)系椭坚,
- 轉(zhuǎn)喻關(guān)系予跌,這可對(duì)應(yīng)部分-全部關(guān)系
- 同義關(guān)系,絕對(duì)同義或者命題同義
- 多義關(guān)系善茎,具備多種含義
- 反義關(guān)系券册,嚴(yán)格的雙分反義詞對(duì)
-
敘詞表對(duì)敘詞關(guān)系的表達(dá)
- 人們在描述資源時(shí)自然使用的詞語反映出他們獨(dú)特的經(jīng)歷和觀點(diǎn),所以同一資源可能被不同詞語來描述垂涯,不同資源也可能被同一詞語來描述烁焙。
- 敘詞表是一項(xiàng)參考性工作,根據(jù)語義與詞匯的關(guān)系組織詞語耕赘,被專業(yè)人士用于描述資源骄蝇。
- 不同的范疇和主題領(lǐng)域都有各自的敘詞表
- 在敘詞表中,通常用寬含義和窄含義來表述上位和下位的種類包含關(guān)系
-
結(jié)構(gòu)元數(shù)據(jù)(Structural Metadata):
以數(shù)據(jù)庫或文檔的概要模式鞠苟,描述信息資源的種類乞榨,也可能包括組成部分的包含和歸屬關(guān)系的語法細(xì)節(jié)〉庇椋可用于描述數(shù)據(jù)庫表格間的關(guān)系吃既,圖書章節(jié)的關(guān)系或庫存管理系統(tǒng)的各部分關(guān)系。
-
(重) 語義網(wǎng)(Semantic)和關(guān)聯(lián)數(shù)據(jù)(Linked Data)
- 語義網(wǎng)在2001年提出
- 所有的信息都可以被自動(dòng)工具和人類分享和處理
- XML的應(yīng)用跨细,包括RDF和OWL鹦倚,使得網(wǎng)絡(luò)更加語義化和網(wǎng)絡(luò)資源關(guān)系更加顯性化。
- 如Wikepedia冀惭,就是利用語義注釋的模版鼓勵(lì)用戶以內(nèi)容編碼格式創(chuàng)建信息震叙。
- “關(guān)聯(lián)數(shù)據(jù)”運(yùn)動(dòng)是語義網(wǎng)的延伸,將網(wǎng)絡(luò)架構(gòu)的基本原則以更好的語義條目來重建散休。
-
(重)資源描述和獲取(RDA)
- 很多編目研究者意識(shí)到媒楼,在線目錄在編制文獻(xiàn)書目關(guān)系上做得并不好,原因在于目錄顯示的設(shè)計(jì)和目錄記錄中信息組織的局限性戚丸。即使是MARC記錄划址,內(nèi)含的數(shù)據(jù)也不能被重復(fù)使用和重新排列。
- RDA限府,作為新一代的編目規(guī)則夺颤,希望將不相連的資源描述鏈接起來,呈現(xiàn)完整而相連的關(guān)于著作胁勺,作者世澜,出版物,出版商和主題的數(shù)據(jù)署穗。
- RDA利用RDF來揭示和存儲(chǔ)書目資料中的關(guān)系寥裂。
- RDA將圖書館數(shù)據(jù)變得更廣泛在線和可用嵌洼,同時(shí)也希望利用語義網(wǎng)的分布特性,使得本身更具影響力封恰。
第六章
-
類別的定義:
- 類別是指被同樣對(duì)待的事物或抽象實(shí)體構(gòu)成的類咱台、集合或組。
- 這并不意味著一個(gè)類別的每個(gè)實(shí)體都是相同的俭驮,只是從某種角度來看,或者出于某種目的春贸,我們基于它們的共同點(diǎn)將它們視為等同的顾画。
- 當(dāng)我們將某個(gè)事物視為某個(gè)類別的成員時(shí)击困,就意味著我們已經(jīng)選擇關(guān)注該事物的某種屬性或角色,也意味著我們忽略了該事物的其他屬性。我們大多數(shù)時(shí)候是自動(dòng)和無意識(shí)地進(jìn)行分類弹砚,但我們也可以有意識(shí)的方式去分類。
-
為什么分類:
- 分類不僅指某一個(gè)類別中包含哪些特征暖庄,也是關(guān)于哪些特征應(yīng)該被排除在某一類別之外问芬。
- 類別是應(yīng)用先驗(yàn)知識(shí)的認(rèn)知和語言模型; 創(chuàng)造和使用類別是必要的人類活動(dòng);類別使我們能夠根據(jù)相似性和不相似性將事物彼此關(guān)聯(lián)类垫。
- 沒有類別司光,世界將是一個(gè)沒有組織的模糊的事物,彼此之間沒有可理解的或難忘的關(guān)系悉患。當(dāng)然残家,我們?nèi)匀怀3P枰獙⒛硞€(gè)事物標(biāo)識(shí)為特定實(shí)例(instance),但是類別使我們能夠理解它與其他實(shí)例是如何對(duì)應(yīng)的售躁。
-
如何分類:四種情境下的分類:文化類別坞淮、個(gè)人類別、機(jī)構(gòu)類別陪捷、計(jì)算類別回窘。
- 四種分類的理解:
- 文化類別可以理解為一種自然人認(rèn)知能力,它是作為非正式和正式組織系統(tǒng)的基礎(chǔ)市袖。
- 個(gè)人類別傾向于在我們的個(gè)人活動(dòng)中自發(fā)增長啡直。
- 機(jī)構(gòu)類別符合公司、政府和其他目標(biāo)企業(yè)內(nèi)部和之間正式協(xié)調(diào)配合的需要凌盯。
- 計(jì)算類別由計(jì)算機(jī)程序創(chuàng)建付枫,用于信息檢索,機(jī)器學(xué)習(xí)驰怎,預(yù)測分析和其他應(yīng)用阐滩。
- 理解擴(kuò)展:
- 個(gè)人類別和機(jī)構(gòu)類別往往基于文化類別而形成的。
- 文化類別傾向于描述我們?nèi)粘=?jīng)驗(yàn)和我們積累的文化知識(shí)县忌。 這些類別描述了物體掂榔、事件继效、設(shè)置、內(nèi)部體驗(yàn)装获、物理定向瑞信,實(shí)體之間的關(guān)系以及人類經(jīng)驗(yàn)的許多其他方面。
- 文化類別的學(xué)習(xí)沒有明確指導(dǎo)穴豫,主要是受照顧孩子的人的影響凡简,它們與特定文化背景下的語言習(xí)得和語言使用有關(guān)。
- 在組織系統(tǒng)中創(chuàng)建個(gè)人類別精肃,以滿足個(gè)人獨(dú)特經(jīng)驗(yàn)秤涩、偏好和資源收集所產(chǎn)生的特殊需求。
- 不同于文化類別司抱,個(gè)人類別通常發(fā)展緩慢筐眷,持續(xù)很長時(shí)間。個(gè)人類別是為了回應(yīng)某個(gè)具體狀況或解決新的組織挑戰(zhàn)而進(jìn)行的有意識(shí)的活動(dòng)习柠。 因此匀谣,個(gè)人類別通常具有較短的使用壽命,并且很少壽命超過創(chuàng)建它們的人員资溃。
- 個(gè)人類別與文化類別有兩點(diǎn)不同
- 首先武翎,個(gè)別類別有時(shí)具有想象力(imaginative)或隱喻(metaphorical)的基礎(chǔ),對(duì)創(chuàng)造他們的人而言是有意義的肉拓,但可能會(huì)扭曲或誤解(distort or misinterpret )文化類別后频。
- 其次,個(gè)人類別通常是專門的或綜合的文化類別(specialized or synthesized versions) 暖途,可以捕捉特定的經(jīng)歷或個(gè)人歷史卑惜。
- 機(jī)構(gòu)類別是明確創(chuàng)建和使用的,最常見的是用于許多人相互協(xié)調(diào)驻售。
- 機(jī)構(gòu)類別通常在抽象和信息密集型領(lǐng)域(abstract and information-intensive domains)中創(chuàng)建露久,其中需要明確和精確(unambiguous and precise categories)的類別來規(guī)范和系統(tǒng)化活動(dòng),實(shí)現(xiàn)信息共享和重用欺栗,并降低交易成本毫痕。
- 機(jī)構(gòu)類別不是描述世界本來的樣子,而是通過賦予比文化類別更正式和專制(formal and arbitrary)的語義模型(semantic models)定義類別進(jìn)而改變或控制世界迟几。
- 計(jì)算類別由計(jì)算機(jī)程序創(chuàng)建消请,當(dāng)資源數(shù)量,或與每個(gè)資源相關(guān)聯(lián)的描述或觀察數(shù)量極其龐大時(shí)类腮,人們無法有效地思考這些類別臊泰。
- 可以使用描述性統(tǒng)計(jì)(descriptive statistics)來創(chuàng)建最簡單的計(jì)算類別。
- 計(jì)算類別根據(jù)與最典型或最常見的相異之處而創(chuàng)建隱含的項(xiàng)目類別蚜枢。
- 許多文本處理方法和應(yīng)用程序使用簡單的統(tǒng)計(jì)信息來按照語言缸逃、文檔集合或單個(gè)文檔中的頻率來分類單詞针饥,并且這些類別在許多信息檢索應(yīng)用程序中被利用。
-
創(chuàng)建類別的7個(gè)主要原則
- 枚舉
- 創(chuàng)建類別的最簡單的原則是枚舉; 有限或可數(shù)集合中的任何資源都可以被該事實(shí)視為類別成員需频。 該原則也稱為擴(kuò)展定義丁眼,集合的成員稱為擴(kuò)展項(xiàng)。 通過枚舉將許多機(jī)構(gòu)類別定義為一組可能的或合法的價(jià)值觀昭殉,例如美國五十個(gè)州苞七。
- 單個(gè)屬性
- 我們以是否直觀和有用作為識(shí)別實(shí)例或者描述實(shí)例的標(biāo)準(zhǔn)因此,當(dāng)我們分析多個(gè)實(shí)例并對(duì)其進(jìn)行比較和對(duì)比時(shí)挪丢,也應(yīng)該以是否直觀和有用作為考慮屬性的標(biāo)準(zhǔn)莽鸭,從而確定哪些實(shí)例集可以被視為類別或等價(jià)類。
- 資源的任何單個(gè)屬性都可以用于創(chuàng)建類別吃靠,最容易使用的屬性通常是內(nèi)在的靜態(tài)屬性。 內(nèi)在的靜態(tài)屬性是資源中固有的永遠(yuǎn)不會(huì)改變的屬性足淆。天然或制造物體的組成材料是可用于描述物理資源的內(nèi)在和靜態(tài)屬性巢块。
- 總體而言,用于為組織系統(tǒng)創(chuàng)建類別的最有用的單一屬性是那些被正式分配巧号,客觀可測量和有序的族奢,或與已建立的文化類別相關(guān)聯(lián)的屬性。
-
多個(gè)屬性和等級(jí)
- 組織系統(tǒng)通常使用多個(gè)屬性來定義類別丹鸿。 有三種不同的方法來實(shí)現(xiàn):
- 多層次或多層次分類
當(dāng)使用相同的資源屬性序列來布置組織系統(tǒng)中的所有資源時(shí)越走,這創(chuàng)建了邏輯等級(jí)結(jié)構(gòu),即多級(jí)類別系統(tǒng)靠欢。 - 資源子集的不同屬性
使用多個(gè)資源屬性在組織系統(tǒng)中創(chuàng)建類別的不同方式是對(duì)正在組織的資源的不同子集采用不同的屬性廊敌。這與嚴(yán)格的多級(jí)別方法形成對(duì)比,其中每個(gè)資源都針對(duì)每個(gè)屬性進(jìn)行評(píng)估门怪。這個(gè)原則用于計(jì)算機(jī)文件系統(tǒng)中的大多數(shù)文件夾結(jié)構(gòu)以及許多電子郵件應(yīng)用程序; 可以根據(jù)需要?jiǎng)?chuàng)建任意數(shù)量的文件夾類別骡澈,但任何資源只能放在一個(gè)文件夾中。 - 充分必要屬性
一組大型的資源并不總是需要許多屬性和類別來組織它掷空。某些類型的類別可以只用一些基本屬性來精確定義肋殴。
家族相似性
- 一般來說,基于對(duì)屬性的顯式和邏輯考慮的分類不太有效坦弟,并且有時(shí)甚至對(duì)于其中屬性缺少可分離性护锤,可感知性和必要性的一個(gè)或多個(gè)特征的域甚至不可能。 相反酿傍,我們需要使用統(tǒng)計(jì)而不是邏輯方式對(duì)屬性進(jìn)行分類烙懦,以得出要分類的資源和類別的其他成員之間的相似性或相似性的一些量度。
- 與同一時(shí)間賦予一個(gè)成員使用一個(gè)屬性來分配類別成員不同拧粪,我們可以使用它們在復(fù)合或集成的方式來確定相似性修陡。
-
相似性
相似性是一個(gè)非常靈活的概念沧侥,其含義取決于我們應(yīng)用在什么領(lǐng)域。 相似性成為分類的有用機(jī)制的前提是我們必須明確相似性度量的方法魄鸦。 有四種主要的方法提出了計(jì)算相似性度量:- 基于特征或基于屬性宴杀;
- 基于幾何;
- 基于隊(duì)列拾因;
- 變換
基于理論的類別
- 創(chuàng)建類別的另一個(gè)原則是以適合使特定分類合理的理論或形式組織事物旺罢。基于理論的類別是一種較好的方法绢记,即使家庭相似性或相對(duì)于可見屬性的相似性將導(dǎo)致不同的類別分配扁达。
- 基于目標(biāo)的類別
- 創(chuàng)建類別的最后一個(gè)原則是組織并處理資源以達(dá)到目標(biāo)。 類別是由某個(gè)特定上下文中的特定目標(biāo)導(dǎo)出或?qū)С龅摹?/li>
第七章
-
Classification的涵義
- 作為名詞蠢熄,Classification稱為分類法或分類表跪解,是一種類別系統(tǒng),即根據(jù)預(yù)先確定的一組原則對(duì)類別進(jìn)行排序签孔,并用于組織資源集合叉讥。
- 作為動(dòng)詞, Classification稱為分類饥追,是以系統(tǒng)化方式將資源分進(jìn)設(shè)置好的類別系統(tǒng)(通常是機(jī)構(gòu)類別)的活動(dòng)图仓。
-
分類法與標(biāo)簽的區(qū)別
- 分類法通常按照一種原則和系統(tǒng)化的方式實(shí)現(xiàn),往往是精確但绕、可靠的救崔,可以有效地滿足機(jī)構(gòu)和商業(yè)性目的。但是捏顺,在個(gè)人或社會(huì)等非正式情境下六孵,并不需要這么嚴(yán)謹(jǐn)?shù)姆诸惙绞剑虼顺霈F(xiàn)了標(biāo)簽這種方法
- 標(biāo)簽:使用資源的任何屬性和任何詞匯來描述該資源幅骄,而不管該資源與其他資源之間具有多大的差異狸臣,從而構(gòu)建一個(gè)類目系統(tǒng)。也可以稱為社會(huì)分類法昌执。
- 大眾分類法烛亦,用于描述特定網(wǎng)站或應(yīng)用的標(biāo)簽集合
- 標(biāo)簽分類法 :用戶或社區(qū)建立一系列原則來管理標(biāo)簽,即一個(gè)意在以一種使標(biāo)簽更加系統(tǒng)化的新詞懂拾。
-
分類表的排列形式
分類表是一種或多種組織原則的實(shí)現(xiàn)- 枚舉式:一種明確將所有可能分配資源的類別列舉的分類方表煤禽。
- 層級(jí)式:當(dāng)所有的資源屬性以一種固定的次序考慮,每一種構(gòu)成分類系統(tǒng)中的一個(gè)等級(jí)的分類方案岖赋。
- 字母或年代順序:按照字母順序或按時(shí)間順序排列檬果,將這些組織原則視為創(chuàng)建一個(gè)含蓄的或潛在的分類系統(tǒng),在該分類系統(tǒng)中僅根據(jù)需要生成類別。
- 分面分類:面最常見的類型是枚舉(相互排斥)选脊;布爾(是或否)杭抠;層級(jí)或分類(邏輯控制);連續(xù)譜(一系列的數(shù)值)恳啥。
-
分類法具有原則
- 類別定義的原則(枚舉偏灿,屬性,相似性和族相似性)體現(xiàn)在使用這些原則形成的分類法中钝的。
- 但是分類法系統(tǒng)還需遵循其他的系統(tǒng)設(shè)計(jì)原則翁垂,這些原則反映了其目的、范圍硝桩、規(guī)模沿猜、有效期限、可擴(kuò)展性等碗脊。
- 一旦選擇了這些設(shè)計(jì)原則啼肩,就應(yīng)該始終遵循這些原則
- 原則不等于好或者唯一的方式
- 許多類別設(shè)計(jì)選擇是主觀的,需要相互妥協(xié):資源的本質(zhì)和資源領(lǐng)域的復(fù)雜性衙伶、分類目的疟游、可投入資源的數(shù)量、開展分類工作的人和用戶的能力痕支。
-
原則鑲嵌在分類表中
- 保障:類別及對(duì)應(yīng)名稱選擇的理由是什么?
- 文獻(xiàn)保障: 對(duì)我們所擁有的資源進(jìn)行分門別類蛮原?
- 科學(xué)保障: 科學(xué)家和領(lǐng)域?qū)<业慕嵌?/li>
- 用戶或使用保障: 普通用戶的角度
-
分類層級(jí)的寬度和深度
- 取決于系統(tǒng)所組織的資源的多樣性或異構(gòu)性
-
將資源分配給類別的原則
- 唯一性原則 互斥性:每一種類型的資源只有一個(gè)細(xì)分
-
分類法維護(hù)的原則
- 分類系統(tǒng)需要持續(xù)多長時(shí)間卧须?是否存在一種規(guī)則或方法來永久性地維護(hù)分類系統(tǒng)?
- 我們是一次性地類分資源或款目儒陨,還是可以隨著時(shí)間更改類別和賦值方式
- 如果類別(和描述)的含義改變應(yīng)該如何處理花嘶?
- 如果按照類別類分后的資源或款目改變應(yīng)該處理?
- 分類如何才能具有靈活性/可擴(kuò)展性(計(jì)算機(jī)科學(xué)家)/兼容性(圖書館學(xué)家)蹦漠?即椭员,對(duì)于組織系統(tǒng)來說,如要多大的剩余空間和組織空間進(jìn)行協(xié)調(diào)以滿足唯一性原則笛园?
- 在一開始定義時(shí)構(gòu)建多余的邏輯空間隘击。
-
世界三大分類法的概況 DDC、UDC研铆、LCC
1.杜威十進(jìn)分類法 DDC
- 始于1876年的DDC是目前世界上廣為使用的分類系統(tǒng)埋同;使用數(shù)字符號(hào)因此易于用來定位圖書館中的資源;DDC是專有的需要從OCLC獲得權(quán)限
- DDC分為10個(gè)大類棵红,涵蓋整個(gè)知識(shí)領(lǐng)域凶赁。每個(gè)大類可以進(jìn)一步分為10個(gè)子類,每個(gè)子類再包括10個(gè)部分。
- 杜威的十進(jìn)分類法是依據(jù)哈利的分類體系發(fā)展起來的虱肄。
- 《杜威分類法》的修訂原則
1)照顧號(hào)碼和等級(jí)制的學(xué)科體系的完整性和連續(xù)性致板。
2)與知識(shí)發(fā)展保持同步。
- 美國國會(huì)圖書館分類法LCC
- LCC有21個(gè)大類咏窿,由字母而不是數(shù)字進(jìn)行編號(hào)
- 每個(gè)大類可以進(jìn)一步進(jìn)行多次細(xì)分斟或,使得LCC類目層級(jí)較多,具有較強(qiáng)的實(shí)踐性翰灾,但是缺乏一定的理論性基礎(chǔ)缕粹。
- LCC偏向于適應(yīng)于美國及國家管理層面的需求,且具有較長的歷史纸淮。
3.國際十進(jìn)分類法 UDC
- UDC由主表和輔助表及索引組成平斩。主表分為10大類,輔助表有8個(gè)咽块。
- 由于UDC 在等級(jí)列舉制的基礎(chǔ)上采取了多種符號(hào)進(jìn)行組配绘面,因而發(fā)展成一部等級(jí)列舉與組配相結(jié)合的混合式分類法
- UDC 采用單純阿拉伯?dāng)?shù)字作為標(biāo)記符號(hào)。它用個(gè)位數(shù)標(biāo)記一級(jí)類侈沪,十位數(shù)標(biāo)記二級(jí)類揭璃,百位數(shù)標(biāo)記三級(jí)類,以下每擴(kuò)展(細(xì)分) 一級(jí)亭罪,就加一位數(shù)瘦馍。每三位數(shù)字后加一小數(shù)點(diǎn)。
杜威十進(jìn)分類法的特點(diǎn)
1.體系結(jié)構(gòu)完整应役、嚴(yán)謹(jǐn)情组,類目詳盡,層次清楚箩祥,易于理解院崇,便于按學(xué)科進(jìn)行檢索。
2.采用嚴(yán)格的層累標(biāo)記制袍祖,類號(hào)等級(jí)分明底瓣,具有較強(qiáng)的助記性,但有時(shí)號(hào)碼過于冗長蕉陋。
3.首創(chuàng)仿分捐凭、復(fù)分等具有組配性質(zhì)的編號(hào)法。
4.最先為分類表編配詳細(xì)的相關(guān)索引凳鬓,提供一條簡便的字順檢索的途徑 柑营。
5.擁有實(shí)力雄厚的管理機(jī)構(gòu),定期修訂村视,使分類法不斷得到更新官套。-
什么是分面
- 通過將學(xué)科主題劃分為同質(zhì)或語義相關(guān)的類別所獲得的術(shù)語分組
- 在分面分類系統(tǒng)中,每一種資源可以使用多個(gè)分面的屬性加以描述,但是搜尋資源的代理不需要考慮所有的屬性(即分面)奶赔,也不需要以固定的順序來考慮惋嚎。
-
分面分類系統(tǒng)設(shè)計(jì)的五個(gè)步驟
- 范圍
定義分類的目的,細(xì)化概念或資源的范圍 - 選擇每一個(gè)組面的取值
決定組面的邏輯類型和可能的取值站刑;細(xì)化組面的取值順序另伍,包括字母、年代绞旅、處理過程摆尝、規(guī)模、流行程度因悲、復(fù)雜性程度堕汞、地理或拓?fù)浣Y(jié)構(gòu) - 組面識(shí)別
分析和描述資源樣本實(shí)例以失卻候選組面的屬性或維度 - 設(shè)計(jì)組面層級(jí)和語法
檢查組面之間的關(guān)系,如有必要?jiǎng)?chuàng)建子組面晃琳;決定如何組合各個(gè)組面 - 驗(yàn)證讯检,迭代與精煉
利用新的實(shí)例對(duì)分類進(jìn)行檢驗(yàn),修正各個(gè)組面和取值
- 范圍
-
設(shè)計(jì)原則與范式
- 正交性:組面應(yīng)該是相互獨(dú)立的維度卫旱,確保一個(gè)資源涵蓋所有組面的取值人灼,且每一個(gè)組面只有一個(gè)取值,如在線廚房商店中顾翼,可能有產(chǎn)品和品牌兩個(gè)組面
- 語義平衡:頂層組面應(yīng)該是分類領(lǐng)域中對(duì)資源具有最佳區(qū)分能力的屬性投放,取值應(yīng)該具有相等的語義范圍,使得資源分布在各個(gè)子類別中
- 覆蓋范圍:組面的取值應(yīng)該能在預(yù)期范圍內(nèi)類分所有的實(shí)例
- 可擴(kuò)展性:組面的值應(yīng)該能適應(yīng)需要潛在增加的一組實(shí)例适贸,簡單的方式是增加一個(gè)“其他”值
- 客觀性:盡可能明確和具體
- 規(guī)范性:不使用特殊灸芳、隱喻或需要特定知識(shí)來解釋的術(shù)語
第八章
-
使資源描述結(jié)構(gòu)化的meta models 元模型
- 隨著時(shí)間的推移,很多人都建立了類似的描述: 他們有類似的目的取逾,期望得到的類似屬性,并面臨類似的問題苹支。 這些描述已經(jīng)融合了一些相同的決定砾隅。 在任何一個(gè)領(lǐng)域都能常見設(shè)計(jì)決策在教科書和設(shè)計(jì)實(shí)踐中變得系統(tǒng)化猎塞,最終可能被設(shè)計(jì)成用于創(chuàng)建組織系統(tǒng)的標(biāo)準(zhǔn)格式和架構(gòu)纺荧。這些正式被認(rèn)可的設(shè)計(jì)決策被稱為抽象模型或元模型。
- 元模型描述了資源描述和其他信息資源中常見的結(jié)構(gòu)聂喇。 雖然組織系統(tǒng)的任何設(shè)計(jì)師通常都會(huì)創(chuàng)建一個(gè)他特定領(lǐng)域的模型寻定,但他通常不會(huì)創(chuàng)建一個(gè)全新的元模型儒洛,而是從已被正式認(rèn)可并納入現(xiàn)有標(biāo)準(zhǔn)的元模型中進(jìn)行選擇。
- 所產(chǎn)生的模型有時(shí)被稱為“領(lǐng)域特定語言”狼速。標(biāo)準(zhǔn)元模型可以提高經(jīng)濟(jì)效益琅锻,因?yàn)殚_發(fā)人員可以用針對(duì)這些元模型設(shè)計(jì)的工具和知識(shí),而不必從頭開始。
-
建模的約束條件
指定詞匯和模式
為特定領(lǐng)域的資源描述創(chuàng)建模型涉及指定這些描述的公共元素恼蓬,并給出這些元素的標(biāo)準(zhǔn)名稱惊完,還可以指定如何將這些元素排列成較大的結(jié)構(gòu),例如处硬,如何將它們排列成嵌套到trees的列表小槐。控制值
模型也可限制描述的值或內(nèi)容。 有時(shí)荷辕,單個(gè)模型可用于將定義某些屬性名稱的術(shù)語和可用于屬性值的術(shù)語凿跳。
-
符號(hào)和寫作系統(tǒng)
-
符號(hào)
- ASCII 是用于數(shù)字環(huán)境的已經(jīng)編碼和標(biāo)準(zhǔn)化的符號(hào)示例。
- 計(jì)算機(jī)的每個(gè)字符都必須嚴(yán)格定義疮方。不同的符號(hào)可能包括非常相似的標(biāo)記控嗜,在非數(shù)字環(huán)境中,我們將依靠上下文來了解書面標(biāo)記是否被用作音樂符號(hào)案站、數(shù)學(xué)符號(hào)或英文縮寫的一部分躬审。然而,計(jì)算機(jī)沒有對(duì)上下文的直觀理解蟆盐,Unicode將number sign(日常生活中'#'的表現(xiàn)形式)和sharp sign(音樂中'#'的表現(xiàn)形式)編碼看做兩個(gè)不同的字符
-
寫作系統(tǒng)
- 寫作系統(tǒng)采用一個(gè)或多個(gè)符號(hào)承边,并添加一組使用它們的規(guī)則。 大多數(shù)寫作系統(tǒng)都能認(rèn)知到一種特定的人類語言石挂。 這些書寫系統(tǒng)被稱為聲門書寫系統(tǒng)博助。 但是,有許多書寫系統(tǒng)痹愚,如數(shù)學(xué)和音樂系統(tǒng)富岳,這些都不與人類語言相聯(lián)系。 用于描述資源的許多書寫系統(tǒng)屬于后者拯腮。
- 以自然人類語言為基礎(chǔ)的聲門書寫系統(tǒng)難以準(zhǔn)確窖式,全面地描述。 非聲門書寫系統(tǒng)可以使用抽象模型進(jìn)行準(zhǔn)確和全面的描述动壤。 這是上一節(jié)所采用的結(jié)構(gòu)性觀點(diǎn)與本節(jié)所采用的文本觀點(diǎn)之間的聯(lián)系萝喘。 非聲門書寫系統(tǒng)由特定元模型描述,并且適合于給定元模型的約束條件琼懊。
- 寫作系統(tǒng)提供了將符號(hào)排列成有意義的結(jié)構(gòu)的規(guī)則阁簸。 符號(hào)中的字符沒有固有的含義,字符取決于寫入系統(tǒng)上下文的內(nèi)涵哼丈。
-
第九章
交互的前提條件:
交互的前提條件:整合启妹,聯(lián)接,聚類或合并資源以提供更廣泛的資源和更同質(zhì)的描述進(jìn)行檢索-
交互的決定要素:
- 用戶需求
- 資源如何以及被誰使用會(huì)影響如何顯示資源或資源描述醉旦,通過什么渠道提供以及交互的精度和準(zhǔn)確度饶米。
- 用戶信息需求決定了所需資源的類型和內(nèi)容
- 用戶信息需求的表現(xiàn):搜索請求桨啃,如關(guān)鍵詞或?qū)I(yè)查詢語言;瀏覽時(shí)一個(gè)或多個(gè)系統(tǒng)分類體系的選擇咙崎。
- 資源屬性層級(jí)
- 組織的范圍越廣优幸、可識(shí)別的資源屬性的數(shù)量越多,可提供的交互功能越強(qiáng)褪猛。
- 基于單個(gè)資源的屬性网杆、基于資源集合的屬性、基于派生或計(jì)算的屬性
- 社會(huì)政治和組織的約束
- 組織系統(tǒng)生產(chǎn)者的獲取政策是交互設(shè)計(jì)選擇的重要約束伊滋。
- 信息和經(jīng)濟(jì)力量的不對(duì)稱性碳却、標(biāo)準(zhǔn)、公共政策
- 組織的約束表現(xiàn)為多種矛盾性政策或甚至?xí)?dǎo)致在缺少額外投資的情況下無法將獨(dú)立不相交的系統(tǒng)進(jìn)行有效整合
- 具有不同價(jià)值貢獻(xiàn)笑旺、策略昼浦、流程和實(shí)踐慣例的組織單元,必須清晰的定義和優(yōu)化不同的交互目標(biāo)筒主,對(duì)應(yīng)和協(xié)調(diào)流程关噪,構(gòu)建合作能力,從而完成組織系統(tǒng)內(nèi)部或之間的高度兼容
- 組織的約束比社會(huì)政治約束具有更大的不確定性
-
轉(zhuǎn)換資源的資源屬性層次
- 基礎(chǔ)設(shè)施或符號(hào)轉(zhuǎn)換
- 書寫系統(tǒng)轉(zhuǎn)換
- 語義轉(zhuǎn)換
- 資源或資源描述轉(zhuǎn)換
-
轉(zhuǎn)換資源的模式
- 粒度和抽象
- 粒度是指對(duì)于特定信息資源屬性的詳細(xì)程度或精確程度水平乌妙。
- 抽象層次是從具體事例中抽象出資源描述的程度使兔,以適應(yīng)更廣泛的資源
- 轉(zhuǎn)換來自多組織系統(tǒng)的資源
- 傳統(tǒng)方法:徹底的整合
- 計(jì)劃將不同組織系統(tǒng)合并成一個(gè)聚合系統(tǒng)過程中對(duì)資源進(jìn)行的轉(zhuǎn)換稱為數(shù)據(jù)映射或?qū)R
- 映射的目的包括:資源描述的簡單交換,歷時(shí)數(shù)據(jù)的獲取藤韵,生成標(biāo)準(zhǔn)化的報(bào)告虐沥。
- 與映射類似,另一種直接的轉(zhuǎn)換方法是使用對(duì)照表泽艘,即將組織系統(tǒng)之間的資源描述元素欲险,語義和句法與詞匯進(jìn)行關(guān)聯(lián)的等價(jià)表。
- 轉(zhuǎn)換模式
- 除了映射和對(duì)照表之外匹涮,更有效的方法:為所有詞表的映射使用一種詞表或格式作為轉(zhuǎn)換機(jī)制(也稱為樞紐或樞紐語言)
- 另一種方法:在不對(duì)稱權(quán)利關(guān)系中天试,強(qiáng)迫所有系統(tǒng)使用與最強(qiáng)大的一方相同的格式,如沃爾瑪然低。
交互的實(shí)施三個(gè)基本步驟:比較資源喜每、排列資源、定位資源
-
基于實(shí)例屬性的交互:布爾模型
- 布爾邏輯操作符:與AND, 或OR, 非NOT
- 比較的結(jié)果要么為真要么為假脚翘,僅返回所有為真的結(jié)果灼卢。
- 布爾搜索對(duì)每一個(gè)返回的結(jié)果不再進(jìn)行比較或排序绍哎,所有結(jié)果均視為相等来农。
- 優(yōu)勢在于,結(jié)果是可預(yù)測的且容易解釋崇堰,缺點(diǎn)是用戶很難找到最有用的資源
-
基于資源集屬性的交互:向量空間模型
- 詞頻:是指術(shù)語在資源中出現(xiàn)的頻次沃于,為資源實(shí)例層次的屬性
- 文檔頻率:是包含某個(gè)術(shù)語的資源的數(shù)量
- 逆文檔詞頻:表示了一個(gè)術(shù)語在文檔集中出現(xiàn)的頻次涩咖,為資源集層次的屬性
- 公式表示為:idft = log(N/dft) (N為文檔總數(shù))
-
基于其他屬性的交互
- 基于派生屬性的交互
- 基于流行性的排序
谷歌PageRank:一個(gè)網(wǎng)站被其他網(wǎng)站參考的鏈接數(shù)量 - 基于引用的搜索
在文獻(xiàn)信息系統(tǒng)中使用的一種復(fù)雜而高效的信息檢索技術(shù)
3.翻譯
在檢索或定位資源之后進(jìn)行對(duì)資源進(jìn)行轉(zhuǎn)換,如字典或平行語料就是驅(qū)動(dòng)翻譯的外部資源
- 基于流行性的排序
- 基于派生屬性的交互
-
基于多種資源的交互
- Mash-Ups
結(jié)合多種資源的數(shù)據(jù)繁莹,通過這種結(jié)合產(chǎn)生一種呈現(xiàn)新信息的交互 - 關(guān)聯(lián)數(shù)據(jù)檢索與資源發(fā)現(xiàn)
關(guān)聯(lián)數(shù)據(jù)通過標(biāo)準(zhǔn)化或唯一的資源識(shí)別符URI對(duì)不同組織系統(tǒng)技術(shù)中的資源進(jìn)行關(guān)聯(lián)
- Mash-Ups
-
評(píng)估的交互三種方式:效率檩互,有效性和滿意度
- 交互是高效的:以一種及時(shí)且經(jīng)濟(jì)地方式執(zhí)行;工程方面
- 交互是有效的:以正確且完整地方式執(zhí)行咨演;算法方面
- 交互是令人滿意的:交互按照預(yù)期執(zhí)行闸昨,高度依賴個(gè)人偏好和體驗(yàn)
-
評(píng)估的交互相關(guān)性
- 在討論相關(guān)性問題時(shí),通過包括如下視角:主題知識(shí)視角薄风,主題文獻(xiàn)視角饵较,邏輯視角,系統(tǒng)視角遭赂,目標(biāo)視角循诉,針對(duì)性視角,實(shí)用主義視角撇他,效用理論視角等茄猫。
- 相關(guān)性包括四個(gè)維度:
1)代理,文檔困肩,信息
2)查詢划纽,請求,信息需求和問題
3)主題僻弹,情境以及其結(jié)合
4)從問題產(chǎn)生到解決持續(xù)的時(shí)間 - 對(duì)組織系統(tǒng)而言阿浓,相關(guān)性是滿足評(píng)估特定用戶情境下和特定時(shí)間中已表述的或潛在的信息需求的有效性程度
- 為了正確的評(píng)估交互中的相關(guān)性,重要的先決條件是決定所需要考慮的相關(guān)性的概念蹋绽。
-
評(píng)估的查全率與查準(zhǔn)率
- 查準(zhǔn)率測量結(jié)果集的準(zhǔn)確性芭毙,即與查詢相關(guān)的檢索結(jié)果數(shù)量
- 查全率測量結(jié)果集的完整性,即資源集中被檢索到的相關(guān)資源的數(shù)量
- 查全率與查準(zhǔn)率之間的權(quán)衡:為了找到所有相關(guān)資源卸耘,系統(tǒng)需要檢索盡可能多的資源退敦,從而降低了查準(zhǔn)率;為了保持較高的查準(zhǔn)率蚣抗,僅返回與搜索者相關(guān)的資源侈百,交互很可能無法發(fā)現(xiàn)所有相關(guān)的資源,從而降低了查全率
- 組織原則的完整性和粒度對(duì)查全率和查準(zhǔn)率之間的權(quán)衡具有較大的影響