Storms, G., De Boeck, P., & Ruts, W. (2000). Prototype and exemplar-based information in natural language categories.?Journal of Memory and Language,?42(1), 51-73
自然語言類別中的原型和基于范例的信息
摘要:本研究報告了兩個實驗蜡歹,用范例模型和原型模型預(yù)測4個因變量的變化情況:典型性評分typicality ratings础拨,反應(yīng)時窄陡,分類命名頻率category-naming frequencies醇坝,自然語言概念的范例生成頻率exemplar-generation frequencies。實驗一中,范例模型預(yù)測得更好,或者兩個模型差異不大膛腐。實驗二中,范例模型對因變量的預(yù)測更好鼎俘。
EXEMPLAR AND PROTOTYPE MODELS FOR ARTIFICIAL CATEGORIES AND NATURAL LANGUAGE CONCEPTS
自然情景下的分類學(xué)習(xí)和實驗室環(huán)境中的分類學(xué)習(xí)是有差別的哲身,不能簡單地泛化實驗結(jié)果得到。和原型模型比起來而芥,范例模型在模擬上有更多困難律罢,因為無法確定每一個范例具體表示什么,(1)每一個范例表示一些抽象的表示(魚包括鯊魚棍丐,金魚等等误辑,其中鯊魚、金魚也是抽象的表示)(2)每一個范例是具體記憶痕跡的表示歌逢,不帶有抽象表示(這一種解釋被更多研究者采納)巾钉。
在自然語言的環(huán)境中的分類,例如蔬菜秘案,交通工具等等砰苍,有三種不同的理論觀點:
(1)沒有任何抽象:只記住了具體的例子,沒有任何抽象信息用言語概念記住了阱高。
(2)有部分抽象赚导,但只存在比學(xué)習(xí)概念第一級的概念上:學(xué)習(xí)蔬菜,下一級概念是番茄等等赤惊。
(3)有抽象吼旧,并且在學(xué)習(xí)的概念(蔬菜)本身的抽象特點就被記住了。
前兩種解釋可以標(biāo)記為范例模型未舟,第三種解釋可以標(biāo)記為原型模型圈暗。
EXPERIMENT 1
典型性評分typicality ratings
原型:類別典型性的不同反映了原型與概念表示(concept representation)之間共有特征的相似性
范例:類別典型性的不同反映了與存儲的類別中樣本的相似性
反應(yīng)時(在快速分類任務(wù)中的反應(yīng)時)
在同一個類別中不同個體的反應(yīng)時也是不同的掂为,以下兩種模型都可以來解釋這種不同。
原型:(Hampton’s ,1979)當(dāng)樣本的特征與原型特征重合達(dá)到一個閾值時员串,被試就會給出“是”的反應(yīng)勇哗,反之,如果非匹配特征達(dá)到一個閾值寸齐,也會給出一個“否”的回答 欲诺。
范例:一個好的類別中的樣本是可以激活其他范例的,因此與存儲的范例越相似访忿,反應(yīng)時會越短瞧栗。
分類命名頻率category-naming frequencies和自然語言概念的范例生成頻率exemplar-generation frequencies
這兩個頻率在某種程度上是相反的:在category-naming任務(wù)斯稳,給被試一些范例海铆,要求被試為這些范例所屬的類別命名;在exemplar-generation任務(wù)挣惰,給被試類別的標(biāo)簽卧斟,要求被試命名具體的范例。
在category-naming任務(wù)中憎茂,有些樣本會更大頻率被貼上某一類的標(biāo)簽珍语。原型模型可以解釋為給的樣本的特征可以激活類別原型的特征,從而讓被試想起類別的名字竖幔。范例模型可以解釋為類別與范例之間是具有概率性的板乙。這兩種解釋的區(qū)別就在于之間是否有一個激活過程,但是激活過程的作用還不清楚拳氢,并且一個樣本可以和多個類別有聯(lián)系募逞,這中間的重疊影響也沒有明確的處理辦法。
在exemplar-generation任務(wù)馋评,同樣兩者的區(qū)別在于激活過程activation process放接,而這個過程在兩個模型中的解釋都不清晰,因此本實驗收集這兩個頻率留特,希望可以進(jìn)一步幫忙開發(fā)模型纠脾。
Prototype and Exemplar Based Predictors
實驗一將原型模型的預(yù)測器和范例模型(可以用多個范例來實例化instantiate一個概念)的預(yù)測器相比較。雖然其中的激活過程難以觀察到蜕青,但是可以假定在exemplar-generation任務(wù)的結(jié)果中可以得出在抽樣分布上的近似值苟蹈。同時,我們可以觀察不同數(shù)量的范例對預(yù)測的影響右核。
實驗用到的原型模型是在Hampton’s (1979)模型的基礎(chǔ)上衍生的慧脱,針對不同類別的特征會進(jìn)行適用性applicability的評分,并根據(jù)評分預(yù)測被試相關(guān)的決策蒙兰。
Material
所有概念都是荷蘭語磷瘤,被試母語均為荷蘭語芒篷。一個8種常見分類:廚房用具,家具采缚,交通工具针炉,運(yùn)動,水果扳抽,蔬菜篡帕,鳥,魚贸呢。每類包含36個項目(24個假定的exemplars镰烧,12個nonexemplars,這都是每個類別的上一級概念楞陷,例如水果的上一級概念是食物)怔鳖。根據(jù)Hampton的研究,每個類別分別有13,11,12,14,13,9,16固蛾,和12個特征用來構(gòu)成類別的原型结执。
Procedure
兩個不同的任務(wù)給不同組別的被試:相似性評價任務(wù)(similarity rating task),特征適用性任務(wù)(feature applicability task)艾凯。同時還有四個任務(wù)用來測試上述4個因力量献幔。
similarity rating task:被試拿到一共八張表(每個類別一張),被試需要評定每張表上的36個項目與1個關(guān)鍵詞之間的相似性趾诗,10分評定(1分完全沒有相似度-10分高度相似度)蜡感。每張表都會對應(yīng)25個最常生成的范例,被試會隨機(jī)分到25個中的一個關(guān)鍵詞恃泪。該任務(wù)有250名大學(xué)生被試郑兴,用時大約30分鐘。
feature applicability task(Matrix Filling):被試拿到一張矩陣悟泵,行是36個項目杈笔,列是類別特征,要求被試用1或0填寫矩陣糕非,表明這個特征是否存在于這個行項目中蒙具。80個被試,用時大約50分鐘朽肥。
Typicality-rating task:對八個類別的項目集進(jìn)行典型性評分禁筏,7分評定法(-3表示非常不典型,+3表示很典型)衡招。10個大學(xué)生被試篱昔,用時30分鐘。
Speeded categorization task:電腦上會出現(xiàn)一個類別名字(粗體在屏幕中央),項目的名字會出現(xiàn)在類別名字下面州刽,被試需要快速并且正確地判斷項目是否屬于這個類別空执。一共9個類別(8個+1個練習(xí)),每個類別下有24個屬于穗椅,16個不屬于辨绊。18個被試,用時35-40分鐘匹表。
Category naming task:每個被試拿到一張表门坷,表上8個項目,要求被試寫下他最先想到的項目屬于的類別袍镀。一共有36張不同的8個項目表默蚌,每個清單都有10名被試完成。
Exemplar generation task:被試在小冊子上寫下每個類別中想到的10個例子苇羡,按想到的順序?qū)懴隆?/p>
Results
Prototype predictions
根據(jù)之前的矩陣任務(wù)绸吸,將10個被試的分?jǐn)?shù)相加,可以得到特征的分?jǐn)?shù)宣虾,然后判斷該特征是否適用于這個類別惯裕。圖1 展示的是原始的直接相加纯趋,也有另外的加權(quán)相加祸穷,其中包括三種(1)基于定義概念時特征的重要性(2)基于特征的典型性(3)基于生成特征的頻率(production, generation)
Exemplar prediction
本研究想要嘗試不同數(shù)目范例的預(yù)測矩动,比較不同范例個數(shù)可能帶來的影響。25個范例預(yù)測因子(exemplar predictors)基于產(chǎn)生頻率(generation frequency)進(jìn)行排序鹉胖。第一個預(yù)測器有簡單的一個范例構(gòu)成(與類別最相似)。第二個預(yù)測器是兩個范例的總和够傍。其余預(yù)測因子是通過和剩下的產(chǎn)生頻率最高的范例添加相似度評分構(gòu)建的甫菠。
Prediction of the four dependent variables
原型模型和范例模型都與四種因變量相關(guān)。這種相關(guān)都是基于每類中的24個項目(剩下的12個非類內(nèi)成員被排除了)冕屯,而被排除后寂诱,獲得高預(yù)測水平也會更加困難。最后通過預(yù)測水平來評估模型那個更有效安聘。
從圖2可以發(fā)現(xiàn)泉粉,范例個數(shù)越多,相關(guān)越高,但是10個以上更多范例增加對性能提升不明顯嗡靡。同時典型性和反應(yīng)時的模式非常相似跺撼,也預(yù)示著,兩者的相似性越高讨彼,反應(yīng)時的數(shù)據(jù)越可靠财边。
表2的最后一列是范例模型和原型模型的相關(guān)黑滴,發(fā)現(xiàn)有一些重疊憨募,但是也不是完全不可區(qū)分。為了進(jìn)一步分析袁辈,采用了ANOVA(方差分析)與split-plot factorial design(裂區(qū)設(shè)計)菜谣,分析典型性預(yù)測最好,接下來是反應(yīng)時晚缩,后面兩個頻率差異不顯著尾膊。范例模型和原型模型在exemplar-generation頻率上差異顯著,范例模型更好荞彼,其他相互作用上冈敛,只有典型性范例略好,其他差異不顯著鸣皂。
Discussion
整體上抓谴,32個項目與4個因變量的相關(guān)都很高(除了1個),并且范例模型預(yù)測比原型模型表現(xiàn)更好寞缝。隨著范例個數(shù)增加癌压,范例模型預(yù)測更好,但是超過10個荆陆,優(yōu)勢就不明顯滩届。
雖然范例模型和原型模型有差異,但不是分成大的顯著被啼,例如在典型性解釋上帜消,范例模型預(yù)測水果,交通工具趟据,與魚券犁,原型模型預(yù)測家具更好,其他類別的差異并不顯著汹碱。
在category-naming任務(wù)上粘衬,兩種模型差異不顯著,但是在exemplar-generation任務(wù)上,范例模型表現(xiàn)更好稚新。
在幾種不同的原型模型比較中勘伺,不加權(quán)的簡單加和模型預(yù)測最好,這個結(jié)果支持了1979年Hampton的研究褂删。
實驗二想要探究飞醉,不同計算方式的原型模型(實驗一是Hampton(1979)(讓被試想出每個類別的特征,包括向被試提問屯阀,更多激發(fā)他們對類別特征的描述)缅帘,實驗二是Rosch & Mervis (1975)(從類別中的例子出發(fā),從例子身上提取特征难衰,然后特征適用于更多的例子就分?jǐn)?shù)更高钦无,權(quán)重更高))和范例模型比較,范例模型的微弱優(yōu)勢能不能保持盖袭。
EXPERIMENT 2
實驗二與實驗一大體一致失暂,是將新的原型模型與實驗一的Hampton原型模型、實驗一的范例模型進(jìn)行比較鳄虱。
Material
類別與實驗一相同弟塞,但是只收集24個類內(nèi)項目的數(shù)據(jù),12個非類內(nèi)項目被刪除了拙已。
Procedure
Attribute generation task:3個被試對5或6個類別中所有24個項目寫下特征决记,每一個類別都有兩個被試進(jìn)行描述。
Attribute applicability judgment task:4個被試對每個類別中的24個項目和所有特征條目進(jìn)行評定悠栓,每個類別完成后可休息霉涨,每個類別用時約25-50分鐘。
Results
Attribute generation task:55,55,73,53,33,37,26,36個特征生成對應(yīng)水果惭适,鳥,交通工具楼镐,運(yùn)動癞志,家具,魚框产,蔬菜凄杯,廚房用具。
Calculate the family resemblance scores:(1)將被試(一共4個)的選擇加起來(2)≥3的記為1秉宿,其余為0(3)每個屬性特征收到的權(quán)重1-24(4)加權(quán)后的和是每個屬性的得分
表4中新算法原型模型與4個因變量的相關(guān)比實驗一中的原型模型低一些戒突。
同樣采用了ANOVA與split-plot factorial design進(jìn)行分析,范例模型在預(yù)測上顯著優(yōu)于兩個原型模型描睦,兩個原型模型間的差異不顯著膊存。在四個因變量上,與實驗一相同,典型性>反應(yīng)時>兩個頻率(類別命名和生成例子差異不顯著)隔崎,并且每個因變量水平都是范例模型表現(xiàn)更好今艺。
Discussion
范例模型比Rosch & Mervis (1975)的原型模型預(yù)測效果更好,也可以說范例模型中用到的加權(quán)方法比family resemblance measure要更好爵卒。
不同類別之間也有差異虚缎,鳥和交通工具可以被預(yù)測的更好,水果和蔬菜會更差钓株,但是在ANOVA分析中差異并不顯著实牡。
GENERAL DISCUSSION
原型模型認(rèn)為概念是由單個向量表示的(包含了概念類別中的特征)。Hampton認(rèn)為這些特征是存儲在概念層次轴合,可以直接訪問的创坞,因此在分類是可以直接提取特征,然后判斷項目是否符合這些特征值桩;Rosch認(rèn)為特征的提取應(yīng)該從類型下的生成例子上開始摆霉,而不是直接運(yùn)用概念標(biāo)簽concept lable。
范例模型認(rèn)為概念是多個向量表示的(每個范例對應(yīng)一個向量)奔坟。
實驗數(shù)據(jù)也表明携栋,即使是完全一樣的分類和特征標(biāo)準(zhǔn),原型模型和范例模型也做不到預(yù)測完全一樣咳秉。(1)在實驗中婉支,只有鳥和交通工具的方差高度相似,有些分類方差差異很大澜建。(2)原型模型是把類別中所有的項目都考慮進(jìn)去向挖,但是實驗數(shù)據(jù)表明對于范例模型來說,超過10個范例炕舵,效果不會繼續(xù)變好何之,甚至?xí)儾睢#?)構(gòu)造一個新的范例模型咽筋,用到關(guān)于距離的方差溶推,
Xim表示第m個特征對第i個項目的適用度。用這種計算后的新范例模型奸攻,預(yù)測效果不如直接評定的之前兩個實驗用到的范例模型蒜危。
之前的研究都認(rèn)為,在完成分類任務(wù)時睹耐,所有之前學(xué)過的例子都會被激活辐赞,本實驗數(shù)據(jù)證明只有一部分頻繁生成的例子就足夠預(yù)測典型性評分,反應(yīng)時等等硝训,并且范例個數(shù)過多還會降低預(yù)測正確率响委。
研究的數(shù)據(jù)和自然狀態(tài)下概念的學(xué)習(xí)還是會有差距:(1)自然條件下的概念學(xué)習(xí)是多階段新思,重復(fù)不定時的,但是實驗室條件下是有規(guī)定是時間用來學(xué)習(xí)(2)實驗用到的概念都是很基礎(chǔ)的晃酒,可能在童年早期就學(xué)會的概念表牢,被試已經(jīng)運(yùn)用這些概念很多年了,因此激活或者存儲方式可能不同贝次。