【心理學(xué)和AI】2020-05-21自然語言類別中的原型和基于范例的信息

Storms, G., De Boeck, P., & Ruts, W. (2000). Prototype and exemplar-based information in natural language categories.?Journal of Memory and Language,?42(1), 51-73

自然語言類別中的原型和基于范例的信息

摘要：本研究報告了兩個實驗蜡歹，用范例模型和原型模型預(yù)測4個因變量的變化情況：典型性評分typicality ratings础拨，反應(yīng)時窄陡，分類命名頻率category-naming frequencies醇坝，自然語言概念的范例生成頻率exemplar-generation frequencies。實驗一中，范例模型預(yù)測得更好，或者兩個模型差異不大膛腐。實驗二中，范例模型對因變量的預(yù)測更好鼎俘。

EXEMPLAR AND PROTOTYPE MODELS FOR ARTIFICIAL CATEGORIES AND NATURAL LANGUAGE CONCEPTS

自然情景下的分類學(xué)習(xí)和實驗室環(huán)境中的分類學(xué)習(xí)是有差別的哲身，不能簡單地泛化實驗結(jié)果得到。和原型模型比起來而芥，范例模型在模擬上有更多困難律罢，因為無法確定每一個范例具體表示什么，（1）每一個范例表示一些抽象的表示（魚包括鯊魚棍丐，金魚等等误辑，其中鯊魚、金魚也是抽象的表示）（2）每一個范例是具體記憶痕跡的表示歌逢，不帶有抽象表示（這一種解釋被更多研究者采納）巾钉。

在自然語言的環(huán)境中的分類，例如蔬菜秘案，交通工具等等砰苍，有三種不同的理論觀點：

（1）沒有任何抽象：只記住了具體的例子，沒有任何抽象信息用言語概念記住了阱高。

（2）有部分抽象赚导，但只存在比學(xué)習(xí)概念第一級的概念上：學(xué)習(xí)蔬菜，下一級概念是番茄等等赤惊。

（3）有抽象吼旧，并且在學(xué)習(xí)的概念（蔬菜）本身的抽象特點就被記住了。

前兩種解釋可以標(biāo)記為范例模型未舟，第三種解釋可以標(biāo)記為原型模型圈暗。

EXPERIMENT 1

典型性評分typicality ratings

原型：類別典型性的不同反映了原型與概念表示(concept representation)之間共有特征的相似性

范例：類別典型性的不同反映了與存儲的類別中樣本的相似性

反應(yīng)時（在快速分類任務(wù)中的反應(yīng)時）

在同一個類別中不同個體的反應(yīng)時也是不同的掂为，以下兩種模型都可以來解釋這種不同。

原型：(Hampton’s ,1979)當(dāng)樣本的特征與原型特征重合達(dá)到一個閾值時员串，被試就會給出“是”的反應(yīng)勇哗，反之，如果非匹配特征達(dá)到一個閾值寸齐，也會給出一個“否”的回答欲诺。

范例：一個好的類別中的樣本是可以激活其他范例的，因此與存儲的范例越相似访忿，反應(yīng)時會越短瞧栗。

分類命名頻率category-naming frequencies和自然語言概念的范例生成頻率exemplar-generation frequencies

這兩個頻率在某種程度上是相反的：在category-naming任務(wù)斯稳，給被試一些范例海铆，要求被試為這些范例所屬的類別命名；在exemplar-generation任務(wù)挣惰，給被試類別的標(biāo)簽卧斟，要求被試命名具體的范例。

在category-naming任務(wù)中憎茂，有些樣本會更大頻率被貼上某一類的標(biāo)簽珍语。原型模型可以解釋為給的樣本的特征可以激活類別原型的特征，從而讓被試想起類別的名字竖幔。范例模型可以解釋為類別與范例之間是具有概率性的板乙。這兩種解釋的區(qū)別就在于之間是否有一個激活過程，但是激活過程的作用還不清楚拳氢，并且一個樣本可以和多個類別有聯(lián)系募逞，這中間的重疊影響也沒有明確的處理辦法。

在exemplar-generation任務(wù)馋评，同樣兩者的區(qū)別在于激活過程activation process放接，而這個過程在兩個模型中的解釋都不清晰，因此本實驗收集這兩個頻率留特，希望可以進(jìn)一步幫忙開發(fā)模型纠脾。

Prototype and Exemplar Based Predictors

實驗一將原型模型的預(yù)測器和范例模型（可以用多個范例來實例化instantiate一個概念）的預(yù)測器相比較。雖然其中的激活過程難以觀察到蜕青，但是可以假定在exemplar-generation任務(wù)的結(jié)果中可以得出在抽樣分布上的近似值苟蹈。同時，我們可以觀察不同數(shù)量的范例對預(yù)測的影響右核。

實驗用到的原型模型是在Hampton’s (1979)模型的基礎(chǔ)上衍生的慧脱，針對不同類別的特征會進(jìn)行適用性applicability的評分，并根據(jù)評分預(yù)測被試相關(guān)的決策蒙兰。

Material

所有概念都是荷蘭語磷瘤，被試母語均為荷蘭語芒篷。一個8種常見分類：廚房用具，家具采缚，交通工具针炉，運(yùn)動，水果扳抽，蔬菜篡帕，鳥，魚贸呢。每類包含36個項目（24個假定的exemplars镰烧，12個nonexemplars，這都是每個類別的上一級概念楞陷，例如水果的上一級概念是食物）怔鳖。根據(jù)Hampton的研究，每個類別分別有13,11,12,14,13,9,16固蛾，和12個特征用來構(gòu)成類別的原型结执。

Procedure

兩個不同的任務(wù)給不同組別的被試：相似性評價任務(wù)(similarity rating task)，特征適用性任務(wù)(feature applicability task)艾凯。同時還有四個任務(wù)用來測試上述4個因力量献幔。

similarity rating task：被試拿到一共八張表（每個類別一張），被試需要評定每張表上的36個項目與1個關(guān)鍵詞之間的相似性趾诗，10分評定（1分完全沒有相似度-10分高度相似度）蜡感。每張表都會對應(yīng)25個最常生成的范例，被試會隨機(jī)分到25個中的一個關(guān)鍵詞恃泪。該任務(wù)有250名大學(xué)生被試郑兴，用時大約30分鐘。

feature applicability task(Matrix Filling)：被試拿到一張矩陣悟泵，行是36個項目杈笔，列是類別特征，要求被試用1或0填寫矩陣糕非，表明這個特征是否存在于這個行項目中蒙具。80個被試，用時大約50分鐘朽肥。

Typicality-rating task：對八個類別的項目集進(jìn)行典型性評分禁筏，7分評定法（-3表示非常不典型，+3表示很典型）衡招。10個大學(xué)生被試篱昔，用時30分鐘。

Speeded categorization task：電腦上會出現(xiàn)一個類別名字（粗體在屏幕中央），項目的名字會出現(xiàn)在類別名字下面州刽，被試需要快速并且正確地判斷項目是否屬于這個類別空执。一共9個類別（8個+1個練習(xí)），每個類別下有24個屬于穗椅，16個不屬于辨绊。18個被試，用時35-40分鐘匹表。

Category naming task：每個被試拿到一張表门坷，表上8個項目，要求被試寫下他最先想到的項目屬于的類別袍镀。一共有36張不同的8個項目表默蚌，每個清單都有10名被試完成。

Exemplar generation task：被試在小冊子上寫下每個類別中想到的10個例子苇羡，按想到的順序?qū)懴隆?/p>

Results

Prototype predictions

圖1：無權(quán)重原型預(yù)測的示意圖

根據(jù)之前的矩陣任務(wù)绸吸，將10個被試的分?jǐn)?shù)相加，可以得到特征的分?jǐn)?shù)宣虾，然后判斷該特征是否適用于這個類別惯裕。圖1 展示的是原始的直接相加纯趋，也有另外的加權(quán)相加祸穷，其中包括三種（1）基于定義概念時特征的重要性（2）基于特征的典型性（3）基于生成特征的頻率（production, generation）

Exemplar prediction

本研究想要嘗試不同數(shù)目范例的預(yù)測矩动，比較不同范例個數(shù)可能帶來的影響。25個范例預(yù)測因子(exemplar predictors)基于產(chǎn)生頻率(generation frequency)進(jìn)行排序鹉胖。第一個預(yù)測器有簡單的一個范例構(gòu)成（與類別最相似）。第二個預(yù)測器是兩個范例的總和够傍。其余預(yù)測因子是通過和剩下的產(chǎn)生頻率最高的范例添加相似度評分構(gòu)建的甫菠。

Prediction of the four dependent variables

原型模型和范例模型都與四種因變量相關(guān)。這種相關(guān)都是基于每類中的24個項目（剩下的12個非類內(nèi)成員被排除了）冕屯，而被排除后寂诱，獲得高預(yù)測水平也會更加困難。最后通過預(yù)測水平來評估模型那個更有效安聘。

表1：原型模型與四個因變量：原型模型在typicality上的解釋比其他三個更好（顯著性都到到了.01）痰洒，同時在反應(yīng)時上除了水果顯著性的也都達(dá)到了.01。?

圖2：范例模型與四個因變量：每幅圖的橫坐標(biāo)為范例的個數(shù)（從1到25）浴韭，縱坐標(biāo)是相關(guān)量丘喻，實線代表范例模型，虛線代表原型模型念颈。

從圖2可以發(fā)現(xiàn)泉粉，范例個數(shù)越多，相關(guān)越高，但是10個以上更多范例增加對性能提升不明顯嗡靡。同時典型性和反應(yīng)時的模式非常相似跺撼，也預(yù)示著，兩者的相似性越高讨彼，反應(yīng)時的數(shù)據(jù)越可靠财边。

表2：范例模型與四個因變量：典型性，反應(yīng)時和例子生成頻率對8個類別都顯著点骑。與原型模型比較酣难，范例模型普遍優(yōu)于或者和原型模型相當(dāng)。

表2的最后一列是范例模型和原型模型的相關(guān)黑滴，發(fā)現(xiàn)有一些重疊憨募，但是也不是完全不可區(qū)分。為了進(jìn)一步分析袁辈，采用了ANOVA（方差分析）與split-plot factorial design（裂區(qū)設(shè)計）菜谣，分析典型性預(yù)測最好，接下來是反應(yīng)時晚缩，后面兩個頻率差異不顯著尾膊。范例模型和原型模型在exemplar-generation頻率上差異顯著，范例模型更好荞彼，其他相互作用上冈敛，只有典型性范例略好，其他差異不顯著鸣皂。

Discussion

整體上抓谴，32個項目與4個因變量的相關(guān)都很高（除了1個），并且范例模型預(yù)測比原型模型表現(xiàn)更好寞缝。隨著范例個數(shù)增加癌压，范例模型預(yù)測更好，但是超過10個荆陆，優(yōu)勢就不明顯滩届。

雖然范例模型和原型模型有差異，但不是分成大的顯著被啼，例如在典型性解釋上帜消，范例模型預(yù)測水果，交通工具趟据，與魚券犁，原型模型預(yù)測家具更好，其他類別的差異并不顯著汹碱。

在category-naming任務(wù)上粘衬，兩種模型差異不顯著，但是在exemplar-generation任務(wù)上，范例模型表現(xiàn)更好稚新。

在幾種不同的原型模型比較中勘伺，不加權(quán)的簡單加和模型預(yù)測最好，這個結(jié)果支持了1979年Hampton的研究褂删。

實驗二想要探究飞醉，不同計算方式的原型模型（實驗一是Hampton(1979)（讓被試想出每個類別的特征，包括向被試提問屯阀，更多激發(fā)他們對類別特征的描述）缅帘，實驗二是Rosch & Mervis (1975)（從類別中的例子出發(fā)，從例子身上提取特征难衰，然后特征適用于更多的例子就分?jǐn)?shù)更高钦无，權(quán)重更高））和范例模型比較，范例模型的微弱優(yōu)勢能不能保持盖袭。

EXPERIMENT 2

實驗二與實驗一大體一致失暂，是將新的原型模型與實驗一的Hampton原型模型、實驗一的范例模型進(jìn)行比較鳄虱。

Material

類別與實驗一相同弟塞，但是只收集24個類內(nèi)項目的數(shù)據(jù)，12個非類內(nèi)項目被刪除了拙已。

Procedure

Attribute generation task：3個被試對5或6個類別中所有24個項目寫下特征决记，每一個類別都有兩個被試進(jìn)行描述。

Attribute applicability judgment task：4個被試對每個類別中的24個項目和所有特征條目進(jìn)行評定悠栓，每個類別完成后可休息霉涨，每個類別用時約25-50分鐘。

Results

Attribute generation task：55,55,73,53,33,37,26,36個特征生成對應(yīng)水果惭适，鳥，交通工具楼镐，運(yùn)動癞志，家具，魚框产，蔬菜凄杯，廚房用具。

Calculate the family resemblance scores：（1）將被試（一共4個）的選擇加起來（2）≥3的記為1秉宿，其余為0（3）每個屬性特征收到的權(quán)重1-24（4）加權(quán)后的和是每個屬性的得分

圖3：實驗二中family resemblance計算示意圖?

表4：family resemblance分?jǐn)?shù)與實驗一中兩個模型的相關(guān)

表4中新算法原型模型與4個因變量的相關(guān)比實驗一中的原型模型低一些戒突。

同樣采用了ANOVA與split-plot factorial design進(jìn)行分析，范例模型在預(yù)測上顯著優(yōu)于兩個原型模型描睦，兩個原型模型間的差異不顯著膊存。在四個因變量上，與實驗一相同，典型性>反應(yīng)時>兩個頻率（類別命名和生成例子差異不顯著）隔崎，并且每個因變量水平都是范例模型表現(xiàn)更好今艺。

Discussion

范例模型比Rosch & Mervis (1975)的原型模型預(yù)測效果更好，也可以說范例模型中用到的加權(quán)方法比family resemblance measure要更好爵卒。

不同類別之間也有差異虚缎，鳥和交通工具可以被預(yù)測的更好，水果和蔬菜會更差钓株，但是在ANOVA分析中差異并不顯著实牡。

GENERAL DISCUSSION

原型模型認(rèn)為概念是由單個向量表示的（包含了概念類別中的特征）。Hampton認(rèn)為這些特征是存儲在概念層次轴合，可以直接訪問的创坞，因此在分類是可以直接提取特征，然后判斷項目是否符合這些特征值桩；Rosch認(rèn)為特征的提取應(yīng)該從類型下的生成例子上開始摆霉，而不是直接運(yùn)用概念標(biāo)簽concept lable。

范例模型認(rèn)為概念是多個向量表示的（每個范例對應(yīng)一個向量）奔坟。

實驗數(shù)據(jù)也表明携栋，即使是完全一樣的分類和特征標(biāo)準(zhǔn)，原型模型和范例模型也做不到預(yù)測完全一樣咳秉。（1）在實驗中婉支，只有鳥和交通工具的方差高度相似，有些分類方差差異很大澜建。（2）原型模型是把類別中所有的項目都考慮進(jìn)去向挖，但是實驗數(shù)據(jù)表明對于范例模型來說，超過10個范例炕舵，效果不會繼續(xù)變好何之，甚至?xí)儾睢＃?）構(gòu)造一個新的范例模型咽筋，用到關(guān)于距離的方差溶推，

Xim表示第m個特征對第i個項目的適用度。用這種計算后的新范例模型奸攻，預(yù)測效果不如直接評定的之前兩個實驗用到的范例模型蒜危。

之前的研究都認(rèn)為，在完成分類任務(wù)時睹耐，所有之前學(xué)過的例子都會被激活辐赞，本實驗數(shù)據(jù)證明只有一部分頻繁生成的例子就足夠預(yù)測典型性評分，反應(yīng)時等等硝训，并且范例個數(shù)過多還會降低預(yù)測正確率响委。

研究的數(shù)據(jù)和自然狀態(tài)下概念的學(xué)習(xí)還是會有差距：（1）自然條件下的概念學(xué)習(xí)是多階段新思，重復(fù)不定時的，但是實驗室條件下是有規(guī)定是時間用來學(xué)習(xí)（2）實驗用到的概念都是很基礎(chǔ)的晃酒，可能在童年早期就學(xué)會的概念表牢，被試已經(jīng)運(yùn)用這些概念很多年了，因此激活或者存儲方式可能不同贝次。

附表：每個類別中最常提到的10個范例