我所說的一切都可能是錯的访忿!
即使你贊同我的觀點(diǎn),你的生活也不會因此有任何改變斯稳!
除非——你采取了相應(yīng)的行動海铆。
(這是書先生在簡書的第171篇文章。本文約4100字挣惰,請花12分鐘來閱讀游添。)
引子
昨天,大家期盼良久的“中美主持人對決”在非惩ㄏǎ“祥和”的氣氛中開始、進(jìn)行并結(jié)束了找都。缺少了預(yù)期中的火藥味唇辨,可能有些朋友會有點(diǎn)失望。不過仔細(xì)一想能耻,這也是意料中事:一方要刻意展示友好或者至少不要繼續(xù)表現(xiàn)出“潑婦”的樣子赏枚,另一方是帶著鐐銬跳舞,對話自然不會那么針鋒相對晓猛。
相信大家昨天也看了不少關(guān)于這次對話的分析饿幅,我也瀏覽了一些。說實(shí)話戒职,對目前的分析栗恩,我有點(diǎn)失望,因?yàn)榇蠖鄶?shù)分析人士連對話原文都不清楚洪燥,甚至連CGTN自己的報(bào)道也是“斷章取義”磕秤。不過話又說回來,這個(gè)對話無論是從辯論捧韵、還是演講的角度都沒有多少分析價(jià)值市咆,原因嘛,就是上面說的兩點(diǎn)再来。例行公事似的對話蒙兰、官宣一般的發(fā)言,實(shí)在算不上特別好的學(xué)習(xí)材料芒篷。
不過從語言分析的角度來看搜变,這段“中美主持人巔峰對決”的對話可是是好材料。它好就好在具有可比性:兩個(gè)英語水平都非常高的人就同一個(gè)話題展開對話梭伐。這可是做語言學(xué)分析的人夢寐以求的好東西啊痹雅。
看完她們的對話,我相信很多中國人都會有這樣的感嘆:劉欣的英語真流利啊糊识。我的感覺和大家一樣绩社。不過摔蓝,我想更深入的看一下這個(gè)問題:劉欣的英語到底有多好,尤其是和翠西相比愉耙。于是有了本文的標(biāo)題贮尉。
翠西的英語無疑是非常好的。首先朴沿,英語是她的母語猜谚;其次,她是哥倫比亞大學(xué)歷史系畢業(yè)赌渣,要知道魏铅,文科對語言水平要求都很高;第三坚芜,她常年在美國主流電視臺做主持工作览芳,這個(gè)工作對語言水平要求也很高。
劉欣的英語簡歷也是非常出彩的鸿竖。南京外國語大學(xué)英語專業(yè)畢業(yè)沧竟,中國首屆全國大學(xué)生英語演講比賽冠軍,世界英語聯(lián)合會(ESU)舉辦的世界英語演講比賽冠軍缚忧。
兩位都是英語高手悟泵。從背景來看,我們可以假設(shè)翠西的英語水平略高闪水。如果這個(gè)假設(shè)成立糕非,一個(gè)很有意思的問題就是:劉欣可能是哪一塊稍微要差一點(diǎn)?這個(gè)問題敦第,不但有趣峰弹,而且很重要,因?yàn)樗拇鸢缚梢詾橛⒄Z已經(jīng)很好的學(xué)習(xí)者指明精進(jìn)的方向芜果。
下面鞠呈,我就用數(shù)據(jù)來回答這個(gè)問題。
第一步是什么右钾?
分析數(shù)據(jù)的第一步是什么蚁吝?——清理數(shù)據(jù)。如果你數(shù)據(jù)本來不干凈舀射,noise太多窘茁,甚至還不準(zhǔn)確,那后續(xù)的分析都沒有意義脆烟。這也是為什么我對昨天讀到的分析都不是太滿意山林,因?yàn)槠渲写蠖鄶?shù)根本就不知道準(zhǔn)確的對話是什么。
所以邢羔,我做的第一件事情就是盡可能準(zhǔn)確的轉(zhuǎn)錄翠西和劉欣的對話驼抹。她們短短的16分鐘對話桑孩,我花了好幾個(gè)小時(shí)來整理。因?yàn)榫W(wǎng)上的文本大多不靠譜框冀,我只能靠自己聽流椒。最后的結(jié)果是:雖然她們搶著說的地方有幾個(gè)單詞不清楚,其它部分我應(yīng)該非常準(zhǔn)確明也。
如果你需要整理好的文本用于學(xué)習(xí)宣虾、教學(xué)或者研究,請?jiān)诤笈_回復(fù)“劉欣”温数,即可獲取下載地址绣硝。
有了準(zhǔn)確的數(shù)據(jù),我們就可以分析了撑刺。
如何分析域那?
我準(zhǔn)備從文本復(fù)雜度入手來比較翠西和劉欣分別的發(fā)言。通常有兩個(gè)向度可以衡量文本復(fù)雜度猜煮,一是詞匯復(fù)雜度(lexical complexity),二是句法復(fù)雜度(syntactic complexity)败许。有很多研究都表明王带,這兩個(gè)向度和語言水平(proficiency)呈正相關(guān),所以通過它們來比較翠西和劉欣的英語是可行的市殷。
在呈現(xiàn)分析結(jié)果之前愕撰,我必須提醒一下:所有分析結(jié)果都只是基于這個(gè)對話〈浊蓿或許對話并沒有完全展示雙方的真實(shí)水平搞挣,因此不能就此就得出誰英語比誰更好的結(jié)論。也就是說音羞,我后面的討論只針對被分析的文本囱桨,不能視為我對雙方英語水平的判斷。
下面就開始我們的分析嗅绰,在這個(gè)過程中舍肠,我也會介紹一些有關(guān)文本復(fù)雜度的基礎(chǔ)知識。相信大家看完這篇文章窘面,以后就會自己去分析了——授人以魚不如授人以漁翠语。
詞匯復(fù)雜度
我們先來看詞匯復(fù)雜度。為了理解詞匯復(fù)雜度的指標(biāo)财边,我們有必要知道幾個(gè)基本的概念:
- 形符數(shù)(type):文本中所有單詞數(shù)量的總和肌括。
- 類符數(shù)(type):文本中不重復(fù)的單詞書路的總和。
- 實(shí)詞(lexical word):名詞酣难、動詞谍夭、形容詞和副詞等開放詞類
- 虛詞(grammatical word):介詞黑滴、冠詞、連詞和代詞等封閉詞類
- 難詞(sophiticated word):在本分析中指頻數(shù)排名在前2000以后的單詞(以BNC統(tǒng)計(jì)為準(zhǔn))
舉個(gè)栗子:Boys are always boys.這句話形符數(shù)是4慧库,因?yàn)樗?個(gè)單詞跷跪。類符數(shù)是3,因?yàn)槠渲杏袃蓚€(gè)boys齐板,不重復(fù)的數(shù)量只有3吵瞻。
好了,基礎(chǔ)知識已經(jīng)夠了甘磨。詞匯復(fù)雜度的各種指標(biāo)大多都是基于這5個(gè)指標(biāo)的計(jì)算橡羞。所以,第一步济舆,我們先來觀察一下卿泽,翠西和劉欣的發(fā)言在這些基礎(chǔ)指標(biāo)上的比較。
從上表可以看出滋觉,劉欣說了大約1600個(gè)詞签夭,而翠西絲略少,約1300詞椎侠。我用約第租,是因?yàn)殡p方搶著說的地方有幾個(gè)單詞不是很清楚,不過大致是沒有問題的我纪。劉欣說得稍多慎宾,這容易理解,因?yàn)樗谴饐柕囊环角诚ぁ螐臄?shù)量上來看趟据,我們會覺得劉欣用的復(fù)雜詞匯更多。但這可能是因?yàn)閯⑿勒f的話更多术健。事實(shí)是否如此汹碱,還要看比例。下面我們就來看一下詞匯復(fù)雜度荞估。
詞匯復(fù)雜度一般通過三個(gè)大類來衡量:詞匯密度(lexical density)比被,詞匯復(fù)雜性(lexical sophistication)和詞匯多樣性(lexical variability)。我們挨個(gè)兒來看泼舱。
詞匯密度
詞匯密度是指文本中實(shí)詞所占的比例等缀,即實(shí)詞形符數(shù)/總詞數(shù)。在這個(gè)指標(biāo)上娇昙,劉欣為0.49尺迂,翠西為0.46,劉欣略高于翠西。通過更細(xì)致的分析噪裕,我認(rèn)為蹲盘,出現(xiàn)這個(gè)差異的原因可能有三個(gè):
第一,翠西使用“填充語”(filler)的頻率更高膳音。填充語是指那些沒有實(shí)際意義召衔,只是起一些引起注意或者為說話者爭取時(shí)間的詞或者詞組。比如祭陷,well, you know, look, I mean等苍凛。從上表可以看出,翠西使用you know, I mean, look等的頻率都高于劉欣兵志。在有一句話里醇蝴,翠西甚至一連用上了三個(gè)填充語(如下)。you know和I mean里都包含代詞想罕,這客觀上降低了翠西的詞匯密度悠栓。
Trish: Right, I mean, you know, look, I think, as I said, we can all agree that if you're going to do business with someone, it has to be based on trust, and you don't want anyone stealing your valuable information that you've spent decades working on.
Trish: And you know, look, I think that the the liberalized economic world in which we live has valued intellectual property and it's governed by a set of laws, and so we all need to kind of play by the rules and play by those laws.
另外,有意思的是按价,劉欣使用well的頻率高于翠西惭适,而look一次都沒有用。這可能是因?yàn)閣ell是我們會學(xué)習(xí)的一個(gè)填充語楼镐,而look很少顯性教學(xué)腥沽。這表明,我們在英語教學(xué)中鸠蚪,可能需要有意識增加一些填充語使用的內(nèi)容。
第二师溅,翠西使用人稱代詞的I和you的頻率也高于劉欣茅信。同樣有意思的是,劉欣使用I think的頻率要高于翠西墓臭≌壕ǎ可見,哪怕英語水平高如劉欣窿锉,也免不了中國英語學(xué)習(xí)者I think使用過多的問題酌摇。
第三,翠西使用that的頻率遠(yuǎn)高于劉欣嗡载。這和第二條也有點(diǎn)關(guān)系窑多。在翠西的13次I think后面,4次用了that洼滚,占比30.77%埂息。而在劉欣的24次I think后面,只有5次用了that,占比20.83%千康。更仔細(xì)的分析享幽,發(fā)現(xiàn)翠西的I think有不少是用作插入語,例如:
Trish: There is a rule that enables the United States to use tariffs to try to influence the behaviour of China should it be taking, stealing our intellectual property, and that, I think, in some way is part of what this all comes back to you.
Trish: But this issue is, I think, where the country as a whole needs to step in and we're seeing the United States do that.
而在劉欣的發(fā)言里拾弃,I think沒有一次用作插入語值桩。這種用法,是母語使用者和外語學(xué)習(xí)者的一個(gè)顯著的差異豪椿。所以奔坟,I think, I guess這樣的詞組用作插入語的用法,可能我們在英語教學(xué)中需要有意識的提一下砂碉。
詞匯復(fù)雜性
詞匯復(fù)雜度一般通過難詞的占比來測量蛀蜜。常見的有以下幾種測量方式:
- 復(fù)雜實(shí)詞占實(shí)詞的比例,我們用LS1來表示增蹭。
- 復(fù)雜類符占總類符的比例滴某,我們用LS2來表示。
另外由于動詞是句子的核心滋迈,所以有專門的算法來測量動詞的復(fù)雜性霎奢,比如:
- 復(fù)雜動詞類符占動詞的比例,我們用VS1來表示饼灿。
上面三種測量方式都有一個(gè)弊端幕侠,那就是隨著文本長度增加,結(jié)果會變小碍彭。也就是說晤硕,如果兩個(gè)文本長度差異很大,結(jié)果會不準(zhǔn)確庇忌。好在兩位主持人的發(fā)言字?jǐn)?shù)差不多舞箍,所以我們就只用這三個(gè)指標(biāo)就可以了。檢測結(jié)果如下:
有意思的結(jié)果出現(xiàn)了:如果不考慮詞類皆疹,翠西和劉欣的詞匯復(fù)雜度幾乎沒有區(qū)別疏橄。但當(dāng)我們聚焦在動詞上時(shí),翠西的動詞復(fù)雜性高出劉欣60%略就。這是不是就表明翠西使用了更多更難的動詞呢捎迫?不一定。VS1指標(biāo)有一個(gè)問題表牢,那就是它是一刀切窄绒,沒有考慮2000詞頻以上的差異。舉個(gè)例子崔兴,一個(gè)可能的情況是翠西在2000-5000這個(gè)詞頻段用得多颗祝,而劉欣在5000-10000這個(gè)詞頻段用得更多浊闪,但是總體上來,在2000以上翠西更多螺戳。這樣分析結(jié)果就會顯示翠西難詞用得更多搁宾。
真實(shí)情況到底是什么呢?不如我們來具體看看雙方分別用了什么動詞倔幼。
雙方都使用的動詞:'base', 'agree', 'mean', 'lower', 'know', 'do', 'be', 'pay', 'get', 'work', 'develop', 'believe', 'steal', 'have', 'let', 'ask', 'see', 'decide', 'need', 'play', 'will', 'look', 'want', 'make', 'hear', 'happen', 'use', 'force', 'go', 'talk', 'tell', 'think', 'define', 'may', 'come', 'take', 'give', 'speak', 'thank', 'say'
翠西使用而劉欣沒有使用的動詞:'welcome', 'mention', 'forgive', 'discuss', 'abandon', 'govern', 'operate', 'lead', 'include', 'liberalize', 'pass', 'stall', 'identify', 'watch', 'require', 'appreciate', 'value', 'turn', 'rid', 'guess', 'join', 'explain', 'share', 'stall', 'live', 'stress', 'borrow', 'oversee', 'enable', 'bear', 'try', 'run', 'spend', 'stop', 'charge', 'bring', 'pursue', 'love', 'step', 'claim', 'keep', 'realize', 'influence', 'overlook', 'care', 'hang'
劉欣使用而翠西沒有使用的動詞:'learn', 'call', 'sue', 'face', 'correct', 'plan', 'invest', 'understand', 'divide', 'reach', 'achieve', 'grow', 'consider', 'contribute', 'show', 'own', 'establish', 'employ', 'forget', 'put', 'wanna', 'depend', 'skid', 'deny', 'become', 'dream', 'write', 'continue', 'explore', 'deal', 'prosper', 'skip', 'treat', 'control', 'affect', 'commit', 'carry', 'discriminate', 'expect', 'assume', 'produce', 'find', 'change', 'cooperate', 'like'
雙方都使用的盖腿,顯然是一些常見的單詞。而劉欣使用翠西沒有使用的詞直覺上難度比翠西單獨(dú)使用的難度更高损同。這說明兩個(gè)問題:**一方面翩腐,我們可以說劉欣的詞匯復(fù)雜度不屬于高水平母語使用者。另一方面膏燃,我們可能需要加強(qiáng)中等頻率詞匯的教學(xué)茂卦,因?yàn)閯⑿朗褂酶y單詞的原因是因?yàn)槲覀冞^于強(qiáng)調(diào)難詞的使用,而反之组哩,對中等評率使用重視不夠等龙。
詞匯多樣性
最后,我們來看一下詞匯多樣性伶贰。詞匯多樣性是指文本中不重復(fù)單詞的比例蛛砰。說到這里,我相信你很快就會想到黍衙,最簡單的檢測方式就是“類符-形符比”(Type-token ratio, TTR)泥畅。沒錯,TTR是最直觀的方式琅翻。
不過TTR也有個(gè)問題位仁,那就是對文本長度很敏感。隨著文本長度增加方椎,TTR會下降聂抢。更準(zhǔn)確的測量方式是使用“標(biāo)準(zhǔn)類符-形符比”(STTR),即按順序截取n個(gè)字符辩尊,計(jì)算TTR,然后再取平均數(shù)康辑。因?yàn)槲覀兊奈谋竞苄∩阌晕覀冺樞蚪厝?0個(gè)單詞。你肯定也能想到疮薇,這種方法會造成數(shù)據(jù)浪費(fèi)胸墙,因?yàn)槲谋敬笮〔灰欢ㄊ?0的整數(shù)倍。
TTR是實(shí)詞按咒、虛詞一起考慮的迟隅。從文本的內(nèi)容角度來看,實(shí)詞的多樣性更能說明問題。所以智袭,我們也考察實(shí)詞多樣性(LV)奔缠,即實(shí)詞類符/實(shí)詞形符。我們也可以看得更細(xì)吼野,每一種實(shí)詞種類占實(shí)詞形符的比值校哎,分別用VV1, NV, ADJV和ADVV來表示。結(jié)果見下表:
從上表可以看出瞳步,實(shí)詞多樣性翠西要高于劉欣闷哆,但這個(gè)差異主要來源是動詞多樣性,而名詞单起、形容詞和副詞的使用上抱怔,雙方?jīng)]有差異。
結(jié)語
今天我們比較了翠西和劉欣對話的詞匯復(fù)雜性嘀倒。通過上面的分析屈留,我們可以得出了一些對英語學(xué)習(xí)和教學(xué)有參考價(jià)值的結(jié)論。我?guī)湍阍倏偨Y(jié)一下:
- 劉欣的英語真的是非常好括儒,和高水平母語者相比也不遑多讓绕沈。
- 我們應(yīng)該適當(dāng)加強(qiáng)填充語使用的教學(xué)。
- 我們應(yīng)當(dāng)適當(dāng)加強(qiáng)插入語使用的教學(xué)帮寻。
- 我們應(yīng)當(dāng)適當(dāng)加強(qiáng)中等頻率詞匯使用的教學(xué)乍狐。
詞匯復(fù)雜度的分析就到此,下一篇分析她們的“句法復(fù)雜度”固逗,歡迎繼續(xù)關(guān)注浅蚪。詞匯復(fù)雜度和句法復(fù)雜度在線分析的網(wǎng)址如下:
https://aihaiyang.com/software
其余數(shù)據(jù)我是用spaCy分析的。
記得在后臺回復(fù)“劉欣”烫罩,即可獲取校對過的完整文本惜傲。然后你也可以自己分析一下。
順祝各位大小朋友贝攒,兒童節(jié)快樂盗誊。