截止到現(xiàn)在寫博客為止,我的英語處于糟透了的狀態(tài)识脆,是個合格的英語弱雞设联。
最近對英語莫名其妙的感興趣了,我想學(xué)英語灼捂。
都說日常交流要不了多少詞匯量离例,到底要多少啊,為了得到這個答案悉稠,我開始百度宫蛆。。
百度出來的東西都亂七八糟的的猛,有說1000的耀盗,有說2000的,有說5000的卦尊,有說12000的叛拷,我也不知道到底是多少,不如我自己來統(tǒng)計一下岂却。
于是我選擇了了《查理成長日記》第一季這個家庭喜劇作為我統(tǒng)計的目標忿薇,OK,目標已經(jīng)定好了躏哩,那應(yīng)該怎么統(tǒng)計呢署浩,來看看我最開始的想法,寫一個app扫尺,或者小demo筋栋,打開視頻,人物每說一句話器联,我就把英文單詞記下來二汛,按照這個方法記錄完所有的單詞婿崭。當時還特么覺得這是個不錯的方法,現(xiàn)在想想真是蠢爆了肴颊,直接下載字幕氓栈,分析字幕不就行了嗎。
于是我下載第一季1-10集的字幕婿着,字幕打開長這樣子授瘦。
(隨便截取的某一集的其中一段)
4
00:00:19,930 --> 00:00:21,560
Happy Birthday, sweetie.
5
00:00:21,570 --> 00:00:23,410
I love you, baby girl.
6
00:00:23,410 --> 00:00:25,570
You're the best.
7
00:00:25,570 --> 00:00:28,100
I'm just here for the cake.
8
00:00:29,510 --> 00:00:33,510
Well, four out of the five Duncans are excited.
不行啊,這格式不是我想要的格式竟宋,于是我寫了一些Java代碼提完,將我想要的句子整理出來保存到一個新的文件里面,最后字幕長這樣:
i close my eyes take a bite
grab a ride laugh out loud
there it is up on the roof
i've been there i've survived
so just take my advice
hang in there baby things are crazy
but i know your future is bright
hang in there baby
there is no maybe
eveything turns out all right
sure life is up and down
nice丘侠!徒欣,這就是我想要的效果。
于是我繼續(xù)優(yōu)化我的代碼蜗字,慢慢統(tǒng)計打肝。
最后總算得到了一個滿意的結(jié)果,以下是我想要知道的信息:
- 一共使用了多少單詞
- 每個單詞的使用頻率是多少
來看看最后我統(tǒng)計的結(jié)果:
看看上面那個表挪捕,單詞總使用個數(shù)是只對話中一共用到了多少單詞粗梭,這里包含重復(fù)的單詞,單詞個數(shù)則是指對話中用到了哪些單詞级零《弦剑看表是不是有點二八定律的意思,80%的對話都只用到了20%的詞匯奏纪。不過由于生詞增加的速度越來越慢鉴嗤,所以越到后面,詞匯量的需求會越來越穩(wěn)定亥贸。我們根據(jù)自己的需求記單詞就行了躬窜,假設(shè)你需要99%的東西你都要懂,那你需要掌握的詞匯量就很多了炕置。待會我們來分析詞匯量的問題荣挨。
只出現(xiàn)過一次的單詞個數(shù)是指在整個對話中,只出現(xiàn)過唯一一次的單詞的個數(shù)朴摊。大概占了詞匯量的50%默垄,這是否意味著,如果只記高頻率單詞甚纲,你會有50%的對話都聽不懂呢口锭?肯定不是,因為這是低頻詞匯,所以不能代入到整個對話情景中鹃操,這里說個大概韭寸,如果沒有掌握這50%的低頻詞匯,跟別人交流荆隘,大概有10%以內(nèi)的意思沒有完美理解恩伺,不過也許人家換個含有簡單詞匯的句子再給你解釋一邊,我想椰拒,應(yīng)該也能懂晶渠。
情景對話:(假設(shè)方括號中是你的生僻詞)
小明:今天天氣好好哦。
小紅:對啊燃观,今天是[晴天]褒脯,是我最喜歡的天氣。
小明:[晴天]是什么意思缆毁?
小紅:就是萬里無云的意思
是不是給人一種智障的感覺= =
可能例子太簡單了番川,換個難一點的
小明:我想吃那個,我們一起去吃
小紅:好啊脊框,我們就吃那個
小明(吃了一會兒):哇爽彤,快看,那個看起來好好吃啊缚陷,我也要吃
小紅:你怎么跟個[饕餮]似的
小明:啥是[饕餮]
小紅:就是說你很貪心的意思
這個看著是不是就沒啥違和感。所以低頻詞匯不掌握全也沒啥關(guān)系往核。
做一個折線圖:
走勢是不是有點慢慢變平緩的意思箫爷?我們再加10集的詞匯
再來更加折線圖
是不是確實平緩了,隨著對話時間增加聂儒,單詞的使用量雖然也會增加虎锚,但是所需詞匯量的增加速度就越來越慢了。
一集大概20分鐘衩婚,這里有20集窜护,也就是400多分鐘,假設(shè)上述數(shù)據(jù)記為標準非春,也就是要跟人聊日常需要詞匯量4000迹恐,但是這里有一半的詞匯都只出現(xiàn)過一次作瞄,所以90%的聊天只需要2000詞匯量。所以這是結(jié)論嗎?
其實根據(jù)上述數(shù)據(jù)可以算出來拳氢,大概1100的詞匯量滿足80%的日常生活對話,假設(shè)你的詞匯量是2000船万,你可以滿足88%的日常對話街立,看啊,1100的詞匯量就能滿足80%了什湘,再加900詞匯量长赞,只能增加8%晦攒。這里的詞匯量不包含那些低頻率詞匯。
給大家看看我通過代碼計算出來的頻率超過200的單詞有哪些:
you:1834
i:1759
the:1171
to:1113
a:1091
and:737
it:637
is:604
that:598
my:491
what:474
me:468
i'm:449
in:447
oh:434
of:425
your:417
this:414
we:388
no:386
on:383
have:343
do:340
so:329
be:316
just:305
for:301
not:298
are:298
okay:287
out:283
know:281
well:278
it's:265
with:262
get:260
like:260
all:259
don't:257
right:257
was:253
but:249
here:245
hey:239
you're:238
that's:226
there:224
go:223
yeah:219
gonna:215
up:213
charlie:209
about:207
一共使用了49834個單詞得哆,看看這些使用次數(shù)超過200的單詞脯颜。是不是都是我們認識的。
來看看這些單詞對應(yīng)頻率的折線圖長什么樣子柳恐。
由于單詞有4000多個伐脖,所以橫坐標不可能顯示全。
對于單詞的頻率分析就到這里乐设,根據(jù)頻率記單詞應(yīng)該沒有問題讼庇,
順便補充兩個電影的單詞頻率分析,頭腦特工隊和超人總動員2
結(jié)論是:
單詞總使用個數(shù):20914
出現(xiàn)單詞個數(shù):2745
只出現(xiàn)過一次的單詞的個數(shù):1429
兩個電影時間加起來大概三個小時半近尚,用到的詞匯不過才2745個蠕啄,去掉低頻詞匯,居然只有1316的單詞戈锻。
一通分析下來歼跟,感覺口語也沒那么難嘛。我特么學(xué)這么多年英語都在干啥格遭。