1.2?語言學(xué)
我們已經(jīng)了解了自然語言是什么曙聂,語言是如何學(xué)習(xí)和使用的,以及語言習(xí)得的起源吃引。事實(shí)上筹陵,語言學(xué)家正是研究和學(xué)習(xí)與語言相關(guān)的研究人員或?qū)W者。嚴(yán)格講镊尺,語言學(xué)的是對(duì)語言的科學(xué)研究朦佩,包括語言的形式和語法,語言使用時(shí)所描述的意義和語義庐氮,以及使用的語境语稠。語言學(xué)的起源可以追溯到公元前4世紀(jì),當(dāng)時(shí)的印度學(xué)者和語言學(xué)家Panini將梵語描述進(jìn)行規(guī)范弄砍。語言學(xué)一詞最早是在1847年被定義為對(duì)語言的科學(xué)研究仙畦,在此之前,語音學(xué)一詞表示的也是同樣的意思音婶。雖然文本分析不需要對(duì)語言學(xué)進(jìn)行詳盡的探索慨畸,但需要了解語言學(xué)的不同領(lǐng)域的應(yīng)用,因?yàn)槠渲幸恍╊I(lǐng)域在自然語言處理和文本分析算法中得到了廣泛的應(yīng)用衣式。下面來看語言學(xué)的主要究領(lǐng)域寸士。
?語音學(xué)(Phonetics):語音學(xué)是研究人類聲道在講話時(shí)所發(fā)出的聲音的聲學(xué)特性。包括它們是如何產(chǎn)生的碴卧,以及人類是如何感知的弱卡,等聲學(xué)特征。人類語言中最小的單位稱之為音素住册,它通常是與特定的語言相關(guān)婶博,而不是一個(gè)如電話這種通用的術(shù)語定義。
?音系學(xué)(Phonology):這是一門研究人腦解析聲音模式的學(xué)科荧飞,用于區(qū)分不同的音素凡人。詳細(xì)包括音素的結(jié)構(gòu)、組合和演繹等叹阔,音系學(xué)通常要考慮到某種特定的語言划栓。英語由大約45個(gè)音素組成。音系學(xué)通常不只是研究音素条获,還包括重音、聲調(diào)和音節(jié)結(jié)構(gòu)蒋歌。
?句法(Syntax):通常是對(duì)句子帅掘、短語委煤、單詞及其結(jié)構(gòu)的研究,包括研究單詞在語法上是如何組合成短語和句子的修档。短語或句子中單詞的順序非常重要碧绞,因?yàn)轫樞蚩梢酝耆淖兙渥拥囊馑肌?/p>
?語義(Semantics):對(duì)語言含義的研究,可進(jìn)一步細(xì)分為詞匯語義和成分語義吱窝。
? ? 詞匯語義(Lexical semantics):使用形態(tài)學(xué)和語法研究單詞和符號(hào)的含義讥邻。
? ? 成分語義(Compositional semantics):研究單詞之間的關(guān)系和單詞的組合,理解短語和句子的含義以及它們之間的關(guān)系院峡。
形態(tài)學(xué)(Morphology):根據(jù)其定義兴使,語素是具有獨(dú)特含義的最小語言單位,包括單詞照激、前綴发魄、后綴等等,它們都有自己獨(dú)特的含義俩垃。形態(tài)學(xué)是研究語言中這些獨(dú)特的單位或語素的結(jié)構(gòu)和含義励幼。有特定的規(guī)則和語法來控制語素的組合方式。
詞匯(Lexicon):是一門研究語言所使用的單詞和短語的特性以及它們是如何構(gòu)建語言詞匯的學(xué)科口柳。包括什么類型的聲音與單詞的含義相關(guān)聯(lián)苹粟,以及單詞所屬的詞類和詞形形式。
語用學(xué)(Pragmatics):研究語言和非語言因素跃闹,如語境和情景嵌削,是如何影響話語所表達(dá)的含義。包括嘗試在交談中推論是否有隱藏或間接的含義辣卒。
語篇分析(Discourse analysis):以句子的形式分析人與人交談時(shí)相互之間的語言或信息交流掷贾。這些對(duì)話可以被說,寫荣茫,甚至是標(biāo)記(sign)想帅。
文體學(xué)(Stylistics):是一門以寫作風(fēng)格為重點(diǎn)的語言研究,包括語調(diào)啡莉、重音港准、對(duì)話、語法和語音類型咧欣。
符號(hào)學(xué)(Semiotics):研究標(biāo)記浅缸、符號(hào)和標(biāo)記過程,以及它們?nèi)绾蝹鬟_(dá)意義的學(xué)科魄咕。如類比衩椒、隱喻和象征之類的研究都包含在這個(gè)領(lǐng)域中栗涂。
這些都是語言學(xué)主要的研究領(lǐng)域,但語言學(xué)本身是一個(gè)巨大的研究課題竿痰,其范圍遠(yuǎn)遠(yuǎn)大于這里所提到的這些褪测。但是,語言句法和語義是一些最重要的概念阁将,并且常常是構(gòu)成自然語言處理(NLP)的基礎(chǔ)膏秫。因此,我們將在下一節(jié)中進(jìn)一步詳細(xì)地進(jìn)行介紹做盅。為了便于理解缤削,我們會(huì)用一些實(shí)際案例來闡明一些概念〈盗瘢可以在我的GitHub庫(kù)中下載第1章的Jupyter?notebook亭敢,地址為https://github.com/dipanjans/text-analytics-with-python /tree/master/new-second edition,運(yùn)行這些示例之前腊尚,首先要在Python環(huán)境中加載以下依賴吨拗。第2章會(huì)詳細(xì)說明如何安裝和設(shè)置Python和特定框架。