第二章:智能Agent
2.1? Agent和環(huán)境
1:Agent通過傳感器感知環(huán)境并通過執(zhí)行器對所處環(huán)境產(chǎn)生影響逆航。
2:Agent的感知序列是該Agent所收到的所有輸入數(shù)據(jù)的完整歷史。
3:人造Agent的Agent函數(shù)通過Agent程序?qū)崿F(xiàn),區(qū)分這兩個概念十分重要。Agent函數(shù)是抽象的數(shù)學(xué)描述祠乃;Agent程序則是具體實現(xiàn),它在一些物理系統(tǒng)內(nèi)部運行。
2.2 好的行為:理性的概念
1:理性Agent是做正確的Agent绣檬。
2:對所有的任務(wù)和Agent,沒有一成不變的固定的性能度量嫂粟。
3:作為一般原則娇未,最好根據(jù)在環(huán)境中希望得到的結(jié)果來設(shè)計性能度量,而不是根據(jù)Agent表現(xiàn)出的行為赋元。
2.2.1? 理性
什么是理性的判斷依賴于以下4個方面:
A:定義成功標(biāo)準(zhǔn)的性能度量忘蟹。
B:對環(huán)境的先驗知識。
C:Agent可以完成的行動搁凸。
D:Agent截止到此的感激序列媚值。
對每一個可能的感知序列,根據(jù)已知的感知序列提供的證據(jù)和Agent具有的先驗知識护糖,理性Agent應(yīng)該選擇能使其性能度量最大化的行動褥芒。
2.2.2? 全知者,學(xué)習(xí)和自主性
1:必須區(qū)別理性和全知的概念,一個全知的Agent明確地知道它的行動產(chǎn)生的實際結(jié)果并且做出相應(yīng)的動作锰扶,但全知者在現(xiàn)實中是不可能的献酗。
2:理性是使期望的性能最大化,而完美是使實際的性能最大化坷牛。
3:對理性的定義并不要求全知罕偎,因為理性的選擇只依賴于到當(dāng)時為止的感知序列。
4:為了修改未來的感知信息而采取的行動有時稱為信息收集京闰,它是理性的重要部分颜及。
5:我們的定義不僅要求理性Agent收集信息,而且要求Agent從它感知的信息中盡可能多的學(xué)習(xí)蹂楣。
2.3? 環(huán)境的性質(zhì)
2.3.1? ? ? 任務(wù)環(huán)境的規(guī)范描述
我們必須規(guī)定性能度量俏站,環(huán)境以及Agent的執(zhí)行器和傳感器,把所有的這些歸在一起痊土,都屬于任務(wù)環(huán)境肄扎。根據(jù)首字母縮寫,我們稱之為PEAS描述赁酝。設(shè)計Agent時犯祠,第一步就是盡可能完整地詳細說明任務(wù)環(huán)境。
2.3.2? ? ? ?任務(wù)環(huán)境的性質(zhì)
1:完全可觀察的與部分可觀察的
2:單Agent與多Agent
3:確定的與隨機的
4:片段式的與延續(xù)式的
5:靜態(tài)的與動態(tài)的
6:離散的與連續(xù)的
7:已知的與未知的
2.4? Agent的結(jié)構(gòu)
AI的任務(wù)是設(shè)計Agent程序赞哗,它實現(xiàn)的是把感知信息映射到行動的與多Agent函數(shù)雷则。假設(shè)該程序要在某個具備物理傳感器和執(zhí)行器的計算裝置上運行-我們稱之為體系結(jié)構(gòu)??
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?Agent=體系結(jié)構(gòu)+程序
2.4.1?Agent程序
1:本書中Agent程序都具有同樣的框架:輸入為從傳感器得到的當(dāng)前感知信息,返回的是執(zhí)行器的行動抉擇肪笋。
2:AI的關(guān)鍵挑戰(zhàn)是搞清如何編寫程序月劈,在可能的范圍內(nèi)用少量代碼而不是龐大的表來生成理性行為。
四種基本的Agent
2.4.2? 簡單反射Agent
簡單Agent基于當(dāng)前的感知選擇行動藤乙,不關(guān)注感知歷史猜揪。簡單反射型Agent具有極好的簡潔性,但是它們的智能也很有限坛梁。
2.4.3? 基于模型的反射Agent
1:處理部分可觀察環(huán)境的最有效途徑是讓Agent跟蹤記錄現(xiàn)在看不到的那部分世界而姐,即Agent應(yīng)該根據(jù)感知歷史維持內(nèi)部狀態(tài),從而至少反映出當(dāng)前狀態(tài)看不到的信息划咐。
2:隨時更新內(nèi)部狀態(tài)信息要求在Agent程序 中加入兩種類型的知識拴念,首先,我們需要知道世界是如何獨立于Agent而發(fā)展的信息褐缠。其次政鼠,我們需要Agent自身的行動如何影響世界的信息。
3:關(guān)于"世界如何運轉(zhuǎn)"的知識--無論是用簡單的布爾電路還是用完備的 科學(xué)理論實現(xiàn)--都被稱為世界模型队魏,使用這種模型的Agentb被稱為基于模型的Agent公般。
2.4.4? 基于目標(biāo)的Agent
搜索和規(guī)劃是尋找達成Agent目標(biāo)的行動序列的人工智能領(lǐng)域。盡管基于目標(biāo)的Agent顯得效率較低,但是它更靈活官帘,因為支持它決策的知識被顯式表示出來瞬雹,并且可以修改。
2.4.5? ? 基于效用的Agent
僅靠目標(biāo)在很多環(huán)境中不足以生成高品質(zhì)的行為刽虹。Agent的效用函數(shù)是性能度量的內(nèi)在化酗捌,如果內(nèi)在的效用函數(shù)和外在的性能度量是和諧的,那么選擇最大效用行動的Agent根據(jù)外在的性能度量也是理性的状婶。
2.4.6? ?學(xué)習(xí)Agent
學(xué)習(xí)Agent可以被劃分為四個概念上的組件意敛,最重要的區(qū)別體現(xiàn)在學(xué)習(xí)元件和性能元件之間,學(xué)習(xí)元件負責(zé)提高膛虫,而性能元件負責(zé)選擇外部行動。學(xué)習(xí)元件利用來自評判元件的反饋評價Agent做的如何钓猬,并確定應(yīng)該如何修改性能元件以便將來做的更好稍刀。
2.4.7 Agent程序的各組件是如何工作的
我們將表示放置在不斷增長的復(fù)雜度和表達能力的軸線上----原子,要素和結(jié)構(gòu)敞曹。
1:在原子表示中账月,世界的每個狀態(tài)是不可見的--,它沒有內(nèi)部結(jié)構(gòu)澳迫。搜索和博弈論局齿,隱馬爾可夫模型,馬爾可夫決策過程中的算法都用的是原子表示--或者橄登,至少把表示當(dāng)做是原子的抓歼。
2:要素化表示將狀態(tài)表示為變量或特征的集合,每個變量或特征都有可能有值拢锹。