AIXI ['ai?k?si?] 讀作“愛柯西” 是一個對通用人工智能的理論上的數(shù)學形式化道盏,結合了Solomonoff 歸納和序列決策理論,2001年由 Marcus Hutter 教授提出召庞。
其核心是一個強化學習智能體俩檬,最大化期望最大化來自環(huán)境的獎勵柒莉。它考慮了每個可計算的假設。在對應強化學習的定義中尘吗,該智能體在每個時間步都會看每種可能的程序并衡量采取下個行動時該程序生成的獎勵逝她。這個獎勵使用該程序構建真實環(huán)境的主觀信念進行衡量。這個信念從程序的長度計算而出:更長的程序更少被考慮睬捶,遵循奧卡姆剃刀原則黔宛。AIXI 然后選擇有用所有程序的帶權和的最高期望全獎勵的行動。
定義
AIXI 智能體會序列化地和某個(對其隨機和未知的)環(huán)境 進行交互擒贸。在時間步 臀晃,智能體輸出一個行動 ,環(huán)境會返回一個觀察 和一個根據(jù)條件概率分布 的獎勵 介劫。然后進行重復徽惋。智能體期望最大化累積未來固定生命期 的獎勵 。
給定當前時間 和歷史 座韵,AIXI 輸出行動定義為:
其中 表示一個單調(diào)通用圖靈機险绘,而 跑遍在通用機器 的所有程序。