??經(jīng)常在工作和生活中聽到模型、算法安岂,甚至常常被叫做模型算法,他們到底能做什么事情帆吻?二者是一樣的還是有區(qū)別域那?所以需要做一個簡單的理解。
一猜煮、模型
1. 模型的基本理解
??我們都知道航模次员、船模(車模不算??),風(fēng)洞實驗?zāi)P偷韧醮ぷ髦袑τ趶?fù)雜的事件經(jīng)常通過一張圖來揭示主要對象和它們之間的關(guān)系淑蔚,這些都是模型,前者是物理的辫秧,后者是心智的束倍,都是定性模型被丧。通過這些例子盟戏,我們可以總結(jié):模型是用一套簡化的易于理解的系統(tǒng)去描述研究的對象系統(tǒng),甚至還可以對研究對象進行預(yù)測(如風(fēng)洞實驗可以研究飛機的性能)甥桂。
2. 數(shù)學(xué)模型
??而定量方式表達的則是其中的數(shù)學(xué)模型柿究。模型最好是能與對象系統(tǒng)同構(gòu),即對象系統(tǒng)中的要素與數(shù)學(xué)模型中的變量一一對應(yīng)黄选,對象系統(tǒng)中要素之間的關(guān)系在對應(yīng)的數(shù)學(xué)模型變量中以運算(算數(shù)運算蝇摸、邏輯運算、集合運算等)表示出來办陷,形成一種保持運算不變的雙射貌夕。要求能正確反應(yīng)對象的主要因素、特征和結(jié)構(gòu)民镜,還能推斷啡专,也就是能反應(yīng)系統(tǒng)的變化情況。當(dāng)然制圈,這是理想狀態(tài)们童,實際上要做到這個程度很困難。
??對于數(shù)學(xué)模型來說鲸鹦,就是用一套易于理解的符號系統(tǒng)來簡化同構(gòu)復(fù)雜對象系統(tǒng)慧库,并且能運算模型來描述對象系統(tǒng)演化過程。
表1: 現(xiàn)實對象和數(shù)學(xué)模型的對應(yīng)關(guān)系
現(xiàn)實系統(tǒng)對象 | 要素間關(guān)系 | 要素 | 變量的重要程度(需要求取/設(shè)定的數(shù)據(jù)) |
---|---|---|---|
對應(yīng)模型要素 | 運算(數(shù)學(xué)/邏輯/集合) | 變量 | 參數(shù) |
??模型可能是正確的馋嗜,也可能是錯誤的齐板。
3. 建模的理念
??對象越簡單描述就越能準確。如把影響因素降到最低并理想化的物理實驗?zāi)苡泻芎玫哪P停ㄈ缥锢碇谐0研乔虍?dāng)成質(zhì)點處理),李群能幫助推斷夸克的數(shù)量及特性(參數(shù))甘磨。但到復(fù)雜的生物界模型就有些吃力了听皿,而到超復(fù)雜的社會領(lǐng)域其有效性更受考驗。常用模型一種是從數(shù)據(jù)發(fā)現(xiàn)其趨勢的外推模型宽档,時間序列分析是典型尉姨,只要能滿足統(tǒng)計上可接受就可以來,如通過顯著性檢驗等吗冤。另外一直是考慮了內(nèi)在運行機制因果演化的模型又厉,有基于經(jīng)濟等理論的,如CGE椎瘟,從瓦爾拉斯均衡出發(fā)覆致;也有基于系統(tǒng)論、控制論的SD肺蔚,源自正負反饋煌妈,從增量、存量宣羊、延遲等分析璧诵;還有基于整體論的CAS,從agent 仇冯、涌現(xiàn)等概念開始之宿;也有直接對指標(biāo)間關(guān)鍵構(gòu)建的結(jié)構(gòu)模型。這一種模型研究了顯示了系統(tǒng)內(nèi)在的結(jié)構(gòu)苛坚,有著更好的說服力比被。
4.模型的局限
??模型對社會關(guān)系簡化的結(jié)構(gòu)描述是正確的嗎?首先社會運行的真實原因和機制是這樣的嗎泼舱?這讓人很是生疑等缀。其次,模型創(chuàng)建是依賴過去知識和數(shù)據(jù)娇昙,得到的結(jié)果可能對過去擬合很好尺迂,但一旦有一個因素起變化會改變參數(shù)和結(jié)構(gòu),模型馬上出問題涯贞,泛化能力大為降低枪狂。如免疫療法對癌癥能有很好的效果,那平均成活年限這個參數(shù)肯定會大大提升宋渔,相應(yīng)的社保等都會有影響州疾。基礎(chǔ)科學(xué)的突破傳遞到應(yīng)用科學(xué)后對社會對影響巨大皇拣,會極大地改變社會結(jié)構(gòu)严蓖,但其突破不是計劃來的薄嫡,所以從本質(zhì)上來說,社會的規(guī)律是不可把控的颗胡,用于推測更有些吃力毫深,就像一位著名的模型專家說的,我們不可能真實地對社會運行過程建模毒姨,但是可以得到可以用的方法哑蔫,用就是了。
??基于本體論的觀點弧呐,我們一直希望能對本源進行解釋闸迷,但模型僅僅是描述結(jié)構(gòu),顯然不能完成這方面的工作俘枫,當(dāng)然如果弦論正確腥沽,解釋世界的構(gòu)成倒也是有可能。但極端復(fù)雜的社會復(fù)雜巨系統(tǒng)不太相信能成功鸠蚪,因為數(shù)學(xué)的處理能力此時顯得太簡單和粗糙今阳,如反應(yīng)連續(xù)時間中對象狀態(tài)連續(xù)變化的工具實在太少(一個粗糙的 Markov 模型,但是效果還是不錯)茅信。尋找本質(zhì)或許不是模型能做的事情盾舌。
5.模型的重要性
??雖然研究問題模型化,尤其是數(shù)學(xué)模型的應(yīng)用雖然有這樣那樣的問題汹押,但是絕對有必要矿筝,只要不是太迷信模型。我們中華文化一直是差不多先生棚贾,重紀錄缺歸納和演繹(最早記錄觀察到哈雷彗星,卻重來沒有歸納出其76年的周期榆综,更沒有理論抽象)妙痹。量化和抽象必須要在我們文化中扎根并內(nèi)生化,使用模型建設(shè)還是很有必要的鼻疮,況且還是有一定作用怯伊。這對于我們社會治理的精細化是一個重要的抓手。
二判沟、算法
算法是在有限步內(nèi)解決一個問題步驟集合耿芹,是對特定問題求解步驟的一種描述,是指令的有限序列挪哄,其中每一條指令表示一個或者多個操作吧秕,此外,一個算法還具有下列5個重要特性:
(1)有窮性:一個算法必須總是(對任何合法的輸入值)在執(zhí)行有窮步之后結(jié)束迹炼,且每一步都可在有窮時間內(nèi)完成砸彬。
(2)確定性:算法中每一條指令必須有確切的涵義颠毙,讀者理解時不會產(chǎn)生二義性,并且砂碉,在任何條件下蛀蜜,算法只有唯一的一條執(zhí)行路徑,即對于相同的輸入只能得出相同的輸出增蹭。
(3)可行性:一個算法是能行的滴某,即算法中描述的操作都是可以通過已經(jīng)實現(xiàn)的基本運算執(zhí)行有限次來實現(xiàn)的,
(4)輸入:一個 有0個或者多個的輸入滋迈,這些輸入取自于某個特定的對象的集合壮池。
(5)輸出:一個算法有一個或者多個的輸出,這些輸出是同輸入有著某些特定關(guān)系的量杀怠。
三椰憋、建模
??建模有兩種路徑,一是根據(jù)先驗知識進行建模赔退,主要是根據(jù)常識或者相應(yīng)理論進行建模橙依。二是利用數(shù)據(jù)來發(fā)現(xiàn)其中存在的模式。
1.利用先驗知識建模
??有模型或者是有建立模型的理論和方法基礎(chǔ)硕旗。
1)窗骑、利用行業(yè)內(nèi)已經(jīng)有的模型直接利用,如直接使用人口方面的模型漆枚,比如萊斯莉矩陣等等创译。
2)、利用專業(yè)領(lǐng)域研究的結(jié)果框架下墙基,建立數(shù)學(xué)模型软族,比如說CGE模型,系統(tǒng)動力學(xué)模型残制,投入產(chǎn)出模型等來對特定領(lǐng)域建立符合當(dāng)前應(yīng)用一個具體模式立砸。而模型的參數(shù)是通過算法來求解,可以獲得解析解的初茶,通過微積分颗祝、線性代數(shù)或者是抽象代數(shù)的方法求解,對于不能直接求解的恼布,用 Monte Carlo 仿真等等方法設(shè)計確定的算法求解螺戳。
2.利用數(shù)據(jù)直接發(fā)現(xiàn)其中的結(jié)構(gòu)
??直接通過機器學(xué)習(xí)的方法通過算法利用數(shù)據(jù)獲得合理的結(jié)構(gòu),并且用一個模型來描述折汞。
1)倔幼、把問題分解為子問題,這些子問題又對應(yīng)明確任務(wù)字支,并且把它數(shù)學(xué)化凤藏。
2)奸忽、根據(jù)數(shù)據(jù)用一個合適的算法求取,比如對待一個分類任務(wù)揖庄,即可用ANN又可以使用回歸等等得到相應(yīng)的模型栗菜。
3)、模型優(yōu)化
4)蹄梢、模型應(yīng)用與解釋
四疙筹、算法用于訓(xùn)練/求解模型
??有些結(jié)構(gòu)已知的模型,如 logistics 回歸中各種變量系數(shù)和常量的測算禁炒,這屬于結(jié)構(gòu)驗證方式而咆。判斷結(jié)構(gòu)是否合理、選擇的因素是否恰當(dāng)幕袱,尤其要估計參數(shù)暴备,有些模型是簡單的,可以有解析解们豌,但是對于一些復(fù)雜問題就必須用算法來計算結(jié)果估計參數(shù)涯捻。 Monte Carlo 仿真等,這就需要設(shè)計算法來求解了望迎。
??模型結(jié)構(gòu)未知的障癌,直接通過數(shù)據(jù)利用算法得到數(shù)據(jù)集結(jié)構(gòu),如通過深度學(xué)習(xí)中 CNN 訓(xùn)練出來的稀疏連接神經(jīng)網(wǎng)絡(luò)辩尊,網(wǎng)絡(luò)本身模擬的是一個由多個函數(shù)復(fù)合成的復(fù)雜函數(shù)/模型涛浙,是對數(shù)據(jù)本身通過探究得到的關(guān)于其內(nèi)在結(jié)構(gòu)的一種(可以有多種)描述,屬于結(jié)構(gòu)發(fā)現(xiàn)方式摄欲。平時常說使用算法訓(xùn)練出模型就是這個意思轿亮。當(dāng)然還需要對模型進行驗證。從數(shù)據(jù)中發(fā)現(xiàn)存在的知識蒿涎。
??當(dāng)前火爆的大語言模型(LLM)就是一個典型的結(jié)構(gòu)發(fā)現(xiàn)模型哀托。他通過輸入語言(圖像、語音)的劳秋,把這些內(nèi)容分成一個個小的單元(分詞),然后把它們轉(zhuǎn)化成詞向量(一般是512維的一個向量)胖齐,通過對這些向量的分量按照一定的算法賦值玻淑,讓某些詞之間在向量空間上夾腳更小(如牡丹和玫瑰呀伙,她們都是美麗的鮮花)或者歐幾里得距離跟近等补履,得到詞元(token),然后利用self- attention機制等訓(xùn)練出詞元之間的條件概率模型剿另,利用這個條件概率模型箫锤,就能根據(jù)前面的單詞的排列生成后續(xù)的單詞序列贬蛙。