雖然這一次的生成式AI在效果上突破了人們的預(yù)料,效果已經(jīng)達到了我們無法想象的地步艇抠。
但是幕庐,從技術(shù)演進的角度,似乎平平無奇家淤,只是一個問題接一個問題地解決翔脱,算是穩(wěn)步發(fā)展,只是速度非趁焦模快而已届吁。
人工智能領(lǐng)域最早突破和商用的,就是“計算機視覺”绿鸣,也可以理解成是圖像識別疚沐,用的就是卷積神經(jīng)網(wǎng)絡(luò)(CNN)。
這個模型后來也用在了自然語言處理中潮模,但效果不好亮蛔。因為語言是“序列數(shù)據(jù)”,它不像圖片擎厢,每一個文字都與上下文是依賴關(guān)系究流,而不是獨立的。
注:序列數(shù)據(jù)是一系列順序上相互依賴动遭、彼此之間具有某種相關(guān)性的數(shù)據(jù)項芬探。例如,一個句子中的單詞以某種順序相互關(guān)聯(lián)厘惦、相互依賴偷仿。出現(xiàn)在同一句話中的單詞是有序的,而且不是相互獨立的宵蕉。
所以循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)就出來了酝静。
循環(huán)神經(jīng)網(wǎng)絡(luò)是一種機器學(xué)習(xí)模型,它可以存儲和使用序列數(shù)據(jù)中先前數(shù)據(jù)相關(guān)的記憶信息來處理當前數(shù)據(jù)羡玛。例如别智,循環(huán)神經(jīng)網(wǎng)絡(luò)具有先前單詞的記憶,并可利用這種記憶來處理句子中的當前單詞稼稿。
循環(huán)神經(jīng)網(wǎng)絡(luò)面臨的主要挑戰(zhàn)是對時間跨度長的序列數(shù)據(jù)記憶力不足薄榛。例如讳窟,相比于若干句話之前的句子中的單詞,循環(huán)神經(jīng)網(wǎng)絡(luò)更容易記住最近處理過的幾個單詞蛇数。
也就是說挪钓,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)沒法解決長程依賴的問題,因為對于比如“問答”這樣的場景耳舅,就需要模型記住很長距離的內(nèi)容碌上。文字就不光是依賴一句話的上下文,而是依賴之前很長距離的對話浦徊。
基于這樣的問題馏予,循環(huán)神經(jīng)網(wǎng)絡(luò)就發(fā)展出了很多變體,如長短期記憶(LSTM)和門控循環(huán)單元(GRU)盔性,甚至于也設(shè)計出了循環(huán)神經(jīng)網(wǎng)絡(luò)的“注意力機制”霞丧。
機器學(xué)習(xí)中的注意力機制可以幫助神經(jīng)網(wǎng)絡(luò)將“注意力”集中在與當前任務(wù)最相關(guān)的信息上,而忽略其他無關(guān)緊要的信息冕香。這使得神經(jīng)網(wǎng)絡(luò)在執(zhí)行任務(wù)時有更好的表現(xiàn)蛹尝,就像專注的人能夠更好地完成任務(wù)一樣。
注意力機制在改善機器翻譯質(zhì)量方面取得一定成功之后悉尾,便變得非常流行突那。市場上出現(xiàn)了一系列注意力機制變體,包括自注意力機制构眯、全局注意力機制愕难、局部注意力機制、硬注意力機制和軟注意力機制等惫霸。
現(xiàn)在來到幾乎所有大模型都采用的Transformer架構(gòu)猫缭,它幾乎可以說是組合了之前所有的優(yōu)秀設(shè)計,來了個組合式創(chuàng)新:
它雖然是完全不同的架構(gòu)壹店,但是它采用了最早前饋神經(jīng)網(wǎng)絡(luò)的“編碼器-解碼器”以及循環(huán)神經(jīng)網(wǎng)絡(luò)的“注意力機制”猜丹,實現(xiàn)了數(shù)據(jù)的并行計算,以及解決了分詞長程依賴的問題茫打。
通過消除對依次循環(huán)處理結(jié)構(gòu)的依賴和僅使用注意力機制居触,Transformer允許我們一次將整個數(shù)據(jù)序列傳遞給解碼器,而不用像傳統(tǒng)的序列模型那樣按順序傳遞老赤。這種通過網(wǎng)絡(luò)一次傳遞一個數(shù)據(jù)塊(比如很多句話)的創(chuàng)新改變了游戲規(guī)則。
與傳統(tǒng)的序列模型相比制市,Transformer更具并行性抬旺,可在給定時間內(nèi)從更多的數(shù)據(jù)中學(xué)習(xí),從而減少訓(xùn)練時間祥楣。這種訓(xùn)練過程中的并行化突破導(dǎo)致了大規(guī)模預(yù)訓(xùn)練語言模型的出現(xiàn)开财。
你會發(fā)現(xiàn)汉柒,這個過程就是不斷解決問題,也繼承之前的各種已有的技術(shù)责鳍,進行的組合式創(chuàng)新碾褂。
而你說現(xiàn)在的大模型公司有沒有技術(shù)壁壘呢?
恐怕是沒有的历葛,有的可能是數(shù)據(jù)(如果有專有的優(yōu)質(zhì)數(shù)據(jù))正塌、團隊工程能力,其他架構(gòu)也是開源的能有什么壁壘呢恤溶?
當然沒有技術(shù)壁壘不代表不難乓诽,訓(xùn)練一個基礎(chǔ)模型自然非常難,不光是時間金錢硬件資源的問題咒程,工程能力同樣不可小覷鸠天,你看OPENAI在人員支出上的巨大開銷就可以想象了。