頭條
Runway 發(fā)布 Gen-2
Runway 宣布推出 Gen-2诈唬,這是一種多模態(tài) AI 系統(tǒng)生音,可以從文本生成逼真的視頻宁否。您可以使用 Gen-2 的 4 種不同模式:文本到視頻、圖像到視頻缀遍、文本 + 圖像到視頻(使用驅動圖像和文本提示生成視頻)慕匠、風格化(視頻到視頻)和故事板(將模型變成完全風格化和動畫渲染)。查看網(wǎng)站上的示例域醇,例如“山脈的空中無人機鏡頭”和“傍晚的陽光透過紐約市閣樓的窗戶窺視”台谊。
300億 指令調(diào)諧的 model
遵循與llama 相同的公式,我們可以使用參數(shù)高效微調(diào)和來自斯坦福的指令數(shù)據(jù)集的清理版本來調(diào)整 300 億參數(shù)的llama 譬挚,使其更好地遵循指令锅铅。
穩(wěn)定的擴散重新構想
Stability AI 宣布推出 Stable Diffusion Reimagine,這是一種新的 Clipdrop 工具减宣,允許用戶無限制地生成單個圖像的多個變體盐须。無需復雜的提示——用戶只需將圖像上傳到算法中,即可根據(jù)需要創(chuàng)建盡可能多的變體漆腌。
研究
CoDEPS:全景分割在線學習
該論文通過引入 CoDEPS 提出了一種應對新環(huán)境中機器人導航挑戰(zhàn)的解決方案贼邓,CoDEPS 是一種持續(xù)學習方法姨蟋,利用經(jīng)驗回放和域混合來減輕災難性遺忘并適應不斷變化的條件。所提出的方法實現(xiàn)了最先進的結果立帖,并解決了機器人系統(tǒng)有限的存儲容量問題眼溶。
LION:內(nèi)隱視覺提示調(diào)優(yōu)
該論文提出了 LION,這是一種高效的視覺模型晓勇,通過使用具有穩(wěn)定內(nèi)存成本的深度隱式模型來解決視覺 Transformers 的繁重計算成本堂飞。 LION 僅在預訓練主干中插入兩個平衡隱式層,并根據(jù)彩票假設修剪參數(shù)绑咱,減少高達 11.5% 的訓練參數(shù)數(shù)量绰筛,同時在廣泛的范圍內(nèi)實現(xiàn)比最先進的基線 VPT 更高的性能數(shù)據(jù)集,尤其是在具有挑戰(zhàn)性的場景下描融。
DiffusionRet:使用擴散模型生成文本視頻檢索
本文介紹了 DiffusionRet铝噩,這是一種基于擴散的文本視頻檢索框架,從生成的角度將文本和視頻之間的相關性建模為它們的聯(lián)合概率 p(candidates, query)窿克。 DiffusionRet 通過生成損失優(yōu)化生成器骏庸,通過對比損失優(yōu)化特征提取器,利用生成和判別方法在五種常用的文本-視頻檢索基準上實現(xiàn)卓越的性能年叮,即使在域外檢索設置中具被,并為相關領域帶來基本見解領域。
工程
Transformer 強化學習 v0.4.1 發(fā)布(GitHub Repo)
現(xiàn)在只损,有了 Pytorch 2.0 支持、參數(shù)高效微調(diào)和其他生活質(zhì)量改進跃惫,TRL 正在成為語言模型 RL(*)F 類型調(diào)優(yōu)任務的頂級競爭對手叮叹。
哪些數(shù)據(jù)使我的模型更智能?
如果我們不使用附加標量分數(shù)來確定數(shù)據(jù)實例對最終模型性能的影響有多大爆存,如果我們使用完整的訓練模擬器會怎么樣蛉顽?這使得圍繞數(shù)據(jù)集構建和長期訓練性能的反事實探索成為可能。這種方法往往會低估性能终蒂,但可以很好地捕獲大型語言模型訓練運行的一般動態(tài)蜂林。
LangFlow (GitHub Repo)
在瀏覽器中運行的 LangChain 基于可視化圖形的編輯器遥诉。
雜七雜八
GPT 如何影響勞動力市場
雖然 GPT 模型可能會影響勞動力市場拇泣,但對不同工作的影響并不相同。初步觀察表明矮锈,身體活躍和腦力創(chuàng)造性的工作不太可能受到大型語言模型的影響霉翔。這不是最有說服力的方法,但在這個早期階段了解我們的經(jīng)濟未來可能會是什么樣子是一個很好的步驟苞笨。
Duolingo and OpenAI
Duolingo 在一個名為 Duolingo Max 的新訂閱層中引入了兩項由 OpenAI 的 GPT-4 提供支持的新功能:角色扮演债朵,一個人工智能對話伙伴子眶,以及解釋我的答案,它提供錯誤的上下文反饋序芦。在發(fā)現(xiàn) GPT-3 無法自信地處理聊天的復雜自動化方面后臭杰,Duolingo 轉向了 GPT-4。該團隊看到了 GPT-4 提供比以往任何時候都更有效和更具吸引力的學習體驗的潛力谚中,這應該會改善學習成果渴杆,并且它簡化了整個工程流程,從而可以更快地為用戶帶來新功能宪塔。
OpenAI 首席執(zhí)行官磁奖、首席技術官談風險以及人工智能將如何重塑社會
Sam Altman(OpenAI CEO)和 Mira Murati(CTO)在接受 ABC 采訪時談到了 AI 和 AGI 將對社會產(chǎn)生的影響。 Altman 說某筐,重要的是他們要通過真實用戶手中的產(chǎn)品來測試他們的人工智能比搭,并在風險很小的時候犯錯誤。
斯坦福以不到 600 美元的價格復制 ChatGPT AI
斯坦福大學的研究人員創(chuàng)造了 Alpaca南誊,以不到 600 美元的價格整合了與 ChatGPT 類似的功能身诺。
Bloop (GitHub Repo)
Bloop 是一個代碼搜索引擎,它使用 GPT-4 來回答有關您的代碼的問題抄囚。
Semantic Kernel (GitHub Repo)
語義內(nèi)核 (SK) 是一種輕量級 SDK戚长,可將 AI LLM 與傳統(tǒng)編程語言集成。