頭條
福特宣布新的自動(dòng)駕駛部門“Latitude AI”
福特致力于自動(dòng)駕駛汽車的未來涮总,這一聲明證實(shí)了這一點(diǎn)爬橡×苄洌總部位于匹茲堡的 550 人團(tuán)隊(duì)將繼續(xù)致力于福特產(chǎn)品中的技術(shù)祥得,同時(shí)對(duì)全自動(dòng)駕駛汽車進(jìn)行長(zhǎng)期研究核蘸。該領(lǐng)域的長(zhǎng)期領(lǐng)導(dǎo)者將以各種身份領(lǐng)導(dǎo)團(tuán)隊(duì)门躯。
谷歌云 CEO 為持續(xù)的 AI 能力而吶喊
隨著人工智能競(jìng)賽的升溫荷科,谷歌感受到了壓力笔链。在最近的一次內(nèi)部會(huì)議上,谷歌云 CEO 表示“游戲永遠(yuǎn)不會(huì)在第一分鐘結(jié)束”戳杀,并敦促員工團(tuán)隊(duì)合作该面,繼續(xù)提高 AI 能力夭苗。他談到了歷史書籍將如何描述谷歌在這段時(shí)間的航行信卡,并對(duì)搜索的未來表示樂觀。
研究
長(zhǎng)卷積和巧妙的令牌混合規(guī)模在 64k 令牌時(shí)快 100 倍
斯坦福大學(xué)系統(tǒng)小組的另一篇論文致力于提高長(zhǎng)上下文的語(yǔ)言建模能力题造。他們致力于構(gòu)建次二次注意力替代傍菇,并建立在他們最近在狀態(tài)空間模型和長(zhǎng)卷積工作中的大部分工作之上。他們引入了“Hyena Hierarchy”界赔,這是對(duì)注意力的一種替代丢习,同時(shí)減少了 FLOP,并改進(jìn)了長(zhǎng)上下文擴(kuò)展淮悼。這是令人興奮的下一步咐低,值得一讀。
無限大小的擴(kuò)散恢復(fù)
該論文討論了擴(kuò)散模型在零樣本圖像恢復(fù)中的使用袜腥,并提出了處理任意大小圖像的解決方案见擦。當(dāng)前的方法僅處理固定大小的圖像,但所提出的方法使用 Mask-Shift Restoration 來解決局部不連貫羹令,并使用 Hierarchical Restoration 來緩解域外問題鲤屡。這些無參數(shù)方法不僅可以用于圖像恢復(fù),還可以用于無限大小的圖像生成福侈,使其成為擴(kuò)散模型的潛在通用工具酒来。
StraIT:使用分層圖像變換器的非自回歸生成
該論文提出了一種稱為分層圖像變換器 (StraIT) 的非自回歸 (NAR) 生成模型,該模型在高質(zhì)量圖像合成方面優(yōu)于現(xiàn)有的自回歸 (AR) 和擴(kuò)散模型 (DM)肪凛。 StraIT 利用圖像的分層特性將視覺標(biāo)記編碼為分層級(jí)別堰汉,從而減輕建模難度并提升 NAR 模型的生成能力辽社。實(shí)驗(yàn)表明,StraIT 在 ImageNet 上以 256×256 分辨率實(shí)現(xiàn)了 3.96 的 FID 分?jǐn)?shù)翘鸭,而沒有利用采樣或輔助圖像分類器中的任何指導(dǎo)爹袁。
工程
使用擴(kuò)散模型的單眼深度估計(jì) (Github Repo)
作者提出了一種基于去噪擴(kuò)散模型的單目深度估計(jì)方法。他們引入創(chuàng)新來解決嘈雜和不完整的深度圖矮固,并利用預(yù)訓(xùn)練進(jìn)行監(jiān)督學(xué)習(xí)失息。他們的 DepthGen 模型實(shí)現(xiàn)了最先進(jìn)的性能并自然地表示深度模糊。該模型的插補(bǔ)支持和零樣本性能支持簡(jiǎn)單的文本到 3D 管道档址。
比 ControlNet 更好的控制 (HuggingFace Space)
另一種控制文本到圖像模型的幾何輸出的新穎方法盹兢。這次可以指定多個(gè)區(qū)域進(jìn)行控制。通用代碼尚不可用守伸,但您可以在此空間中測(cè)試模型绎秒。
拼貼擴(kuò)散:精確控制拼貼條件圖像生成
該論文提出了 Collage Diffusion,這是一種拼貼條件擴(kuò)散算法尼摹,可以精確控制生成圖像中對(duì)象的空間排列和視覺屬性见芹。通過使用 alpha 掩碼修改文本-圖像交叉注意力并學(xué)習(xí)每層的專門文本表示,用戶可以逐層編輯生成圖像的各個(gè)組成部分并控制圖像協(xié)調(diào)蠢涝。 Collage Diffusion 生成全局協(xié)調(diào)的圖像玄呛,比以前的方法更好地保持所需的對(duì)象位置和視覺特征。
雜七雜八
EleutherAI 回顧展
Eleuther 是機(jī)器學(xué)習(xí)領(lǐng)域頂級(jí)的開放科學(xué)合作組織之一和二,在過去一年半的時(shí)間里為該領(lǐng)域做出了許多貢獻(xiàn)徘铝。他們發(fā)表了 28 篇論文、10 種不同的模型和數(shù)十個(gè)代碼庫(kù)惯吕。許多最激動(dòng)人心的發(fā)展惕它,如 RWKV、GPTNeo 和 AlphaFold 的開放復(fù)制都來自這個(gè)小組废登。在這里閱讀更多關(guān)于他們正在做什么以及接下來會(huì)發(fā)生什么的信息淹魄。
20B Flan UL2 模型發(fā)布 - 完全開源,無限制
該指令調(diào)優(yōu)模型的上下文長(zhǎng)度為 2048 個(gè)標(biāo)記堡距,是文本生成的優(yōu)秀基礎(chǔ)模型甲锡。憑借改進(jìn)的 CoT、上下文學(xué)習(xí)和一般性能(比 FlanT5-xxl 高出 7.4%)吏颖,該模型在開源語(yǔ)言模型方面向前邁出了一大步搔体。該模型使用 UL2 目標(biāo),它是降噪器的混合體半醉,在通用語(yǔ)言建模方面表現(xiàn)出令人印象深刻的性能疚俱。重要的是,他們還在 Flan 指令調(diào)整過程之前通過額外的 100k 步訓(xùn)練消除了對(duì)繁瑣模式標(biāo)記的需求缩多。
OpenAI CTO Mira Murati 的崛起
本文深入探討了 OpenAI 首席技術(shù)官 Mira Murati 如何成為科技界最具影響力的創(chuàng)新者之一呆奕。
羅馬尼亞推出世界首位人工智能政府“顧問”
羅馬尼亞政府推出了“Ion”养晋,這是一個(gè)基于人工智能 (AI) 的平臺(tái),旨在記錄羅馬尼亞人的聲音和意見梁钾,并用它們來指導(dǎo)國(guó)家政策決策绳泉。
OpenAI 定價(jià)線程 (Twitter Thread)
昨天 ChatGPT API(又名“gpt-3.5-turbo”)價(jià)格下跌 90% 是 AI 的另一個(gè)前后時(shí)刻。
PromptCraft-Robotics(GitHub Repo)
PromptCrafts-Robotics 是一個(gè)社區(qū)姆泻,供人們測(cè)試和分享機(jī)器人領(lǐng)域 LLM 的有趣提示示例零酪。
Nebullvm (GitHub Repo)
Nebullvm 是一個(gè)即插即用模塊生態(tài)系統(tǒng),可優(yōu)化您的人工智能系統(tǒng)的性能拇勃。