頭條
麻省理工學院的通用機器人訓練
https://news.mit.edu/2024/training-general-purpose-robots-faster-better-1028
麻省理工學院的研究人員引入了異構(gòu)預訓練 Transformers (HPT)聚谁,這是一種受大型語言模型啟發(fā)的新模型架構(gòu)母剥,可使用來自不同領(lǐng)域和模式的數(shù)據(jù)來訓練多功能機器人。
Google 將語音技術(shù)支持擴展到另外 15 種非洲語言
https://blog.google/around-the-globe/google-africa/africas-digital-decade/
Google 已在其平臺上為另外 15 種非洲語言引入語音識別功能形导,包括語音搜索环疼、Gboard 語音輸入和翻譯聽寫。此次更新使大約 3 億非洲人能夠以自己的母語與數(shù)字內(nèi)容互動朵耕。
研究
具有最小 3D 歸納偏差的視圖合成
https://haian-jin.github.io/projects/LVSM/
長期以來炫隶,人們一直認為新穎的視圖合成需要強大的 3D 歸納偏差。這項工作表明阎曹,通過規(guī)模和一些弱歸納偏差伪阶,大大超越以前認為的限制。
使用每個標記潛在擴散的連續(xù)語音合成
https://arxiv.org/abs/2410.16048
自回歸模型在許多情況下仍然占主導地位处嫌。然而栅贴,最近對圖像擴散頭的研究啟發(fā)了連續(xù) AR 擴散。這項工作將每個標記擴散思想擴展到可變長度輸出熏迹。
遙感中的變化檢測
https://arxiv.org/abs/2409.16261v1
本文引入了變化描述指令數(shù)據(jù)集來微調(diào) LMM檐薯,以實現(xiàn)更好的遙感變化檢測。
工程
Flux IC light
https://github.com/lllyasviel/IC-Light/discussions/98
IC Light 是目前將圖像與預訓練的文本到圖像主干關(guān)聯(lián)起來的最佳方式注暗。本次討論是將該功能擴展到強大的 Flux 模型的開始坛缕。
用于 3D 場景生成的場景語言
https://github.com/zzyunzhi/scene-language
從頭開始生成 3D 場景具有挑戰(zhàn)性墓猎,原因有很多,例如數(shù)據(jù)限制祷膳。這項工作引入了一種類似編程語言來描述 3D 場景陶衅,并表明 Claude Sonnet 可以生成極具吸引力的場景,盡管他沒有接受過這項任務的明確訓練直晨。
3D 語義分割
https://arxiv.org/abs/2410.19446v1
FtD++ 是一種跨模態(tài)學習方法搀军,可改善 3D 語義分割的無監(jiān)督域自適應。
雜七雜八
Gemma 2B 上交叉編碼器的開源復制
Anthropic 最近發(fā)布了兩篇作品勇皇,重點介紹了其新的可解釋性方法罩句。這篇文章是 Gemma 2B 上交叉編碼器的開源復制。
分布外圖學習方法集
https://github.com/kaize0409/awesome-graph-ood
此存儲庫列出了有關(guān)分布外圖學習的論文敛摘,涵蓋三個主要場景:圖 OOD 泛化门烂、訓練時圖 OOD 適應和測試時圖 OOD 適應。
像 AI 一樣思考
https://www.oneusefulthing.org/p/thinking-like-an-ai
LLM 充當復雜的自動完成系統(tǒng)兄淫,根據(jù)訓練數(shù)據(jù)和當前輸入預測下一個標記屯远。輸入的微小變化會影響預測,即使是同一個問題也會導致不同的輸出捕虽。了解標記預測慨丐、訓練數(shù)據(jù)上下文和內(nèi)存限制可以幫助改進 AI 的使用。
多模態(tài) Web 代理
https://github.com/minorjerry/openwebvoyager
OpenWebVoyager 提供工具泄私、數(shù)據(jù)和模型房揭,用于開發(fā)能夠通過真實世界的 Web 交互進行導航和學習的多模態(tài) Web 代理。
動畫自動著色
https://ykdai.github.io/projects/InclusionMatching
研究人員推出了一種新穎的包含匹配方法晌端,解決了自動著色的挑戰(zhàn)捅暴,尤其是在動畫中,遮擋和皺紋可能會破壞傳統(tǒng)的片段匹配咧纠。
Lofi 音樂數(shù)據(jù)集
https://huggingface.co/datasets/vikhyatk/lofi
由音樂生成模型生成的音樂片段和詳細文本描述的數(shù)據(jù)集蓬痒。