頭條
Qwen 2.5 Coder 32B Instruct 來(lái)了澜掩!
https://qwenlm.github.io/blog/qwen2.5-coder-family/
Qwen 2.5 Coder 系列是一系列專門針對(duì)代碼訓(xùn)練的語(yǔ)言模型。最新的 32B 參數(shù)模型比 GPT-4o 更好,同時(shí)又足夠小宇挫,可供許多人在本地運(yùn)行。它在許多基準(zhǔn)測(cè)試中也與 Claude Sonnet 3.5 相當(dāng)酪术。
X 準(zhǔn)備向免費(fèi)用戶開放 AI 聊天機(jī)器人“Grok”
https://techcrunch.com/2024/11/10/x-is-testing-a-free-version-of-ai-chatbot-grok/
X 的 AI 聊天機(jī)器人 Grok 最初僅向付費(fèi)用戶開放器瘪,但可能很快就會(huì)向所有人開放翠储。
谷歌洪水預(yù)報(bào)人工智能將覆蓋 7 億人
https://blog.google/technology/ai/expanding-flood-forecasting-coverage-helping-partners/
谷歌基于人工智能的洪水預(yù)報(bào)正在擴(kuò)展到 100 多個(gè)國(guó)家,覆蓋 7 億人橡疼。
研究
StdGen
StdGen 是一種從單個(gè)圖像生成 3D 角色的新方法援所。它將問題分解為可分離的部分(如頭發(fā)和夾克),從而提高輸出質(zhì)量欣除。
Mixture-of-Transformers:用于多模態(tài)基礎(chǔ)模型的稀疏且可擴(kuò)展的架構(gòu)
https://arxiv.org/abs/2411.04996
Mixture-of-Transformers (MoT) 架構(gòu)引入了一種稀疏多模態(tài)轉(zhuǎn)換器住拭,該轉(zhuǎn)換器按模態(tài)(文本、圖像和語(yǔ)音)解耦參數(shù)历帚,從而實(shí)現(xiàn)高效處理滔岳,同時(shí)保持性能質(zhì)量。在包括 Chameleon 7B 和 Transfusion 設(shè)置在內(nèi)的多項(xiàng)評(píng)估中挽牢,MoT 實(shí)現(xiàn)了與密集基線相當(dāng)或更好的性能谱煤,同時(shí)使用的計(jì)算資源明顯更少 - 語(yǔ)音處理 FLOP 低至 37.2%,圖像生成掛鐘時(shí)間低至 47.2%禽拔。
具有多模態(tài)對(duì)齊的蛋白質(zhì)建模
https://arxiv.org/abs/2411.05316v1
本研究探討了如何改善 LLM 與以蛋白質(zhì)為中心的幾何深度模型之間的對(duì)齊刘离,以實(shí)現(xiàn)更好的跨模態(tài)理解。
工程
AlphaFold 3
https://github.com/google-deepmind/alphafold3
DeepMind 已將 AlphaFold 3 的代碼和權(quán)重開源睹栖,供研究使用硫惕。與之前最先進(jìn)的技術(shù)相比,它有了很大的改進(jìn)磨淌,可以加速人工智能在科學(xué)應(yīng)用方面的發(fā)展疲憋。
使用 Online-LoRA 進(jìn)行持續(xù)學(xué)習(xí)
https://github.com/christina200/online-lora-official
Online-LoRA 是一種新框架,旨在通過實(shí)時(shí)微調(diào)預(yù)先訓(xùn)練的 Vision Transformers (ViT) 來(lái)防止在線持續(xù)學(xué)習(xí) (OCL) 中的災(zāi)難性遺忘梁只,而無(wú)需排練緩沖區(qū)缚柳。
困難照明條件下的標(biāo)記檢測(cè)
https://arxiv.org/abs/2411.05552v1
DeepArUco++ 引入了一種基于深度學(xué)習(xí)的方法,用于在傳統(tǒng)方法經(jīng)常失敗的具有挑戰(zhàn)性的照明條件下改進(jìn)基準(zhǔn)標(biāo)記檢測(cè)搪锣。
雜七雜八
LLM 能否在近百萬(wàn)級(jí)的干草堆中跟蹤線索秋忙?
https://needle-threading.github.io/
具有擴(kuò)展上下文窗口的大型語(yǔ)言模型 (LLM) 可實(shí)現(xiàn)更廣泛的應(yīng)用。對(duì) 17 個(gè)領(lǐng)先 LLM 的新研究表明构舟,雖然許多模型可以有效地處理多個(gè)并發(fā)信息線程灰追,但它們的實(shí)際有效上下文限制通常短于其理論最大上下文長(zhǎng)度。許多模型表現(xiàn)出“線程安全性”(同時(shí)處理多個(gè)信息線程而不會(huì)降低性能)狗超,但隨著上下文窗口擴(kuò)展到其極限弹澎,準(zhǔn)確性往往會(huì)下降。
有針對(duì)性的監(jiān)管案例
https://www.anthropic.com/news/the-case-for-targeted-regulation
人工智能的進(jìn)步正在迅速提高數(shù)學(xué)努咐、編碼和科學(xué)等領(lǐng)域的能力苦蒿,增加了機(jī)會(huì)和風(fēng)險(xiǎn)。受控監(jiān)管對(duì)于管理網(wǎng)絡(luò)安全和 CBRN 等領(lǐng)域的潛在濫用至關(guān)重要渗稍。Anthropic 的負(fù)責(zé)任擴(kuò)展政策要求透明度和謹(jǐn)慎的立法方法佩迟,以平衡安全與創(chuàng)新团滥。
Hermes 3
https://nousresearch.com/hermes3/
Hermes 3 是在 Llama 3.1 的基礎(chǔ)上進(jìn)行微調(diào)的,在推理和創(chuàng)造力方面表現(xiàn)出色报强。它通過 8B灸姊、70B 和 405B 參數(shù)的模型展示了卓越的性能。該模型解鎖了 AI 對(duì)齊和人工意識(shí)方面的新功能秉溉。
全球開發(fā)者數(shù)量激增力惯,AI 引領(lǐng) Python 成為頂級(jí)語(yǔ)言
https://github.blog/news-insights/octoverse/octoverse-2024/
由于 AI 和機(jī)器學(xué)習(xí)項(xiàng)目激增,Python 已升至 GitHub 上的頂級(jí)語(yǔ)言召嘶。
谷歌意外泄露可接管計(jì)算機(jī)的 Jarvis AI 預(yù)覽
谷歌的新 AI 原型 Jarvis 曾短暫出現(xiàn)在 Chrome 網(wǎng)上應(yīng)用店中夯膀。
人工智能育兒已經(jīng)到來(lái),a16z 已準(zhǔn)備好為其提供支持
https://techcrunch.com/2024/11/07/ai-powered-parenting-is-here-and-a16z-is-ready-to-back-it/
Andreessen Horowitz 正在投資使用 LLM 的人工智能“育兒副駕駛”苍蔬,例如 Cradlewise 和 Nanit。