頭條
用 AI Agent 模擬 Altman 的董事會(huì)紛爭(zhēng)
https://venturebeat.com/games/can-sam-altman-win-the-openai-board-fight-in-an-ai-agent-simulation/
游戲和 AI 模擬公司 Fable 使用名為 SIM-1 的 AI 決策框架構(gòu)建了一個(gè)模擬涝开,以探索涉及 Sam Altman 的 OpenAI 董事會(huì)糾紛碴巾。該模擬利用了多代理競(jìng)爭(zhēng)和 GPT4o河闰,強(qiáng)調(diào)了 Altman 在 20 個(gè)場(chǎng)景中只有 4 個(gè)不太可能重返 CEO 職位。該研究強(qiáng)調(diào)了 AI 在模擬復(fù)雜決策環(huán)境中的潛力椎麦。
Ai2 的 OpenScholar
https://allenai.org/blog/openscholar
Ai2 推出了 OpenScholar,這是一種檢索增強(qiáng)語言模型,可搜索相關(guān)論文并生成基于這些來源的答案茅坛。它將使科學(xué)家更容易找到和綜合知識(shí)。
Anthropic x AWS trainium 合作
https://www.anthropic.com/news/anthropic-amazon-trainium
作為最近一項(xiàng)投資的一部分则拷,Anthropic 正在與 AWS 合作贡蓖,以提高 trainium 推理和工具的質(zhì)量。
研究
修復(fù) AI 生成圖像中的人體偽影
https://arxiv.org/abs/2411.13842v1
本研究通過引入人體偽影數(shù)據(jù)集 (HAD) 解決了文本轉(zhuǎn)圖像模型中人體扭曲的難題煌茬,該數(shù)據(jù)集是一個(gè)包含超過 37,000 張帶注釋圖像的大型數(shù)據(jù)集斥铺。
提升 LLM 中的低資源語言
https://arxiv.org/abs/2411.14343v1
UnifiedCrawl 提供了一種新方法,可以使用最少的計(jì)算能力從 Common Crawl 中收集低資源語言的大規(guī)模文本數(shù)據(jù)坛善。
一種新的圖像到視頻模型
https://arxiv.org/abs/2411.13975v1
研究人員開發(fā)了圖像到視頻擴(kuò)散模型晾蜘,可以從靜態(tài)圖像生成逼真的運(yùn)動(dòng)變換,解決了仿射變換等傳統(tǒng)方法的局限性眠屎。
工程
AIMv2:新視覺模型
https://github.com/apple/ml-aim
AIMv2 系列視覺模型利用多模態(tài)自回歸訓(xùn)練方法剔交,在各個(gè)任務(wù)中表現(xiàn)出色。
用于訓(xùn)練 LLM 的新注意力機(jī)制
https://github.com/haonan3/anchorcontext
AnchorAttention 是一種新的注意力機(jī)制组力,旨在增強(qiáng)長(zhǎng)上下文場(chǎng)景中大型語言模型的訓(xùn)練省容。它解決了使用 BFloat16 精度時(shí)與旋轉(zhuǎn)位置嵌入 (RoPE) 相關(guān)的數(shù)值挑戰(zhàn)。
結(jié)合卷積和自注意力實(shí)現(xiàn)高效視覺模型
https://github.com/rayleizhu/glmix
GLMix 是一種在視覺任務(wù)中以不同粒度集成卷積和多頭自注意力 (MHSA) 的新方法燎字。卷積處理細(xì)粒度局部特征腥椒,而 MHSA 則在粗粒度語義槽上運(yùn)行以獲得全局洞察。
雜七雜八
Echo Mimic v2
https://antgroup.github.io/ai/echomimic_v2/
開放權(quán)重系統(tǒng)候衍,使用參考圖像和音頻輸入來為部分人體制作動(dòng)畫笼蛛。它使用姿勢(shì)特定的 VAE 來結(jié)合來自各個(gè)通道的信息和參考圖像來制作動(dòng)畫。
Gwern Branwen - 一位匿名研究人員如何預(yù)測(cè)人工智能的發(fā)展軌跡
https://www.dwarkeshpatel.com/p/gwern-branwen
在這篇文章中蛉鹿,LLM 擴(kuò)展的早期觀察者 Gwern Branwen 討論了人工智能的進(jìn)展及其對(duì) AGI 發(fā)展的影響滨砍,強(qiáng)調(diào)了擴(kuò)展和計(jì)算相對(duì)于傳統(tǒng)算法突破的重要性。他反思了人類智能與人工智能的潛在作用妖异,以及即將到來的減肥藥等技術(shù)進(jìn)步對(duì)人類行為的影響惋戏。Branwen 還分享了他的寫作過程以及人工智能對(duì)創(chuàng)造性工作的更廣泛影響的見解。
苦澀的宗教:人工智能對(duì)縮放定律的圣戰(zhàn)
https://www.generalist.com/briefing/the-bitter-religion
人工智能社區(qū)對(duì)“苦澀的宗教”及其將縮放計(jì)算作為人工智能性能的主要驅(qū)動(dòng)力的關(guān)注存在分歧他膳。包括 OpenAI 領(lǐng)導(dǎo)者在內(nèi)的一些人認(rèn)為 AGI 可以通過持續(xù)擴(kuò)展很快實(shí)現(xiàn)响逢,而另一些人則認(rèn)為需要其他科學(xué)進(jìn)步。這場(chǎng)爭(zhēng)論影響了人工智能和鄰近領(lǐng)域的投資和發(fā)展戰(zhàn)略棕孙,因?yàn)榭s放定律可能無法長(zhǎng)期持續(xù)舔亭。
LTX-Video
https://github.com/Lightricks/LTX-Video
第一個(gè)生成視頻的速度比觀看速度快的視頻模型些膨。
Documind
https://github.com/DocumindHQ/documind
Documind 利用 AI 從 PDF 中提取結(jié)構(gòu)化數(shù)據(jù),方法是將 PDF 轉(zhuǎn)換為圖像并利用 OpenAI 的 API钦铺。
為什么軟件開發(fā)中的 LLM 可能是死胡同
https://thenewstack.io/why-llms-within-software-development-may-be-a-dead-end/
軟件開發(fā)中的 LLM 因缺乏可分解性和可解釋性而面臨挑戰(zhàn)订雾。