頭條
Meta發(fā)布龐大的第一人稱視頻數(shù)據(jù)集
https://ai.meta.com/blog/ego-exo4d-video-learning-perception/
視頻理解是一個(gè)古老的領(lǐng)域登失,現(xiàn)在才開始取得成功儒洛。成功的主要驅(qū)動(dòng)力是高質(zhì)量的數(shù)據(jù)集迅涮。Meta的這項(xiàng)工作包括許多傳感器數(shù)據(jù)源和手勢姿態(tài)笛质。它為現(xiàn)有方法提供了基準(zhǔn)性能。
Snapchat+ 訂閱者現(xiàn)在可以創(chuàng)建并發(fā)送AI生成的圖片
https://techcrunch.com/2023/12/12/snapchat-subscribers-can-now-create-and-send-ai-generated-images/
Snapchat為其Snapchat+訂閱者引入了新的AI驅(qū)動(dòng)功能虫啥,包括一個(gè)AI圖像生成器悴晰,它可以根據(jù)文本提示創(chuàng)建圖像,以及一個(gè)夢幻自拍特性疲恢,可以與朋友一起創(chuàng)建奇幻圖像。一個(gè)新的AI擴(kuò)展工具允許用戶自動(dòng)擴(kuò)展和填充照片的背景瓷胧。這些功能正在向超過700萬Snapchat+訂閱者逐步推出显拳。
Google將Gemini Pro引入Vertex AI
https://techcrunch.com/2023/12/13/google-brings-gemini-pro-to-vertex-ai/
Google推出了Gemini Pro,這是其先進(jìn)AI模型Gemini Ultra的輕量級(jí)版本搓萧,用于Vertex AI的公共預(yù)覽杂数,提供文本和圖像處理能力,以及可定制的上下文瘸洛,適用于各種用例揍移。
研究
通過防止熵崩潰的穩(wěn)定訓(xùn)練
https://github.com/apple/ml-sigma-reparam
Transformer 雖然令人驚嘆,但經(jīng)常難以訓(xùn)練反肋,存在許多不穩(wěn)定性那伐。其中一個(gè)主要問題是注意力矩陣的熵崩潰。這項(xiàng)工作是一種通過簡單的重參數(shù)化來防止這種情況的方法石蔗。
使用擴(kuò)散模型估計(jì)圖像中的光照
https://diffusionlight.github.io/
該項(xiàng)目引入了一種估計(jì)圖像中光照的新技術(shù)罕邀,克服了當(dāng)前依賴HDR全景數(shù)據(jù)集的方法的局限性。通過使用擴(kuò)散模型將鉻球渲染到標(biāo)準(zhǔn)圖像中抓督,該技術(shù)揭示了鉻球和擴(kuò)散噪聲之間獨(dú)特的關(guān)系燃少。
自動(dòng)駕駛的語言模型
https://arxiv.org/abs/2312.09245v1
DriveMLM是一個(gè)新框架,使用大型語言模型增強(qiáng)自動(dòng)駕駛铃在。這個(gè)系統(tǒng)不僅可以與現(xiàn)有的自動(dòng)駕駛系統(tǒng)集成阵具,而且在模擬中表現(xiàn)更好,它將語言決策與車輛控制相結(jié)合定铜。
工程
Coframe Coffee (GitHub Repo)
https://github.com/Coframe/coffee
上周發(fā)布的Coffee幫助通過AI簡化前端開發(fā)阳液,可以插入現(xiàn)有代碼庫。該項(xiàng)目特別專注于基于Coframe團(tuán)隊(duì)從使用AI生成80%以上的前端的經(jīng)驗(yàn)中學(xué)到的第一類DX揣炕。
LLM應(yīng)用評(píng)估框架 (GitHub Repo)
https://github.com/confident-ai/deepeval
DeepEval是一個(gè)一體化的LLM應(yīng)用評(píng)估框架帘皿,允許用戶輕松識(shí)別并迭代不滿意的LLM輸出。它目前提供14種以上的評(píng)估指標(biāo)畸陡,如幻覺鹰溜、總結(jié)、G-Eval丁恭、RAGAS等曹动,讓用戶以類似Pytest或基于組件的方式評(píng)估整個(gè)數(shù)據(jù)集。
解決Pytorch內(nèi)存問題
https://pytorch.org/blog/understanding-gpu-memory-1/
對(duì)于使用Pytorch的實(shí)踐者來說牲览,最大的挑戰(zhàn)之一是弄清楚為什么會(huì)出現(xiàn)內(nèi)存不足墓陈。Pytorch 2.1中的一些新工具可以深入了解內(nèi)存使用情況。。
雜七雜八
AMD社區(qū)性能基準(zhǔn)測試
https://community.amd.com/t5/instinct-accelerators/competitive-performance-claims-and-industry-leading-inference/ba-p/652304
MI300X是AMD的旗艦AI加速器贡必,現(xiàn)在在ROCm 6的支持下兔港,其推理性能接近NVIDIA。這對(duì)社區(qū)來說是個(gè)好消息仔拟,因?yàn)樗鼮樾屡d的AI公司提供了替代芯片衫樊。
在Magic The Gathering草稿上微調(diào)Mistral 7B
https://generallyintelligent.substack.com/p/fine-tuning-mistral-7b-on-magic-the
使用Magic: The Gathering草稿作為測試案例的微調(diào)實(shí)驗(yàn),使GPT-4的能力得到了增強(qiáng)理逊,產(chǎn)生了一個(gè)與人類性能密切匹配的微調(diào)7B參數(shù)模型橡伞。
AI的何時(shí)、何地以及如何
https://www.saastr.com/the-where-when-and-how-of-ai-with-theory-ventures-open-ai-motherduck-and-lamini/
領(lǐng)先的創(chuàng)始人和風(fēng)險(xiǎn)投資者討論了AI的最新動(dòng)態(tài)晋被,從LLM在企業(yè)創(chuàng)新中的應(yīng)用到其他領(lǐng)域兑徘。如果你對(duì)“關(guān)于AI你應(yīng)該知道的事情”的步伐感到有些不知所措,這是一個(gè)很好的快速回顧羡洛。
MMLU提示模板
https://github.com/microsoft/promptbase/blob/main/src/promptbase/mmlu/prompt_templates.py
Microsoft的Medprompt+目前是MMLU的最佳提示方法挂脑。微軟已經(jīng)發(fā)布了這個(gè)模板,以及許多其他在評(píng)估社區(qū)標(biāo)準(zhǔn)的思路鏈?zhǔn)綐邮侥0濉?/p>
Agility使用LLM與其人形機(jī)器人溝通
https://techcrunch.com/2023/12/14/agility-is-using-large-language-models-to-communicate-with-its-humanoid-robots/
生成式AI和大型語言模型正在改變機(jī)器人技術(shù)欲侮。Agility 的雙足機(jī)器人Digit現(xiàn)在可以根據(jù)自然語言命令執(zhí)行復(fù)雜任務(wù)崭闲,標(biāo)志著向更人性化、直觀的機(jī)器人交互的轉(zhuǎn)變威蕉。