頭條
通義千問2.5 推出 1M上下文版本
https://qwenlm.github.io/blog/qwen2.5-1m/
來自通義團(tuán)隊(duì)功能強(qiáng)大的本地1M上下文模型俩功。它們展示了該團(tuán)隊(duì)在整個(gè)訓(xùn)練過程中是如何逐步擴(kuò)展上下文能力的贩据。此外枣抱,通義團(tuán)隊(duì)還發(fā)布了基于vLLM構(gòu)建的推理框架蓝晒,速度提升了7倍之多氢烘。
ElevenLabs以30億美元估值融資2.5億美元
https://www.cosmico.org/elevenlabs-raises-250m-at-3b-valuation-for-ai-voice/
ElevenLabs獲得大量資金烦却,用于拓展其人工智能語(yǔ)音技術(shù)平臺(tái)执桌,重點(diǎn)開發(fā)在娛樂米愿、無障礙服務(wù)和虛擬助手領(lǐng)域的新應(yīng)用。
DeepSeek 推理 模型在某些基準(zhǔn)測(cè)試中擊敗了OpenAI的O1
DeepSeek的DeepSeek-R1推理模型在AIME和MATH-500等基準(zhǔn)測(cè)試中與OpenAI的o1不相上下鼻吮。它有6710億個(gè)參數(shù)育苟,能以較低成本提供有競(jìng)爭(zhēng)力的性能。該模型已在Hugging Face上發(fā)布椎木。
研究
高斯曲面跟蹤與重建
https://eth-ait.github.io/GSTAR/
這項(xiàng)研究提出的GSTAR方法展示了一種既能重建動(dòng)態(tài)網(wǎng)格违柏,又能在三維空間中追蹤每個(gè)點(diǎn)的絕妙方式。雖然它確實(shí)需要經(jīng)過精心校準(zhǔn)的多視角攝像頭香椎,但這朝著單視角應(yīng)用邁出了一大步漱竖。
訓(xùn)練語(yǔ)音合成器
https://blog.aqnichol.com/2025/01/22/training-a-speech-synthesizer/
OpenAI的亞歷克斯·尼科爾發(fā)布了一篇很棒的博文,介紹如何訓(xùn)練語(yǔ)音合成器畜伐。這種使用VQVAEs和自回歸模型的方法馍惹,在多模態(tài)理解與生成中很常見。
基礎(chǔ)模型的參數(shù)高效微調(diào)
https://arxiv.org/abs/2501.13787v1
這項(xiàng)調(diào)查回顧了基礎(chǔ)模型的參數(shù)高效微調(diào)技術(shù)玛界,深入探討了在不同任務(wù)中保持性能的同時(shí)降低計(jì)算成本的方法万矾。
工程
關(guān)于 Llama 的推理(GitHub Repo)
https://gist.github.com/willccbb/4676755236bb08cab5f4e54a0475d6fb
這是目前OpenAI最初提出、DeepSeek發(fā)布的推理模型的最小可行復(fù)現(xiàn)慎框。它在數(shù)學(xué)問題中使用了格式和正確性獎(jiǎng)勵(lì)良狈。這段特定代碼片段還展示了訓(xùn)練足夠長(zhǎng)時(shí)間時(shí)的 “頓悟” 時(shí)刻 。
Prompt1Story
https://byliutao.github.io/1Prompt1Story.github.io/
Prompt1Story是一種無需訓(xùn)練的方法笨枯,通過一個(gè)拼接提示就能實(shí)現(xiàn)連貫的文本到圖像生成薪丁。
借助思維鏈進(jìn)行圖像生成(GitHub 倉(cāng)庫(kù))
https://github.com/ziyuguo99/image-generation-cot
該項(xiàng)目探究思維鏈推理(CoT reasoning)在增強(qiáng)自回歸圖像生成方面的潛力遇西。
其他
教育領(lǐng)域的人工智能初創(chuàng)企業(yè)
谷歌重點(diǎn)介紹了一些新興初創(chuàng)公司,它們利用人工智能打造創(chuàng)新工具严嗜,用于個(gè)性化學(xué)習(xí)粱檀、內(nèi)容生成以及提高學(xué)生在教育中的參與度。
3D腫瘤數(shù)據(jù)集
https://www.zongweiz.com/dataset
AbdomenAtlas 3.0是首個(gè)包含高質(zhì)量腹部CT及配套放射科報(bào)告的公開數(shù)據(jù)集漫玄。該數(shù)據(jù)庫(kù)有9000多份帶放射科報(bào)告的CT掃描茄蚯,還有肝臟、腎臟和胰腺腫瘤的逐像素標(biāo)注称近。
自我構(gòu)建智能體的悖論:教人工智能自學(xué)
https://foundationcapital.com/the-paradox-of-self-building-agents-teaching-ai-to-teach-itself/
人工智能智能體正從被動(dòng)工具轉(zhuǎn)變?yōu)橹鲃?dòng)系統(tǒng)第队,有望通過整合傳統(tǒng)軟件棧重新定義企業(yè)軟件。中島洋平概述了智能體的四個(gè)自主程度刨秆,強(qiáng)調(diào)了從固定功能到可預(yù)測(cè)自我構(gòu)建的進(jìn)展凳谦。盡管前景可期,但這些智能體需要保障措施以防被濫用衡未,精心設(shè)計(jì)和監(jiān)管對(duì)平衡創(chuàng)新與安全至關(guān)重要尸执。
輕熊貓瀏覽器(GitHub 倉(cāng)庫(kù))
https://github.com/lightpanda-io/browser
專為人工智能和自動(dòng)化設(shè)計(jì)的無界面輕量級(jí)瀏覽器。
面向零售商的人工智能創(chuàng)新
https://blog.google/products/google-cloud/google-cloud-ai-retailers-nrf-2025/
谷歌云為零售商推出新人工智能工具缓醋,聚焦個(gè)性化購(gòu)物體驗(yàn)如失、實(shí)時(shí)庫(kù)存管理和預(yù)測(cè)分析。