頭條
谷歌最新的人工智能創(chuàng)新成果
https://blog.google/technology/ai/google-ai-updates-december-2024/
谷歌強(qiáng)調(diào)了人工智能領(lǐng)域的最新進(jìn)展,包括對話式人工智能的強(qiáng)化模型苏揣、負(fù)責(zé)任人工智能實(shí)踐的更新黄鳍,以及面向開發(fā)者的新工具。
OpenAI的O3
https://www.youtube.com/watch
在OpenAI發(fā)布消息的最后一天平匈,OpenAI宣布了O3框沟,這是其最強(qiáng)大的推理模型。
OpenAI的新對齊方法
https://openai.com/index/deliberative-alignment/
OpenAI開發(fā)了一種針對推理模型的新對齊技術(shù)增炭,能讓模型思考基于實(shí)際行為目標(biāo)(比如安全指南里的那些目標(biāo))并做出相應(yīng)回應(yīng)忍燥。這是在對齊方面的一個進(jìn)步,避免了同時(shí)內(nèi)置對齊和偏好隙姿。
研究
醫(yī)療思維鏈
https://arxiv.org/abs/2412.13736v1
一種新的推理框架梅垄,能提高醫(yī)學(xué)視覺問答的準(zhǔn)確性和可解釋性。
多語句標(biāo)注數(shù)據(jù)集
https://zzzbbbzzz.github.io/MulSen_AD/index.html
一個新數(shù)據(jù)集孟辑,用于在多句理解和標(biāo)注任務(wù)上訓(xùn)練和評估人工智能模型哎甲,強(qiáng)調(diào)基于語境的分析。
行動規(guī)劃框架
https://kakituken.github.io/affordance-any.github.io/
這個框架能讓機(jī)器人根據(jù)物體的可供性來規(guī)劃行動饲嗽,提高在動態(tài)環(huán)境中的泛化能力和效率。
工程
多模態(tài)人工智能工具包(GitHub倉庫)
https://github.com/taco-group/openemma
一個用于開發(fā)多模態(tài)人工智能應(yīng)用的綜合工具包奈嘿,帶有用于視覺貌虾、語言和音頻集成的預(yù)制模塊。
利用Levitor實(shí)現(xiàn)無人機(jī)導(dǎo)航
https://ppetrichor.github.io/levitor.github.io/
Levitor是一個用于無人機(jī)自主導(dǎo)航的平臺裙犹,配有先進(jìn)的避障和高效尋路算法尽狠。
微軟的大型語言模型基準(zhǔn)測試(GitHub倉庫)
https://github.com/microsoft/mmlu-cf
微軟的MMLU-CF是一個評估語言模型在多種任務(wù)上表現(xiàn)的基準(zhǔn),重點(diǎn)關(guān)注事實(shí)一致性和多語言能力叶圃。
其他
如何打造一款真正有用的人工智能產(chǎn)品
https://every.to/thesis/how-to-build-a-truly-useful-ai-product
打造人工智能初創(chuàng)公司袄膏,需要快速適應(yīng)大型語言模型(LLMs)的快速發(fā)展,避免那些即將推出的模型就能解決的問題掺冠,還要利用尖端技術(shù)的高成本來獲得競爭優(yōu)勢沉馆。要專注于特定用例,與通用人工智能競爭德崭,同時(shí)強(qiáng)調(diào)產(chǎn)品體驗(yàn)的無縫性斥黑。盡管生成式人工智能發(fā)展迅速,但打造受歡迎產(chǎn)品的核心原則并未改變眉厨。
有用和沒用的特定任務(wù)大語言模型評估
https://eugeneyan.com/writing/evals/
現(xiàn)成的評估方法往往無法有效衡量大型語言模型(LLM)在特定任務(wù)中的表現(xiàn)锌奴。用于分類的有用指標(biāo)包括召回率、精確率憾股、ROC - AUC鹿蜀,而總結(jié)和翻譯任務(wù)則可分別采用基于自然語言推理(NLI)的一致性檢查以及chrF或BLEURT指標(biāo)箕慧。要考慮模型中可能存在的缺陷,比如版權(quán)抄襲和有害內(nèi)容等茴恰,可使用RealToxicityPrompts這類測試進(jìn)行全面評估颠焦。
o1 轉(zhuǎn)為專業(yè)版
https://thezvi.substack.com/p/o1-turns-pro
OpenAI的o1和o1 Pro進(jìn)行了更新,在編碼琐簇、數(shù)學(xué)和復(fù)雜問題解決能力方面有顯著提升蒸健,在深度推理和事實(shí)回憶方面表現(xiàn)尤為突出。每月200美元的o1 Pro服務(wù)通過增加計(jì)算能力進(jìn)一步強(qiáng)化了這些功能婉商,對處理專業(yè)或挑戰(zhàn)性任務(wù)的人來說特別有用似忧。總體反應(yīng)積極丈秩,多數(shù)用戶若沒有高級需求盯捌,每月20美元的服務(wù)就夠了。
快訊
一次性Python工具
https://simonwillison.net/2024/Dec/19/one-shot-python-tools/
一篇不錯的博客蘑秽,介紹了一種提示策略饺著,用于通過Claude制作自包含、兼容UV的Python腳本肠牲。
谷歌推出“水手計(jì)劃”:人工智能助手可為你使用網(wǎng)絡(luò)
https://techcrunch.com/2024/12/11/google-unveils-project-mariner-ai-agents-to-use-the-web-for-you/
谷歌的DeepMind推出了“水手計(jì)劃”幼衰,這是一個能通過Chrome瀏覽器自主瀏覽網(wǎng)站并與之互動的人工智能代理。
谷歌正在測試能在視頻游戲中幫到你的雙子座(Gemini)人工智能智能體
https://www.theverge.com/2024/12/11/24318530/google-gemini-2-0-understand-rules-video-games-genie
谷歌發(fā)布了Gemini 2.0缀雳,展示了能理解游戲規(guī)則并提供實(shí)時(shí)建議的人工智能代理渡嚣,這些代理專門在《部落沖突》等游戲上進(jìn)行了測試。