2024年3月4日烙无,官方宣布推出 Claude 3 模型系列锋谐,它在廣泛的認(rèn)知任務(wù)中樹立了新的行業(yè)基準(zhǔn)。該系列包括三個(gè)按能力遞增排序的最先進(jìn)模型:Claude 3 Haiku截酷、Claude 3 Sonnet 和 Claude 3 Opus涮拗。每個(gè)后續(xù)模型都提供越來越強(qiáng)大的性能,允許用戶為其特定應(yīng)用選擇智能、速度和成本之間的最佳平衡三热。
Opus 和 Sonnet 現(xiàn)在已經(jīng)可以在 claude.ai 和目前在 159個(gè)國家普遍可用的 Claude API 中使用鼓择。Haiku 很快也會(huì)上市。
Claude 3 模型系列
[圖片上傳失敗...(image-9ddda5-1710226209208)]
智能新標(biāo)準(zhǔn)
Opus就漾, Claude最智能的模型呐能,在大部分常用的 AI 系統(tǒng)評(píng)估基準(zhǔn)上表現(xiàn)優(yōu)于同行,包括本科水平專家知識(shí)(MMLU)抑堡、研究生水平專家推理(GPQA)摆出、基礎(chǔ)數(shù)學(xué)(GSM8K)等。它在復(fù)雜任務(wù)上展示了接近人類的理解和流利程度首妖,引領(lǐng)了通用智能的前沿偎漫。
所有 Claude 3 模型在分析和預(yù)測(cè)、細(xì)膩的內(nèi)容創(chuàng)作有缆、代碼生成以及使用西班牙語象踊、日語和法語等非英語語言對(duì)話方面的能力都有所提升。
下面是 Claude 3 模型與 Claude同行在多個(gè)能力基準(zhǔn)測(cè)試比較:
[圖片上傳失敗...(image-b6709a-1710226209208)]
近乎即時(shí)的結(jié)果
Claude 3 模型可以為實(shí)時(shí)客戶聊天棚壁、自動(dòng)補(bǔ)全和數(shù)據(jù)提取任務(wù)提供動(dòng)力杯矩,這些響應(yīng)必須是即時(shí)和實(shí)時(shí)的。
Haiku 是市場(chǎng)上智能范疇性價(jià)比最高的模型袖外。它可以在不到三秒的時(shí)間內(nèi)讀懂一個(gè)信息和數(shù)據(jù)密集的 arXiv 上的研究論文(約10k 個(gè) Token)史隆,包括圖表和圖形。上市后在刺, Claude預(yù)計(jì)性能會(huì)進(jìn)一步提高逆害。
對(duì)于大多數(shù)工作負(fù)載,Sonnet 的速度是 Claude 2 和 Claude 2.1 的兩倍蚣驼,智能水平也更高魄幕。它擅長(zhǎng)迅速響應(yīng)的任務(wù),如知識(shí)檢索或銷售自動(dòng)化颖杏。Opus 以與 Claude 2 和 2.1 相似的速度交付纯陨,但智能水平更高。
強(qiáng)大的視覺能力
Claude 3 模型擁有與其他領(lǐng)先模型相當(dāng)?shù)膹?fù)雜視覺能力留储。它們可以處理包括照片翼抠、圖表、圖形和技術(shù)圖紙?jiān)趦?nèi)的廣泛視覺格式获讳。 Claude特別高興為 Claude的企業(yè)客戶提供這種新的方式阴颖,其中一些客戶的知識(shí)庫有多達(dá)50%以多種格式編碼,如PDF丐膝、流程圖或演示幻燈片量愧。
[圖片上傳失敗...(image-4503c2-1710226209208)]
更少的拒絕
先前的 Claude 模型經(jīng)常做出不必要的拒絕钾菊,這表明缺乏上下文理解。 Claude在這一領(lǐng)域取得了有意義的進(jìn)展:與上一代模型相比偎肃,Opus煞烫、Sonnet 和 Haiku 大大減少了拒絕回應(yīng)那些觸及系統(tǒng)保護(hù)邊界的提示。如下所示累颂,Claude 3 模型對(duì)請(qǐng)求有更微妙的理解滞详,識(shí)別真正的危害,并且更少地拒絕回答無害的提示紊馏。
[圖片上傳失敗...(image-f572f-1710226209208)]
提高準(zhǔn)確率
各種規(guī)模的企業(yè)都依賴 Claude的模型為他們的客戶服務(wù)料饥,因此對(duì)于模型輸出來說,保持高準(zhǔn)確率是至關(guān)重要的瘦棋。為了評(píng)估這一點(diǎn)稀火, Claude使用了一套復(fù)雜的、真實(shí)的問題赌朋,這些問題針對(duì)目前模型的已知弱點(diǎn)。 Claude將回應(yīng)分為正確答案篇裁、錯(cuò)誤答案(或幻覺)以及不確定性聲明沛慢,即模型表示它不知道答案,而不是提供錯(cuò)誤信息达布。與 Claude 2.1 相比团甲,Opus 在這些具挑戰(zhàn)性的開放式問題上的準(zhǔn)確度(或正確答案)表現(xiàn)出了兩倍的提升,同時(shí)還展現(xiàn)出降低了錯(cuò)誤答案的水平黍聂。
除了產(chǎn)生更值得信賴的回應(yīng)外躺苦, Claude很快還將在 Claude 3 模型中啟用引用功能,從而使它們能夠指向參考材料中的精確句子以驗(yàn)證它們的答案产还。
[圖片上傳失敗...(image-376408-1710226209208)]
長(zhǎng)上下文和近乎完美的回憶
Claude 3 模型系列在發(fā)布之初將提供 200K 上下文窗口匹厘。然而,所有三個(gè)模型都能夠接受超過 100 萬個(gè) Token 的輸入脐区, Claude可能會(huì)向需要增強(qiáng)處理能力的選定客戶提供這一點(diǎn)愈诚。
為了有效處理長(zhǎng)上下文提示,模型需要強(qiáng)大的回憶能力牛隅。'大海撈針' (NIAH) 評(píng)估衡量模型從大量數(shù)據(jù)中準(zhǔn)確回憶信息的能力炕柔。 Claude通過使用每個(gè)提示中的 30 個(gè)隨機(jī)針/問題對(duì)之一,并在多樣化的眾包文檔語料上進(jìn)行測(cè)試媒佣,增強(qiáng)了這一基準(zhǔn)測(cè)試的穩(wěn)健性匕累。Claude 3 Opus 不僅實(shí)現(xiàn)了近乎完美的回憶,準(zhǔn)確率超過了 99%默伍,在某些情況下欢嘿,它甚至識(shí)別出評(píng)估自身的局限性授霸,識(shí)別出“針”句似乎是人為插入到原文中的。
[圖片上傳失敗...(image-8d92f1-1710226209208)]
負(fù)責(zé)任的設(shè)計(jì)
Claude開發(fā) Claude 3 模型系列际插,旨在讓它們像它們的能力一樣值得信賴碘耳。 Claude有幾個(gè)專門的團(tuán)隊(duì)跟蹤和減輕廣泛的風(fēng)險(xiǎn),范圍從錯(cuò)誤信息和CSAM到生物濫用框弛、選舉干預(yù)和自主復(fù)制技能辛辨。 Claude繼續(xù)開發(fā)諸如 Constitutional AI 這樣的方法來提高 Claude模型的安全性和透明度,并已調(diào)整 Claude的模型以減輕可能由新模式引發(fā)的隱私問題瑟枫。
在日益復(fù)雜的模型中解決偏見問題是一項(xiàng)持續(xù)的努力斗搞,而 Claude在這次新發(fā)布中取得了進(jìn)步。如模型卡所示慷妙,Claude 3 根據(jù) Bias Benchmark for Question Answering (BBQ) 的評(píng)估顯示出比 Claude以前的模型更少的偏見僻焚。 Claude仍然致力于推進(jìn)減少偏見并促進(jìn) Claude模型中更大中立性的技術(shù),確保它們不會(huì)傾向于任何特定的黨派立場(chǎng)膝擂。
盡管 Claude 3 模型系列在生物學(xué)知識(shí)虑啤、網(wǎng)絡(luò)相關(guān)知識(shí)和自主性方面相比以前的模型取得了進(jìn)步,但它仍然符合 Claude Responsible Scaling Policy 中的 AI 安全等級(jí) 2 (ASL-2)架馋。