碾壓GPT-4缰冤！Claude3到底有多強(qiáng)？

2024年3月4日烙无，官方宣布推出 Claude 3 模型系列锋谐，它在廣泛的認(rèn)知任務(wù)中樹立了新的行業(yè)基準(zhǔn)。該系列包括三個(gè)按能力遞增排序的最先進(jìn)模型：Claude 3 Haiku截酷、Claude 3 Sonnet 和 Claude 3 Opus涮拗。每個(gè)后續(xù)模型都提供越來越強(qiáng)大的性能，允許用戶為其特定應(yīng)用選擇智能、速度和成本之間的最佳平衡三热。

Opus 和 Sonnet 現(xiàn)在已經(jīng)可以在 claude.ai 和目前在 159個(gè)國家普遍可用的 Claude API 中使用鼓择。Haiku 很快也會(huì)上市。

Claude 3 模型系列

[圖片上傳失敗...(image-9ddda5-1710226209208)]

智能新標(biāo)準(zhǔn)

Opus就漾， Claude最智能的模型呐能，在大部分常用的 AI 系統(tǒng)評(píng)估基準(zhǔn)上表現(xiàn)優(yōu)于同行，包括本科水平專家知識(shí)（MMLU）抑堡、研究生水平專家推理（GPQA）摆出、基礎(chǔ)數(shù)學(xué)（GSM8K）等。它在復(fù)雜任務(wù)上展示了接近人類的理解和流利程度首妖，引領(lǐng)了通用智能的前沿偎漫。

所有 Claude 3 模型在分析和預(yù)測(cè)、細(xì)膩的內(nèi)容創(chuàng)作有缆、代碼生成以及使用西班牙語象踊、日語和法語等非英語語言對(duì)話方面的能力都有所提升。

下面是 Claude 3 模型與 Claude同行在多個(gè)能力基準(zhǔn)測(cè)試比較：

[圖片上傳失敗...(image-b6709a-1710226209208)]

近乎即時(shí)的結(jié)果

Claude 3 模型可以為實(shí)時(shí)客戶聊天棚壁、自動(dòng)補(bǔ)全和數(shù)據(jù)提取任務(wù)提供動(dòng)力杯矩，這些響應(yīng)必須是即時(shí)和實(shí)時(shí)的。

Haiku 是市場(chǎng)上智能范疇性價(jià)比最高的模型袖外。它可以在不到三秒的時(shí)間內(nèi)讀懂一個(gè)信息和數(shù)據(jù)密集的 arXiv 上的研究論文（約10k 個(gè) Token）史隆，包括圖表和圖形。上市后在刺， Claude預(yù)計(jì)性能會(huì)進(jìn)一步提高逆害。

對(duì)于大多數(shù)工作負(fù)載，Sonnet 的速度是 Claude 2 和 Claude 2.1 的兩倍蚣驼，智能水平也更高魄幕。它擅長(zhǎng)迅速響應(yīng)的任務(wù)，如知識(shí)檢索或銷售自動(dòng)化颖杏。Opus 以與 Claude 2 和 2.1 相似的速度交付纯陨，但智能水平更高。

強(qiáng)大的視覺能力

Claude 3 模型擁有與其他領(lǐng)先模型相當(dāng)?shù)膹?fù)雜視覺能力留储。它們可以處理包括照片翼抠、圖表、圖形和技術(shù)圖紙?jiān)趦?nèi)的廣泛視覺格式获讳。 Claude特別高興為 Claude的企業(yè)客戶提供這種新的方式阴颖，其中一些客戶的知識(shí)庫有多達(dá)50%以多種格式編碼，如PDF丐膝、流程圖或演示幻燈片量愧。

[圖片上傳失敗...(image-4503c2-1710226209208)]

更少的拒絕

先前的 Claude 模型經(jīng)常做出不必要的拒絕钾菊，這表明缺乏上下文理解。 Claude在這一領(lǐng)域取得了有意義的進(jìn)展：與上一代模型相比偎肃，Opus煞烫、Sonnet 和 Haiku 大大減少了拒絕回應(yīng)那些觸及系統(tǒng)保護(hù)邊界的提示。如下所示累颂，Claude 3 模型對(duì)請(qǐng)求有更微妙的理解滞详，識(shí)別真正的危害，并且更少地拒絕回答無害的提示紊馏。

[圖片上傳失敗...(image-f572f-1710226209208)]

提高準(zhǔn)確率

各種規(guī)模的企業(yè)都依賴 Claude的模型為他們的客戶服務(wù)料饥，因此對(duì)于模型輸出來說，保持高準(zhǔn)確率是至關(guān)重要的瘦棋。為了評(píng)估這一點(diǎn)稀火， Claude使用了一套復(fù)雜的、真實(shí)的問題赌朋，這些問題針對(duì)目前模型的已知弱點(diǎn)。 Claude將回應(yīng)分為正確答案篇裁、錯(cuò)誤答案（或幻覺）以及不確定性聲明沛慢，即模型表示它不知道答案，而不是提供錯(cuò)誤信息达布。與 Claude 2.1 相比团甲，Opus 在這些具挑戰(zhàn)性的開放式問題上的準(zhǔn)確度（或正確答案）表現(xiàn)出了兩倍的提升，同時(shí)還展現(xiàn)出降低了錯(cuò)誤答案的水平黍聂。

除了產(chǎn)生更值得信賴的回應(yīng)外躺苦， Claude很快還將在 Claude 3 模型中啟用引用功能，從而使它們能夠指向參考材料中的精確句子以驗(yàn)證它們的答案产还。

[圖片上傳失敗...(image-376408-1710226209208)]

長(zhǎng)上下文和近乎完美的回憶

Claude 3 模型系列在發(fā)布之初將提供 200K 上下文窗口匹厘。然而，所有三個(gè)模型都能夠接受超過 100 萬個(gè) Token 的輸入脐区， Claude可能會(huì)向需要增強(qiáng)處理能力的選定客戶提供這一點(diǎn)愈诚。

為了有效處理長(zhǎng)上下文提示，模型需要強(qiáng)大的回憶能力牛隅。'大海撈針' (NIAH) 評(píng)估衡量模型從大量數(shù)據(jù)中準(zhǔn)確回憶信息的能力炕柔。 Claude通過使用每個(gè)提示中的 30 個(gè)隨機(jī)針/問題對(duì)之一，并在多樣化的眾包文檔語料上進(jìn)行測(cè)試媒佣，增強(qiáng)了這一基準(zhǔn)測(cè)試的穩(wěn)健性匕累。Claude 3 Opus 不僅實(shí)現(xiàn)了近乎完美的回憶，準(zhǔn)確率超過了 99%默伍，在某些情況下欢嘿，它甚至識(shí)別出評(píng)估自身的局限性授霸，識(shí)別出“針”句似乎是人為插入到原文中的。

[圖片上傳失敗...(image-8d92f1-1710226209208)]

負(fù)責(zé)任的設(shè)計(jì)

Claude開發(fā) Claude 3 模型系列际插，旨在讓它們像它們的能力一樣值得信賴碘耳。 Claude有幾個(gè)專門的團(tuán)隊(duì)跟蹤和減輕廣泛的風(fēng)險(xiǎn)，范圍從錯(cuò)誤信息和CSAM到生物濫用框弛、選舉干預(yù)和自主復(fù)制技能辛辨。 Claude繼續(xù)開發(fā)諸如 Constitutional AI 這樣的方法來提高 Claude模型的安全性和透明度，并已調(diào)整 Claude的模型以減輕可能由新模式引發(fā)的隱私問題瑟枫。

在日益復(fù)雜的模型中解決偏見問題是一項(xiàng)持續(xù)的努力斗搞，而 Claude在這次新發(fā)布中取得了進(jìn)步。如模型卡所示慷妙，Claude 3 根據(jù) Bias Benchmark for Question Answering (BBQ) 的評(píng)估顯示出比 Claude以前的模型更少的偏見僻焚。 Claude仍然致力于推進(jìn)減少偏見并促進(jìn) Claude模型中更大中立性的技術(shù)，確保它們不會(huì)傾向于任何特定的黨派立場(chǎng)膝擂。

盡管 Claude 3 模型系列在生物學(xué)知識(shí)虑啤、網(wǎng)絡(luò)相關(guān)知識(shí)和自主性方面相比以前的模型取得了進(jìn)步，但它仍然符合 Claude Responsible Scaling Policy 中的 AI 安全等級(jí) 2 (ASL-2)架馋。

最后編輯于：2024.03.12 14:50:14

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末狞山，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子叉寂，更是在濱河造成了極大的恐慌萍启，老刑警劉巖，帶你破解...
沈念sama閱讀 216,744評(píng)論 6贊 502
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件屏鳍，死亡現(xiàn)場(chǎng)離奇詭異勘纯，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)钓瞭，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,505評(píng)論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門驳遵，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人降淮，你說我怎么就攤上這事超埋。” “怎么了佳鳖？”我有些...
開封第一講書人閱讀 163,105評(píng)論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵霍殴，是天一觀的道長(zhǎng)。經(jīng)常有香客問我系吩，道長(zhǎng)来庭，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,242評(píng)論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任穿挨，我火速辦了婚禮月弛，結(jié)果婚禮上肴盏，老公的妹妹穿的比我還像新娘。我一直安慰自己帽衙，他們只是感情好菜皂，可當(dāng)我...
茶點(diǎn)故事閱讀 67,269評(píng)論 6贊 389
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著厉萝，像睡著了一般恍飘。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上谴垫，一...
開封第一講書人閱讀 51,215評(píng)論 1贊 299
城市分裂傳說
那天章母，我揣著相機(jī)與錄音，去河邊找鬼翩剪。笑死乳怎，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的前弯。我是一名探鬼主播蚪缀，決...
沈念sama閱讀 40,096評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼博杖！你這毒婦竟也來了椿胯？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 38,939評(píng)論 0贊 274
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤剃根，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后前方，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體狈醉，經(jīng)...
沈念sama閱讀 45,354評(píng)論 1贊 311
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,573評(píng)論 2贊 333
?白月光啟示錄
正文我和宋清朗相戀三年惠险，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了苗傅。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 39,745評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡班巩，死狀恐怖渣慕，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情抱慌，我是刑警寧澤逊桦，帶...
沈念sama閱讀 35,448評(píng)論 5贊 344
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站抑进，受9級(jí)特大地震影響强经，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜寺渗，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,048評(píng)論 3贊 327
男人毒藥：我在死后第九天來索命
文/蒙蒙一匿情、第九天我趴在偏房一處隱蔽的房頂上張望兰迫。院中可真熱鬧，春花似錦炬称、人聲如沸汁果。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,683評(píng)論 0贊 22
一樁弒父案玲躯，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽据德。三九已至，卻和暖如春府蔗，著一層夾襖步出監(jiān)牢的瞬間晋控，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 32,838評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工姓赤，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留赡译，地道東北人。一個(gè)月前我還...
沈念sama閱讀 47,776評(píng)論 2贊 369
代替公主和親
正文我出身青樓不铆，卻偏偏與公主長(zhǎng)得像蝌焚，于是被迫代替她去往敵國和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子誓斥，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,652評(píng)論 2贊 354

碾壓GPT-4！Claude3到底有多強(qiáng)先朦？