碾壓GPT-4缰冤!Claude3到底有多強(qiáng)?

2024年3月4日烙无,官方宣布推出 Claude 3 模型系列锋谐,它在廣泛的認(rèn)知任務(wù)中樹立了新的行業(yè)基準(zhǔn)。該系列包括三個(gè)按能力遞增排序的最先進(jìn)模型:Claude 3 Haiku截酷、Claude 3 Sonnet 和 Claude 3 Opus涮拗。每個(gè)后續(xù)模型都提供越來越強(qiáng)大的性能,允許用戶為其特定應(yīng)用選擇智能、速度和成本之間的最佳平衡三热。

Opus 和 Sonnet 現(xiàn)在已經(jīng)可以在 claude.ai 和目前在 159個(gè)國家普遍可用的 Claude API 中使用鼓择。Haiku 很快也會(huì)上市。

Claude 3 模型系列

[圖片上傳失敗...(image-9ddda5-1710226209208)]

智能新標(biāo)準(zhǔn)

Opus就漾, Claude最智能的模型呐能,在大部分常用的 AI 系統(tǒng)評(píng)估基準(zhǔn)上表現(xiàn)優(yōu)于同行,包括本科水平專家知識(shí)(MMLU)抑堡、研究生水平專家推理(GPQA)摆出、基礎(chǔ)數(shù)學(xué)(GSM8K)等。它在復(fù)雜任務(wù)上展示了接近人類的理解和流利程度首妖,引領(lǐng)了通用智能的前沿偎漫。

所有 Claude 3 模型在分析和預(yù)測(cè)、細(xì)膩的內(nèi)容創(chuàng)作有缆、代碼生成以及使用西班牙語象踊、日語和法語等非英語語言對(duì)話方面的能力都有所提升。

下面是 Claude 3 模型與 Claude同行在多個(gè)能力基準(zhǔn)測(cè)試比較:

[圖片上傳失敗...(image-b6709a-1710226209208)]

近乎即時(shí)的結(jié)果

Claude 3 模型可以為實(shí)時(shí)客戶聊天棚壁、自動(dòng)補(bǔ)全和數(shù)據(jù)提取任務(wù)提供動(dòng)力杯矩,這些響應(yīng)必須是即時(shí)和實(shí)時(shí)的。

Haiku 是市場(chǎng)上智能范疇性價(jià)比最高的模型袖外。它可以在不到三秒的時(shí)間內(nèi)讀懂一個(gè)信息和數(shù)據(jù)密集的 arXiv 上的研究論文(約10k 個(gè) Token)史隆,包括圖表和圖形。上市后在刺, Claude預(yù)計(jì)性能會(huì)進(jìn)一步提高逆害。

對(duì)于大多數(shù)工作負(fù)載,Sonnet 的速度是 Claude 2 和 Claude 2.1 的兩倍蚣驼,智能水平也更高魄幕。它擅長(zhǎng)迅速響應(yīng)的任務(wù),如知識(shí)檢索或銷售自動(dòng)化颖杏。Opus 以與 Claude 2 和 2.1 相似的速度交付纯陨,但智能水平更高。

強(qiáng)大的視覺能力

Claude 3 模型擁有與其他領(lǐng)先模型相當(dāng)?shù)膹?fù)雜視覺能力留储。它們可以處理包括照片翼抠、圖表、圖形和技術(shù)圖紙?jiān)趦?nèi)的廣泛視覺格式获讳。 Claude特別高興為 Claude的企業(yè)客戶提供這種新的方式阴颖,其中一些客戶的知識(shí)庫有多達(dá)50%以多種格式編碼,如PDF丐膝、流程圖或演示幻燈片量愧。

[圖片上傳失敗...(image-4503c2-1710226209208)]

更少的拒絕

先前的 Claude 模型經(jīng)常做出不必要的拒絕钾菊,這表明缺乏上下文理解。 Claude在這一領(lǐng)域取得了有意義的進(jìn)展:與上一代模型相比偎肃,Opus煞烫、Sonnet 和 Haiku 大大減少了拒絕回應(yīng)那些觸及系統(tǒng)保護(hù)邊界的提示。如下所示累颂,Claude 3 模型對(duì)請(qǐng)求有更微妙的理解滞详,識(shí)別真正的危害,并且更少地拒絕回答無害的提示紊馏。

[圖片上傳失敗...(image-f572f-1710226209208)]

提高準(zhǔn)確率

各種規(guī)模的企業(yè)都依賴 Claude的模型為他們的客戶服務(wù)料饥,因此對(duì)于模型輸出來說,保持高準(zhǔn)確率是至關(guān)重要的瘦棋。為了評(píng)估這一點(diǎn)稀火, Claude使用了一套復(fù)雜的、真實(shí)的問題赌朋,這些問題針對(duì)目前模型的已知弱點(diǎn)。 Claude將回應(yīng)分為正確答案篇裁、錯(cuò)誤答案(或幻覺)以及不確定性聲明沛慢,即模型表示它不知道答案,而不是提供錯(cuò)誤信息达布。與 Claude 2.1 相比团甲,Opus 在這些具挑戰(zhàn)性的開放式問題上的準(zhǔn)確度(或正確答案)表現(xiàn)出了兩倍的提升,同時(shí)還展現(xiàn)出降低了錯(cuò)誤答案的水平黍聂。

除了產(chǎn)生更值得信賴的回應(yīng)外躺苦, Claude很快還將在 Claude 3 模型中啟用引用功能,從而使它們能夠指向參考材料中的精確句子以驗(yàn)證它們的答案产还。

[圖片上傳失敗...(image-376408-1710226209208)]

長(zhǎng)上下文和近乎完美的回憶

Claude 3 模型系列在發(fā)布之初將提供 200K 上下文窗口匹厘。然而,所有三個(gè)模型都能夠接受超過 100 萬個(gè) Token 的輸入脐区, Claude可能會(huì)向需要增強(qiáng)處理能力的選定客戶提供這一點(diǎn)愈诚。

為了有效處理長(zhǎng)上下文提示,模型需要強(qiáng)大的回憶能力牛隅。'大海撈針' (NIAH) 評(píng)估衡量模型從大量數(shù)據(jù)中準(zhǔn)確回憶信息的能力炕柔。 Claude通過使用每個(gè)提示中的 30 個(gè)隨機(jī)針/問題對(duì)之一,并在多樣化的眾包文檔語料上進(jìn)行測(cè)試媒佣,增強(qiáng)了這一基準(zhǔn)測(cè)試的穩(wěn)健性匕累。Claude 3 Opus 不僅實(shí)現(xiàn)了近乎完美的回憶,準(zhǔn)確率超過了 99%默伍,在某些情況下欢嘿,它甚至識(shí)別出評(píng)估自身的局限性授霸,識(shí)別出“針”句似乎是人為插入到原文中的。

[圖片上傳失敗...(image-8d92f1-1710226209208)]

負(fù)責(zé)任的設(shè)計(jì)

Claude開發(fā) Claude 3 模型系列际插,旨在讓它們像它們的能力一樣值得信賴碘耳。 Claude有幾個(gè)專門的團(tuán)隊(duì)跟蹤和減輕廣泛的風(fēng)險(xiǎn),范圍從錯(cuò)誤信息和CSAM到生物濫用框弛、選舉干預(yù)和自主復(fù)制技能辛辨。 Claude繼續(xù)開發(fā)諸如 Constitutional AI 這樣的方法來提高 Claude模型的安全性和透明度,并已調(diào)整 Claude的模型以減輕可能由新模式引發(fā)的隱私問題瑟枫。

在日益復(fù)雜的模型中解決偏見問題是一項(xiàng)持續(xù)的努力斗搞,而 Claude在這次新發(fā)布中取得了進(jìn)步。如模型卡所示慷妙,Claude 3 根據(jù) Bias Benchmark for Question Answering (BBQ) 的評(píng)估顯示出比 Claude以前的模型更少的偏見僻焚。 Claude仍然致力于推進(jìn)減少偏見并促進(jìn) Claude模型中更大中立性的技術(shù),確保它們不會(huì)傾向于任何特定的黨派立場(chǎng)膝擂。

盡管 Claude 3 模型系列在生物學(xué)知識(shí)虑啤、網(wǎng)絡(luò)相關(guān)知識(shí)和自主性方面相比以前的模型取得了進(jìn)步,但它仍然符合 Claude Responsible Scaling Policy 中的 AI 安全等級(jí) 2 (ASL-2)架馋。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末狞山,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子叉寂,更是在濱河造成了極大的恐慌萍启,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,744評(píng)論 6 502
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件屏鳍,死亡現(xiàn)場(chǎng)離奇詭異勘纯,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)钓瞭,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,505評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門驳遵,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人降淮,你說我怎么就攤上這事超埋。” “怎么了佳鳖?”我有些...
    開封第一講書人閱讀 163,105評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵霍殴,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我系吩,道長(zhǎng)来庭,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,242評(píng)論 1 292
  • 正文 為了忘掉前任穿挨,我火速辦了婚禮月弛,結(jié)果婚禮上肴盏,老公的妹妹穿的比我還像新娘。我一直安慰自己帽衙,他們只是感情好菜皂,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,269評(píng)論 6 389
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著厉萝,像睡著了一般恍飘。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上谴垫,一...
    開封第一講書人閱讀 51,215評(píng)論 1 299
  • 那天章母,我揣著相機(jī)與錄音,去河邊找鬼翩剪。 笑死乳怎,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的前弯。 我是一名探鬼主播蚪缀,決...
    沈念sama閱讀 40,096評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼博杖!你這毒婦竟也來了椿胯?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,939評(píng)論 0 274
  • 序言:老撾萬榮一對(duì)情侶失蹤剃根,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后前方,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體狈醉,經(jīng)...
    沈念sama閱讀 45,354評(píng)論 1 311
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,573評(píng)論 2 333
  • 正文 我和宋清朗相戀三年惠险,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了苗傅。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,745評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡班巩,死狀恐怖渣慕,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情抱慌,我是刑警寧澤逊桦,帶...
    沈念sama閱讀 35,448評(píng)論 5 344
  • 正文 年R本政府宣布,位于F島的核電站抑进,受9級(jí)特大地震影響强经,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜寺渗,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,048評(píng)論 3 327
  • 文/蒙蒙 一匿情、第九天 我趴在偏房一處隱蔽的房頂上張望兰迫。 院中可真熱鬧,春花似錦炬称、人聲如沸汁果。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,683評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽据德。三九已至,卻和暖如春府蔗,著一層夾襖步出監(jiān)牢的瞬間晋控,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,838評(píng)論 1 269
  • 我被黑心中介騙來泰國打工姓赤, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留赡译,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,776評(píng)論 2 369
  • 正文 我出身青樓不铆,卻偏偏與公主長(zhǎng)得像蝌焚,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子誓斥,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,652評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容