第七節(jié) 評測

OpenCompass 評測

https://github.com/InternLM/Tutorial/blob/camp2/opencompass/readme.md

工具架構(gòu)

  • 模型層:大模型評測所涉及的主要模型種類,OpenCompass 以基座模型和對話模型作為重點(diǎn)評測對象羡蛾。
  • 能力層:OpenCompass 從本方案從通用能力和特色能力兩個(gè)方面來進(jìn)行評測維度設(shè)計(jì)漓帅。在模型通用能力方面,從語言、知識忙干、理解器予、推理、安全等多個(gè)能力維度進(jìn)行評測捐迫。在特色能力方面乾翔,從長文本、代碼施戴、工具反浓、知識增強(qiáng)等維度進(jìn)行評測。
  • 方法層:OpenCompass 采用客觀評測與主觀評測兩種評測方式赞哗±自颍客觀評測能便捷地評估模型在具有確定答案(如選擇,填空懈玻,封閉式問答等)的任務(wù)上的能力巧婶,主觀評測能評估用戶對模型回復(fù)的真實(shí)滿意度乾颁,OpenCompass 采用基于模型輔助的主觀評測和基于人類反饋的主觀評測兩種方式涂乌。
  • 工具層:OpenCompass 提供豐富的功能支持自動(dòng)化地開展大語言模型的高效評測。包括分布式評測技術(shù)英岭,提示詞工程湾盒,對接評測數(shù)據(jù)庫,評測榜單發(fā)布诅妹,評測報(bào)告生成等諸多功能罚勾。

評測方法

主客觀相結(jié)合
針對具有確定性答案的能力維度和場景,通過構(gòu)造豐富完善的評測集吭狡,對模型能力進(jìn)行綜合評價(jià)尖殃。針對體現(xiàn)模型能力的開放式或半開放式的問題、模型安全問題等划煮,采用主客觀相結(jié)合的評測方式送丰。

客觀評測

  • 判別式評測:該評測方式基于將問題與候選答案組合在一起,計(jì)算模型在所有組合上的困惑度(perplexity)弛秋,并選擇困惑度最小的答案作為模型的最終輸出器躏。例如,若模型在 問題? 答案1 上的困惑度為 0.1蟹略,在 問題? 答案2 上的困惑度為 0.2登失,最終我們會(huì)選擇 答案1 作為模型的輸出。
  • 生成式評測:該評測方式主要用于生成類任務(wù)挖炬,如語言翻譯揽浙、程序生成、邏輯分析題等。具體實(shí)踐時(shí)捏萍,使用問題作為模型的原始輸入太抓,并留白答案區(qū)域待模型進(jìn)行后續(xù)補(bǔ)全。我們通常還需要對其輸出進(jìn)行后處理令杈,以保證輸出滿足數(shù)據(jù)集的要求走敌。

主管評測

語言表達(dá)生動(dòng)精彩,變化豐富逗噩,大量的場景和能力無法憑借客觀指標(biāo)進(jìn)行評測掉丽。針對如模型安全和模型語言能力的評測,以人的主觀感受為主的評測更能體現(xiàn)模型的真實(shí)能力异雁,并更符合大模型的實(shí)際使用場景捶障。 OpenCompass 采取的主觀評測方案是指借助受試者的主觀判斷對具有對話能力的大語言模型進(jìn)行能力評測。在具體實(shí)踐中纲刀,我們提前基于模型的能力維度構(gòu)建主觀測試問題集合项炼,并將不同模型對于同一問題的不同回復(fù)展現(xiàn)給受試者,收集受試者基于主觀感受的評分示绊。由于主觀測試成本高昂锭部,本方案同時(shí)也采用使用性能優(yōu)異的大語言模擬人類進(jìn)行主觀打分。在實(shí)際評測中面褐,本文將采用真實(shí)人類專家的主觀評測與基于模型打分的主觀評測相結(jié)合的方式開展模型能力評估拌禾。 在具體開展主觀評測時(shí),OpenComapss 采用單模型回復(fù)滿意度統(tǒng)計(jì)和多模型滿意度比較兩種方式開展具體的評測工作展哭。

Quick Start

在 OpenCompass 中評估一個(gè)模型通常包括以下幾個(gè)階段:配置 -> 推理 -> 評估 -> 可視化湃窍。

  • 配置:這是整個(gè)工作流的起點(diǎn)。您需要配置整個(gè)評估過程匪傍,選擇要評估的模型和數(shù)據(jù)集您市。此外,還可以選擇評估策略役衡、計(jì)算后端等茵休,并定義顯示結(jié)果的方式。
  • 推理與評估:在這個(gè)階段映挂,OpenCompass 將會(huì)開始對模型和數(shù)據(jù)集進(jìn)行并行推理和評估泽篮。推理階段主要是讓模型從數(shù)據(jù)集產(chǎn)生輸出,而評估階段則是衡量這些輸出與標(biāo)準(zhǔn)答案的匹配程度柑船。這兩個(gè)過程會(huì)被拆分為多個(gè)同時(shí)運(yùn)行的“任務(wù)”以提高效率帽撑,但請注意,如果計(jì)算資源有限鞍时,這種策略可能會(huì)使評測變得更慢亏拉。如果需要了解該問題及解決方案扣蜻,可以參考 FAQ: 效率。
  • 可視化:評估完成后及塘,OpenCompass 將結(jié)果整理成易讀的表格莽使,并將其保存為 CSV 和 TXT 文件。你也可以激活飛書狀態(tài)上報(bào)功能笙僚,此后可以在飛書客戶端中及時(shí)獲得評測狀態(tài)報(bào)告芳肌。 接下來,我們將展示 OpenCompass 的基礎(chǔ)用法肋层,展示書生浦語在 C-Eval 基準(zhǔn)任務(wù)上的評估亿笤。它們的配置文件可以在 configs/eval_demo.py 中找到。

安裝

數(shù)據(jù)準(zhǔn)備

解壓數(shù)據(jù)集


評測數(shù)據(jù)集

列出支持的數(shù)據(jù)集


啟動(dòng)評測

python run.py
--datasets ceval_gen \
--hf-path /share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b \  # HuggingFace 模型路徑
--tokenizer-path /share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b \  # HuggingFace tokenizer 路徑(如果與模型路徑相同栋猖,可以省略)
--tokenizer-kwargs padding_side='left' truncation='left' trust_remote_code=True \  # 構(gòu)建 tokenizer 的參數(shù)
--model-kwargs device_map='auto' trust_remote_code=True \  # 構(gòu)建模型的參數(shù)
--max-seq-len 1024 \  # 模型可以接受的最大序列長度
--max-out-len 16 \  # 生成的最大 token 數(shù)
--batch-size 2  \  # 批量大小
--num-gpus 1  # 運(yùn)行模型所需的 GPU 數(shù)量
--debug
執(zhí)行中净薛。。蒲拉。

測評結(jié)果
在1.8b書生模型在C_EVAL數(shù)據(jù)集上的性能:



自定義數(shù)據(jù)集客主觀評測:量身定制肃拜,慧眼識珠

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市雌团,隨后出現(xiàn)的幾起案子燃领,更是在濱河造成了極大的恐慌,老刑警劉巖辱姨,帶你破解...
    沈念sama閱讀 222,627評論 6 517
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件柿菩,死亡現(xiàn)場離奇詭異戚嗅,居然都是意外死亡雨涛,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,180評論 3 399
  • 文/潘曉璐 我一進(jìn)店門懦胞,熙熙樓的掌柜王于貴愁眉苦臉地迎上來替久,“玉大人,你說我怎么就攤上這事躏尉◎歉” “怎么了?”我有些...
    開封第一講書人閱讀 169,346評論 0 362
  • 文/不壞的土叔 我叫張陵胀糜,是天一觀的道長颅拦。 經(jīng)常有香客問我,道長教藻,這世上最難降的妖魔是什么距帅? 我笑而不...
    開封第一講書人閱讀 60,097評論 1 300
  • 正文 為了忘掉前任,我火速辦了婚禮括堤,結(jié)果婚禮上碌秸,老公的妹妹穿的比我還像新娘绍移。我一直安慰自己,他們只是感情好讥电,可當(dāng)我...
    茶點(diǎn)故事閱讀 69,100評論 6 398
  • 文/花漫 我一把揭開白布蹂窖。 她就那樣靜靜地躺著,像睡著了一般恩敌。 火紅的嫁衣襯著肌膚如雪瞬测。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,696評論 1 312
  • 那天纠炮,我揣著相機(jī)與錄音涣楷,去河邊找鬼。 笑死抗碰,一個(gè)胖子當(dāng)著我的面吹牛狮斗,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播弧蝇,決...
    沈念sama閱讀 41,165評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼碳褒,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了看疗?” 一聲冷哼從身側(cè)響起沙峻,我...
    開封第一講書人閱讀 40,108評論 0 277
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎两芳,沒想到半個(gè)月后摔寨,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,646評論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡怖辆,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,709評論 3 342
  • 正文 我和宋清朗相戀三年是复,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片竖螃。...
    茶點(diǎn)故事閱讀 40,861評論 1 353
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡淑廊,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出特咆,到底是詐尸還是另有隱情季惩,我是刑警寧澤,帶...
    沈念sama閱讀 36,527評論 5 351
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響渺鹦,放射性物質(zhì)發(fā)生泄漏腐巢。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,196評論 3 336
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦脂凶、人聲如沸宪睹。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,698評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽亭病。三九已至,卻和暖如春嘶居,著一層夾襖步出監(jiān)牢的瞬間罪帖,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,804評論 1 274
  • 我被黑心中介騙來泰國打工邮屁, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留整袁,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 49,287評論 3 379
  • 正文 我出身青樓佑吝,卻偏偏與公主長得像坐昙,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子芋忿,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,860評論 2 361

推薦閱讀更多精彩內(nèi)容