04-學(xué)習(xí)Tiny-Eval搭建大模型評(píng)測系統(tǒng) 2024-05-28

本文是《從零手搓大模型實(shí)戰(zhàn)》學(xué)習(xí)的第四篇個(gè)人學(xué)習(xí)筆記芥映,主要通過學(xué)習(xí)TinyEval項(xiàng)目來總結(jié)搭建一個(gè)大模型評(píng)測系統(tǒng)的相關(guān)知識(shí),下面記錄下學(xué)習(xí)內(nèi)容以及相關(guān)心得。

注:Tiny-Eval相關(guān)學(xué)習(xí)內(nèi)容來自datawhalechina/tiny-universe

1.什么是大模型評(píng)測?

大模型LLM的評(píng)測是衡量模型性能的關(guān)鍵環(huán)節(jié),它涉及多個(gè)方面搔弄,包括模型的準(zhǔn)確性、流暢性丰滑、多樣性和相關(guān)性等顾犹。評(píng)測LLM時(shí),我們通常會(huì)使用一系列的評(píng)測指標(biāo)(metrics)來量化模型的表現(xiàn)。

Metrics(指標(biāo))的解釋:

“metric”指的是用于量化評(píng)估模型性能的具體指標(biāo)炫刷,有助于客觀地比較模型的表現(xiàn)擎宝。常見的metrics包括:

  1. BLEU (Bilingual Evaluation Understudy)

    • 基于n-gram精確度的評(píng)估方法,用于衡量文本生成的質(zhì)量浑玛。
    • 通過比較模型生成的文本與參考文本中n-gram的重合程度來打分绍申。
  2. ROUGE (Recall-Oriented Understudy for Gisting Evaluation)

    • 用于評(píng)估自動(dòng)摘要和機(jī)器翻譯的性能。
    • 基于召回率的概念顾彰,衡量生成的摘要或翻譯與參考文本的相似度极阅。
  3. PERPLEXITY

    • 衡量語言模型性能的指標(biāo),表示模型對(duì)測試數(shù)據(jù)的困惑度涨享。
    • 較低的困惑度意味著模型能更好地預(yù)測文本序列筋搏。
  4. DISTINCT

    • 評(píng)估生成文本的多樣性。
    • 通過計(jì)算生成文本中不同n-gram的比例來衡量厕隧。
  5. Accuracy

    • 分類或選擇任務(wù)中拆又,準(zhǔn)確率衡量模型正確預(yù)測的比例。
    • 在需要選擇的生成式任務(wù)中也可用作評(píng)估指標(biāo)栏账。
  6. F1 Score

    • 用于分類任務(wù)的評(píng)估指標(biāo),特別是處理不平衡數(shù)據(jù)集時(shí)栈源。
    • 是精確率(precision)和召回率(recall)的調(diào)和平均值挡爵。
    • 在文本分類任務(wù)中(如情感分析),F(xiàn)1 Score衡量模型正確識(shí)別和分類文本的性能甚垦。
  7. Fluency, Coherence, and Relevance

    • 基于人類評(píng)估的指標(biāo)茶鹃,衡量文本的流暢性、連貫性和相關(guān)性艰亮。
    • 通過問卷調(diào)查或評(píng)分系統(tǒng)收集人類評(píng)估者的反饋闭翩。

在進(jìn)行大模型評(píng)測時(shí),需要考慮綜合使用多個(gè)metrics迄埃,以便全面評(píng)估模型的性能疗韵。不同的任務(wù)和應(yīng)用場景需關(guān)注不同的評(píng)估指標(biāo)組合。例如侄非,在文本分類任務(wù)中蕉汪,除了常見的準(zhǔn)確率外,F(xiàn)1 Score也是一個(gè)非常重要的補(bǔ)充指標(biāo)逞怨,特別是在類別不平衡的情況下者疤。

評(píng)測常見做法:

  1. 人工評(píng)測

    • 通過人類評(píng)估者對(duì)模型生成的文本進(jìn)行打分或提供反饋,這是最直接的評(píng)測方法叠赦。
    • 評(píng)估維度可以包括文本的相關(guān)性驹马、連貫性、創(chuàng)新性等。
  2. 自動(dòng)評(píng)測

    • 使用自動(dòng)化工具和算法來評(píng)估模型生成的文本質(zhì)量糯累。
    • 這通常涉及計(jì)算模型生成文本與參考文本之間的相似度或差異度算利。
  3. 任務(wù)特定評(píng)測

    • 針對(duì)特定任務(wù)(如問答、摘要生成等)設(shè)計(jì)評(píng)測方法寇蚊。
    • 例如笔时,在問答任務(wù)中,可以評(píng)估模型回答問題的準(zhǔn)確率和相關(guān)性仗岸。

2. TinyEval的主要內(nèi)容和流程

這里允耿,TinyEval 是一個(gè)簡單的LLM評(píng)測框架,雙階段的評(píng)測體系扒怖,包含了LLM通用評(píng)測的核心功能较锡,支持生成式、判別式盗痒、選則式評(píng)測問題蚂蕴,框架主要包含inference與eval部分,目的是為了幫助我們大家更好理解和學(xué)習(xí)LLM評(píng)測的原理與實(shí)現(xiàn)俯邓。

image.png

3. TinyEval的評(píng)測數(shù)據(jù)集骡楼、評(píng)測Metric等

TinyEval 這里數(shù)據(jù)集主要是3類,采用不同的評(píng)測metirc稽鞭,如下:

  • multi_news 長文本問答
  • multifieldqa_zh 短文本問答
  • trec 生成式選則

評(píng)測metric:

  • F1 score
  • rouge-series/blue-series
  • accuracy

4. TinyEval的代碼

TinyEval 的代碼包含2部分鸟整,一部分是LLM和metrics的定義,一部分是評(píng)測框架主要是2個(gè)文件: inference.py 和 eval.py:


TinyEval .png
  • inference代碼主要用于加載預(yù)訓(xùn)練語言模型朦蕴,并使用該模型對(duì)給定的數(shù)據(jù)集進(jìn)行文本生成任務(wù)篮条。使用一些配置文件來設(shè)置模型參數(shù)和預(yù)測參數(shù),最后將預(yù)測結(jié)果保存到指定的輸出文件中吩抓。
  • eval代碼主要用于評(píng)估自然語言處理模型性能的腳本涉茧,主要功能是計(jì)算不同數(shù)據(jù)集上的模型預(yù)測結(jié)果的得分,并將結(jié)果保存為一個(gè)JSON文件疹娶。

注:由于本地環(huán)境的因素伴栓,目前沒實(shí)際運(yùn)行tinyEval,之后再補(bǔ)上吧

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末雨饺,一起剝皮案震驚了整個(gè)濱河市挣饥,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌沛膳,老刑警劉巖扔枫,帶你破解...
    沈念sama閱讀 217,406評(píng)論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異锹安,居然都是意外死亡短荐,警方通過查閱死者的電腦和手機(jī)倚舀,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,732評(píng)論 3 393
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來忍宋,“玉大人痕貌,你說我怎么就攤上這事】放牛” “怎么了舵稠?”我有些...
    開封第一講書人閱讀 163,711評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長入宦。 經(jīng)常有香客問我哺徊,道長,這世上最難降的妖魔是什么乾闰? 我笑而不...
    開封第一講書人閱讀 58,380評(píng)論 1 293
  • 正文 為了忘掉前任落追,我火速辦了婚禮,結(jié)果婚禮上涯肩,老公的妹妹穿的比我還像新娘轿钠。我一直安慰自己,他們只是感情好病苗,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,432評(píng)論 6 392
  • 文/花漫 我一把揭開白布疗垛。 她就那樣靜靜地躺著,像睡著了一般硫朦。 火紅的嫁衣襯著肌膚如雪贷腕。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,301評(píng)論 1 301
  • 那天阵幸,我揣著相機(jī)與錄音,去河邊找鬼芽世。 笑死挚赊,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的济瓢。 我是一名探鬼主播荠割,決...
    沈念sama閱讀 40,145評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼旺矾!你這毒婦竟也來了蔑鹦?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,008評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤箕宙,失蹤者是張志新(化名)和其女友劉穎嚎朽,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體柬帕,經(jīng)...
    沈念sama閱讀 45,443評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡哟忍,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,649評(píng)論 3 334
  • 正文 我和宋清朗相戀三年狡门,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片锅很。...
    茶點(diǎn)故事閱讀 39,795評(píng)論 1 347
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡其馏,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出爆安,到底是詐尸還是另有隱情叛复,我是刑警寧澤,帶...
    沈念sama閱讀 35,501評(píng)論 5 345
  • 正文 年R本政府宣布扔仓,位于F島的核電站褐奥,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏当辐。R本人自食惡果不足惜抖僵,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,119評(píng)論 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望缘揪。 院中可真熱鬧耍群,春花似錦、人聲如沸找筝。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,731評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽袖裕。三九已至曹抬,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間急鳄,已是汗流浹背谤民。 一陣腳步聲響...
    開封第一講書人閱讀 32,865評(píng)論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留疾宏,地道東北人张足。 一個(gè)月前我還...
    沈念sama閱讀 47,899評(píng)論 2 370
  • 正文 我出身青樓,卻偏偏與公主長得像坎藐,于是被迫代替她去往敵國和親为牍。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,724評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容