基于DeepSeek-R1蒸餾的中文數(shù)據(jù)集訓(xùn)練推理模型

一邑狸、關(guān)于中文DeepSeek-R1(滿血)蒸餾數(shù)據(jù)集

1.1 數(shù)據(jù)集概況

近期诡必,劉聰NLP開源了開源中文DeepSeek-R1(滿血)蒸餾數(shù)據(jù)集蒿赢,其中包括SFT版本润樱。基于滿血DeepSeek-R1蒸餾的中文數(shù)據(jù)集-110k-SFT地址如下:
https://modelscope.cn/datasets/liucong/Chinese-DeepSeek-R1-Distill-data-110k-SFT

1.2 開源此數(shù)據(jù)集初衷

DeepSeek-R1的效果十分強(qiáng)大羡棵,并且基于R1蒸餾數(shù)據(jù)SFT的小模型也展現(xiàn)出了強(qiáng)大的效果壹若,但目前我們發(fā)現(xiàn),大部分開源的R1蒸餾數(shù)據(jù)集均為英文數(shù)據(jù)集皂冰。同時店展,R1的報告中展示,蒸餾模型中同時也使用了部分通用場景數(shù)據(jù)集秃流,來保障訓(xùn)練中不丟失通用能力赂蕴。為了幫助大家更好地復(fù)現(xiàn)R1蒸餾模型的效果,特此開源中文數(shù)據(jù)集舶胀。

1.3 數(shù)據(jù)分布情況

該中文數(shù)據(jù)集中的數(shù)據(jù)分布如下:
? Math:共計36568個樣本睡腿,
? Exam:共計2432個樣本,
? STEM:共計12648個樣本峻贮,
? General:共計58352,包含弱智吧应闯、邏輯推理纤控、小紅書、知乎碉纺、Chat等

1.4 數(shù)據(jù)樣例及蒸餾過程

同時為了方便大家溯源船万,在每條數(shù)據(jù)的repo_name字段中都加入的原始數(shù)據(jù)源repo刻撒。數(shù)據(jù)示例:
數(shù)據(jù)示例

在蒸餾過程中,按照DeepSeek-R1官方提供的細(xì)節(jié)耿导,進(jìn)行數(shù)據(jù)蒸餾声怔。
? 不增加額外的系統(tǒng)提示詞
? 設(shè)置temperature為0.6
? 如果為數(shù)學(xué)類型數(shù)據(jù),則增加提示詞舱呻,“請一步步推理醋火,并把最終答案放到 \boxed{}∠渎溃”
? 防止跳出思維模式芥驳,強(qiáng)制在每個輸出的開頭增加"\n",再開始生成數(shù)據(jù)茬高。

二兆旬、蒸餾實踐

下面介紹基于蒸餾數(shù)據(jù)訓(xùn)練Qwen2.5-1.5B過程。

ms-swift已經(jīng)接入了中文基于滿血DeepSeek-R1蒸餾數(shù)據(jù)集怎栽,通過指定--dataset liucong/Chinese-DeepSeek-R1-Distill-data-110k-SFT即可選擇該數(shù)據(jù)集進(jìn)行訓(xùn)練丽猬。ms-swift是魔搭社區(qū)官方提供的大模型與多模態(tài)大模型訓(xùn)練部署框架。

ms-swift開源地址:https://github.com/modelscope/ms-swift

本章將展示使用ms-swift對該數(shù)據(jù)集進(jìn)行SFT熏瞄。在開始訓(xùn)練之前脚祟,請先安裝ms-swift:

# pip install git+https://github.com/modelscope/ms-swift.git 
git clone https://github.com/modelscope/ms-swift.git 
cd ms-swift 
pip install -e .

微調(diào)腳本如下,我們隨機(jī)抽樣數(shù)據(jù)集中的1800條進(jìn)行訓(xùn)練:

nproc_per_node=2
CUDA_VISIBLE_DEVICES=0,1 \
NPROC_PER_NODE=$nproc_per_node \
swift sft \
    --model Qwen/Qwen2.5-1.5B \
    --train_type full \
    --dataset 'liucong/Chinese-DeepSeek-R1-Distill-data-110k-SFT#1800' \
    --torch_dtype bfloat16 \
    --num_train_epochs 10 \
    --per_device_train_batch_size 1 \
    --per_device_eval_batch_size 1 \
    --learning_rate 1e-5 \
    --gradient_accumulation_steps $(expr 16 / $nproc_per_node) \
    --eval_steps 200 \
    --save_steps 200 \
    --save_total_limit 5 \
    --logging_steps 5 \
    --max_length 8192 \
    --output_dir output \
    --warmup_ratio 0.05 \
    --dataloader_num_workers 4 \
    --deepspeed zero2

訓(xùn)練顯存占用:(訓(xùn)練時長:40分鐘)


訓(xùn)練日志:
訓(xùn)練日志

推理腳本如下巴刻,需要將--model替換成訓(xùn)練產(chǎn)生的last checkpoint文件夾:

# pip install vllm -U
CUDA_VISIBLE_DEVICES=0 \
swift infer \
    --model output/vx-xxx/checkpoint-xxx \
    --stream true \
    --infer_backend vllm \
    --max_model_len 8192 \
    --max_new_tokens 2048 \
    --temperature 0.3

推送到ModelScope:

swift export \
    --model output/vx-xxx/checkpoint-xxx \
    --push_to_hub true \
    --hub_model_id '<your-model-id>' \
    --hub_token '<your-sdk-token>'

訓(xùn)練效果:(有部分內(nèi)容省略)


最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末愚铡,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子胡陪,更是在濱河造成了極大的恐慌沥寥,老刑警劉巖,帶你破解...
    沈念sama閱讀 222,627評論 6 517
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件柠座,死亡現(xiàn)場離奇詭異邑雅,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)妈经,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,180評論 3 399
  • 文/潘曉璐 我一進(jìn)店門淮野,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人吹泡,你說我怎么就攤上這事骤星。” “怎么了爆哑?”我有些...
    開封第一講書人閱讀 169,346評論 0 362
  • 文/不壞的土叔 我叫張陵洞难,是天一觀的道長。 經(jīng)常有香客問我揭朝,道長队贱,這世上最難降的妖魔是什么色冀? 我笑而不...
    開封第一講書人閱讀 60,097評論 1 300
  • 正文 為了忘掉前任,我火速辦了婚禮柱嫌,結(jié)果婚禮上锋恬,老公的妹妹穿的比我還像新娘。我一直安慰自己编丘,他們只是感情好与学,可當(dāng)我...
    茶點故事閱讀 69,100評論 6 398
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著瘪吏,像睡著了一般癣防。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上掌眠,一...
    開封第一講書人閱讀 52,696評論 1 312
  • 那天蕾盯,我揣著相機(jī)與錄音,去河邊找鬼蓝丙。 笑死级遭,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的渺尘。 我是一名探鬼主播挫鸽,決...
    沈念sama閱讀 41,165評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼鸥跟!你這毒婦竟也來了丢郊?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 40,108評論 0 277
  • 序言:老撾萬榮一對情侶失蹤医咨,失蹤者是張志新(化名)和其女友劉穎枫匾,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體拟淮,經(jīng)...
    沈念sama閱讀 46,646評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡干茉,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,709評論 3 342
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了很泊。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片角虫。...
    茶點故事閱讀 40,861評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖委造,靈堂內(nèi)的尸體忽然破棺而出戳鹅,到底是詐尸還是另有隱情,我是刑警寧澤昏兆,帶...
    沈念sama閱讀 36,527評論 5 351
  • 正文 年R本政府宣布枫虏,位于F島的核電站,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏模软。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 42,196評論 3 336
  • 文/蒙蒙 一饮潦、第九天 我趴在偏房一處隱蔽的房頂上張望燃异。 院中可真熱鬧,春花似錦继蜡、人聲如沸回俐。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,698評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽仅颇。三九已至,卻和暖如春碘举,著一層夾襖步出監(jiān)牢的瞬間忘瓦,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,804評論 1 274
  • 我被黑心中介騙來泰國打工引颈, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留耕皮,地道東北人。 一個月前我還...
    沈念sama閱讀 49,287評論 3 379
  • 正文 我出身青樓蝙场,卻偏偏與公主長得像凌停,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子售滤,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,860評論 2 361

推薦閱讀更多精彩內(nèi)容