基于DeepSeek-R1蒸餾的中文數(shù)據(jù)集訓(xùn)練推理模型

一邑狸、關(guān)于中文DeepSeek-R1（滿血）蒸餾數(shù)據(jù)集

1.1 數(shù)據(jù)集概況

近期诡必，劉聰NLP開源了開源中文DeepSeek-R1（滿血）蒸餾數(shù)據(jù)集蒿赢，其中包括SFT版本润樱。基于滿血DeepSeek-R1蒸餾的中文數(shù)據(jù)集-110k-SFT地址如下:
https://modelscope.cn/datasets/liucong/Chinese-DeepSeek-R1-Distill-data-110k-SFT

1.2 開源此數(shù)據(jù)集初衷

DeepSeek-R1的效果十分強(qiáng)大羡棵，并且基于R1蒸餾數(shù)據(jù)SFT的小模型也展現(xiàn)出了強(qiáng)大的效果壹若，但目前我們發(fā)現(xiàn)，大部分開源的R1蒸餾數(shù)據(jù)集均為英文數(shù)據(jù)集皂冰。同時店展，R1的報告中展示，蒸餾模型中同時也使用了部分通用場景數(shù)據(jù)集秃流，來保障訓(xùn)練中不丟失通用能力赂蕴。為了幫助大家更好地復(fù)現(xiàn)R1蒸餾模型的效果，特此開源中文數(shù)據(jù)集舶胀。

1.3 數(shù)據(jù)分布情況

該中文數(shù)據(jù)集中的數(shù)據(jù)分布如下：
? Math：共計36568個樣本睡腿，
? Exam：共計2432個樣本，
? STEM：共計12648個樣本峻贮，
? General：共計58352，包含弱智吧应闯、邏輯推理纤控、小紅書、知乎碉纺、Chat等

1.4 數(shù)據(jù)樣例及蒸餾過程

同時為了方便大家溯源船万，在每條數(shù)據(jù)的repo_name字段中都加入的原始數(shù)據(jù)源repo刻撒。數(shù)據(jù)示例：

數(shù)據(jù)示例

在蒸餾過程中，按照DeepSeek-R1官方提供的細(xì)節(jié)耿导，進(jìn)行數(shù)據(jù)蒸餾声怔。
? 不增加額外的系統(tǒng)提示詞
? 設(shè)置temperature為0.6
? 如果為數(shù)學(xué)類型數(shù)據(jù)，則增加提示詞舱呻，“請一步步推理醋火，并把最終答案放到 \boxed{}∠渎溃”
? 防止跳出思維模式芥驳，強(qiáng)制在每個輸出的開頭增加"\n"，再開始生成數(shù)據(jù)茬高。

二兆旬、蒸餾實踐

下面介紹基于蒸餾數(shù)據(jù)訓(xùn)練Qwen2.5-1.5B過程。

ms-swift已經(jīng)接入了中文基于滿血DeepSeek-R1蒸餾數(shù)據(jù)集怎栽，通過指定--dataset liucong/Chinese-DeepSeek-R1-Distill-data-110k-SFT即可選擇該數(shù)據(jù)集進(jìn)行訓(xùn)練丽猬。ms-swift是魔搭社區(qū)官方提供的大模型與多模態(tài)大模型訓(xùn)練部署框架。

ms-swift開源地址：https://github.com/modelscope/ms-swift

本章將展示使用ms-swift對該數(shù)據(jù)集進(jìn)行SFT熏瞄。在開始訓(xùn)練之前脚祟，請先安裝ms-swift：

# pip install git+https://github.com/modelscope/ms-swift.git 
git clone https://github.com/modelscope/ms-swift.git 
cd ms-swift 
pip install -e .

微調(diào)腳本如下，我們隨機(jī)抽樣數(shù)據(jù)集中的1800條進(jìn)行訓(xùn)練：

nproc_per_node=2
CUDA_VISIBLE_DEVICES=0,1 \
NPROC_PER_NODE=$nproc_per_node \
swift sft \
    --model Qwen/Qwen2.5-1.5B \
    --train_type full \
    --dataset 'liucong/Chinese-DeepSeek-R1-Distill-data-110k-SFT#1800' \
    --torch_dtype bfloat16 \
    --num_train_epochs 10 \
    --per_device_train_batch_size 1 \
    --per_device_eval_batch_size 1 \
    --learning_rate 1e-5 \
    --gradient_accumulation_steps $(expr 16 / $nproc_per_node) \
    --eval_steps 200 \
    --save_steps 200 \
    --save_total_limit 5 \
    --logging_steps 5 \
    --max_length 8192 \
    --output_dir output \
    --warmup_ratio 0.05 \
    --dataloader_num_workers 4 \
    --deepspeed zero2

訓(xùn)練顯存占用：（訓(xùn)練時長：40分鐘）

訓(xùn)練日志：

訓(xùn)練日志

推理腳本如下巴刻，需要將--model替換成訓(xùn)練產(chǎn)生的last checkpoint文件夾：

# pip install vllm -U
CUDA_VISIBLE_DEVICES=0 \
swift infer \
    --model output/vx-xxx/checkpoint-xxx \
    --stream true \
    --infer_backend vllm \
    --max_model_len 8192 \
    --max_new_tokens 2048 \
    --temperature 0.3

推送到ModelScope：

swift export \
    --model output/vx-xxx/checkpoint-xxx \
    --push_to_hub true \
    --hub_model_id '<your-model-id>' \
    --hub_token '<your-sdk-token>'

訓(xùn)練效果：（有部分內(nèi)容省略）

最后編輯于：2025.03.09 12:12:15

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末愚铡，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子胡陪，更是在濱河造成了極大的恐慌沥寥，老刑警劉巖，帶你破解...
沈念sama閱讀 222,627評論 6贊 517
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件柠座，死亡現(xiàn)場離奇詭異邑雅，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)妈经，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 95,180評論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門淮野，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人吹泡，你說我怎么就攤上這事骤星。” “怎么了爆哑？”我有些...
開封第一講書人閱讀 169,346評論 0贊 362
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵洞难，是天一觀的道長。經(jīng)常有香客問我揭朝，道長队贱，這世上最難降的妖魔是什么色冀？我笑而不...
開封第一講書人閱讀 60,097評論 1贊 300
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮柱嫌，結(jié)果婚禮上锋恬，老公的妹妹穿的比我還像新娘。我一直安慰自己编丘，他們只是感情好与学，可當(dāng)我...
茶點故事閱讀 69,100評論 6贊 398
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著瘪吏，像睡著了一般癣防。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上掌眠，一...
開封第一講書人閱讀 52,696評論 1贊 312
城市分裂傳說
那天蕾盯，我揣著相機(jī)與錄音，去河邊找鬼蓝丙。笑死级遭，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的渺尘。我是一名探鬼主播挫鸽，決...
沈念sama閱讀 41,165評論 3贊 422
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼鸥跟！你這毒婦竟也來了丢郊？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 40,108評論 0贊 277
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤医咨，失蹤者是張志新（化名）和其女友劉穎枫匾，沒想到半個月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體拟淮，經(jīng)...
沈念sama閱讀 46,646評論 1贊 319
?護(hù)林員之死
正文獨居荒郊野嶺守林人離奇死亡干茉，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 38,709評論 3贊 342
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了很泊。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片角虫。...
茶點故事閱讀 40,861評論 1贊 353
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖委造，靈堂內(nèi)的尸體忽然破棺而出戳鹅，到底是詐尸還是另有隱情，我是刑警寧澤昏兆，帶...
沈念sama閱讀 36,527評論 5贊 351
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布枫虏，位于F島的核電站，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏模软。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 42,196評論 3贊 336
男人毒藥：我在死后第九天來索命
文/蒙蒙一饮潦、第九天我趴在偏房一處隱蔽的房頂上張望燃异。院中可真熱鬧，春花似錦继蜡、人聲如沸回俐。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,698評論 0贊 25
一樁弒父案稀并，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽仅颇。三九已至，卻和暖如春碘举，著一層夾襖步出監(jiān)牢的瞬間忘瓦，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,804評論 1贊 274
情欲美人皮
我被黑心中介騙來泰國打工引颈，沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留耕皮，地道東北人。一個月前我還...
沈念sama閱讀 49,287評論 3贊 379
代替公主和親
正文我出身青樓蝙场，卻偏偏與公主長得像凌停，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子售滤，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 45,860評論 2贊 361