一、整體概要
基于阿里云云原生大數(shù)據(jù)計算服務MaxCompute以及大數(shù)據(jù)治理開發(fā)平臺Dataworks實現(xiàn)使用自定義數(shù)據(jù)集微調DeepSeek-R1蒸餾模型主要分為兩大部分么库,一部分是基于人工智能平臺PAI的微調訓練,第二部分是通過如何構建自有數(shù)據(jù)集甘有,并進行接入诉儒,下面我們以MaxCompute+Dataworks+PAI為基礎,快速微調DeepSeek-R1蒸餾模型亏掀。
二忱反、如何微調DeepSeek
進入人工智能平臺PAI控制臺,左側導航欄進入快速開始 > Model Gallery滤愕,選擇模型温算。下面我們以DeepSeek-R1-Distill-Qwen-7B為例,進行微調訓練间影。(其他模型微調也可以基于這個流程)
進入 DeepSeek-R1-Distill-Qwen-7B 模型頁面后注竿,點擊“訓練”按鈕,核心是基于自有數(shù)據(jù)集進行模型調優(yōu)魂贬,自有數(shù)據(jù)集可以選擇存在對象存儲OSS的數(shù)據(jù)巩割,也可以選擇存在MaxCompute的數(shù)據(jù),下面我們以存在MaxCompute的數(shù)據(jù)的自有數(shù)據(jù)集為例進行DEMO演示随橘。
訓練數(shù)據(jù)集選擇自定義數(shù)據(jù)集-新建數(shù)據(jù)集喂分。
存儲類型選擇云原生大數(shù)據(jù)計算服務 MaxCompute。
導入MaxCcompute的項目名和表名進行關聯(lián)机蔗,進行掛在路徑配置蒲祈。
然后再選擇模型輸出路徑甘萧。
最后選擇相應的資源配置,及參數(shù)配置梆掸,點擊“訓練”就可以基于自有數(shù)據(jù)集進行微調了扬卷,一起試試吧。
三酸钦、如何構建自有數(shù)據(jù)集怪得,接入DeepSeek進行微調
在人工智能平臺PAI上使用自定義數(shù)據(jù)集,主要需要關聯(lián)MaxCompute的項目和數(shù)據(jù)表卑硫。首先創(chuàng)建MaxCompute項目:打開MaxCompute控制臺徒恋,點擊左側導航欄【工作區(qū)】-【項目管理】,選擇【新建項目】
創(chuàng)建MaxCompute表:打開Dataworks控制臺欢伏,左側導航欄選擇【表管理】新建表入挣,詳細建表過程可參考文檔。
自定義數(shù)據(jù)集寫入
表結構新建好并提交發(fā)布后硝拧,您可以使用DataWorks通過數(shù)據(jù)集成任務径筏、MaxCompute節(jié)點任務向MaxCompute表中寫入數(shù)據(jù),DataWorks深度適配數(shù)十種大數(shù)據(jù)及AI計算引擎進行數(shù)據(jù)集成障陶,支持自定義數(shù)據(jù)集的開發(fā)與調度滋恬。此外,DataWorks還支持通過上傳數(shù)據(jù)功能將本地數(shù)據(jù)導入MaxCompute表中抱究。當然恢氯,也可以使用DataWorks對寫入的數(shù)據(jù)進行二次開發(fā)。
四媳维、微調DeepSeek R1 蒸餾模型部署及應用
通過MaxCompute和Dataworks創(chuàng)建完項目和表后酿雪,即可開始使用PAI平臺開始使用自定義數(shù)據(jù)集微調DeepSeek-R1蒸餾模型,更多模型微調參考教程可參考人工智能平臺 PAI 的部署及應用實踐侄刽。
部署DeepSeek-V3指黎、DeepSeek-R1模型_人工智能平臺 PAI(PAI)-阿里云幫助中
使用PAI一鍵部署通義千問模型_人工智能平臺 PAI(PAI)-阿里云幫助中心
通過EAS一鍵部署MLLM多模態(tài)大語言模型應用_人工智能平臺 PAI(PAI)-阿里云幫助中心
歡迎各位開發(fā)者前來體驗!