deepseek-r1是如何煉成的

近來仗哨,DeepSeek R1 一鳴驚人晚吞,迅速席卷各大平臺(tái),成為科技領(lǐng)域的熱議焦點(diǎn)萌踱。從專業(yè)論壇到社交媒體葵礼,甚至那些原本與人工智能毫無交集的親朋好友,也紛紛開始詢問:“你知道 DeepSeek 嗎?” 這一現(xiàn)象讓人不禁意識(shí)到,深入探討這個(gè)在國(guó)產(chǎn)和開源 LLM 發(fā)展史上具有里程碑意義的模型审姓,已顯得尤為必要。

OpenAI 的模型因其閉源特性届谈,其 o1 的實(shí)現(xiàn)方式始終是外界無法知曉的謎團(tuán)枯夜。然而,對(duì)于 NLP 從業(yè)者而言疼约,盡管無法直接窺探其訓(xùn)練細(xì)節(jié)卤档,但通過對(duì)模型輸出的觀察蝙泼,訓(xùn)練思路仍然能被推測(cè)出大致框架程剥。盡管媒體宣傳鋪天蓋地,DeepSeek 的表現(xiàn)也相當(dāng)亮眼汤踏,但它仍然是 OpenAI 的追隨者织鲸。誠(chéng)然,從 0 到 1 的創(chuàng)新往往更具挑戰(zhàn)性溪胶,OpenAI 在這一過程中所付出的探索尤為艱辛搂擦。然而,DeepSeek 的崛起無疑標(biāo)志著一次重大突破哗脖。它不僅為研究者和開發(fā)者提供了一個(gè)開放瀑踢、可深入研究的平臺(tái),還為未來開源 LLM 超越閉源 LLM 指明了方向才避。

deepseek r1 訓(xùn)練過程

經(jīng)驗(yàn)表明橱夭,最有效的方法往往源自最樸素的初衷。試想一下桑逝,如果沒有 DeepSeek-R1 提供的方法棘劣,若讓你自己實(shí)現(xiàn)一個(gè)類似 GPT-O1 這樣具備思維過程的 LLM,你會(huì)如何著手呢楞遏?

一個(gè)最直接茬暇、自然的思路便是收集大量帶有 Chain-of-Thought (CoT) 的訓(xùn)練數(shù)據(jù)。在這一過程中寡喝,我們還可以借助普通 LLM糙俗,通過提示工程生成符合要求的數(shù)據(jù)。數(shù)據(jù)中预鬓,推理過程可以用 <think></think> 標(biāo)簽標(biāo)記巧骚,最終的回答則用 <answer></answer> 標(biāo)簽進(jìn)行標(biāo)注,接著利用這些數(shù)據(jù)進(jìn)行微調(diào)訓(xùn)練珊皿,從而得到一個(gè)具備思維過程的 LLM网缝。

回顧一下 DeepSeek-R1 的論文,其訓(xùn)練模板正是這一思路蟋定。但或許為了進(jìn)一步提升效果粉臊,DeepSeek 團(tuán)隊(duì)在訓(xùn)練 DeepSeek-R1 Zero 時(shí)完全摒棄了傳統(tǒng)的 SFT(監(jiān)督微調(diào)),而是采用了純強(qiáng)化學(xué)習(xí)的方法驶兜,采用 GRPO(群組相對(duì)策略優(yōu)化) 作為強(qiáng)化學(xué)習(xí)框架扼仲。通過對(duì)多個(gè)答案進(jìn)行采樣远寸,計(jì)算其相對(duì)優(yōu)勢(shì)并加以優(yōu)化,從而對(duì)原始的 DeepSeek V3 模型進(jìn)行微調(diào)屠凶,賦予其推理能力驰后。

GRPO:DeepSeek 成功的關(guān)鍵優(yōu)化

GRPO (Group Relative Policy Optimization) 是deepseek團(tuán)隊(duì)在2024年2月提出的一種用于強(qiáng)化學(xué)習(xí)的優(yōu)化方法,用以 減少計(jì)算開銷 并提升推理能力矗愧。 眾所周知灶芝,在強(qiáng)化學(xué)習(xí)中,常見的方法是 近端策略優(yōu)化(PPO, Proximal Policy Optimization)唉韭,這個(gè)算法自從被OpenAI提出來的夜涕,幾乎一直雄踞強(qiáng)化學(xué)習(xí)SOTA方法之榜首,因此openai在訓(xùn)練他們LLM模型中使用的RLHF中的必然一直是PPO属愤,GRPO這個(gè)微小的改進(jìn)或許是deepseek成功的非常關(guān)鍵的一環(huán)女器。

GRPO 的核心思想

GRPO 的獨(dú)特之處在于它通過比較同一批次中不同答案的相對(duì)優(yōu)勢(shì),來指導(dǎo)策略的優(yōu)化住诸。與傳統(tǒng)方法中的 Critic 網(wǎng)絡(luò)相比驾胆,GRPO 直接通過群體間的評(píng)分差異進(jìn)行學(xué)習(xí),從而節(jié)約了大量的計(jì)算資源贱呐,并且能夠提高強(qiáng)化學(xué)習(xí)的效率丧诺。具體來說,GRPO 的優(yōu)勢(shì)計(jì)算不依賴外部的價(jià)值模型吼句,而是通過 同一問題多個(gè)答案之間的分?jǐn)?shù)對(duì)比 來得出優(yōu)勢(shì)锅必,這使得它特別適用于推理任務(wù)。

GRPO 公式與計(jì)算方法

GRPO 的優(yōu)化過程可以通過以下公式描述:

目標(biāo)優(yōu)化函數(shù)(Objective Function)

JGRPO(θ)=E[∑i=1Gmin?(πθ(oi∣q)πθold(oi∣q)Ai,clip(πθ(oi∣q)πθold(oi∣q),1??,1+?)Ai)?βDKL(πθ∥πref)]J_{GRPO}(\theta) = \mathbb{E} \left[ \sum_{i=1}^{G} \min \left( \frac{\pi_\theta(o_i | q)}{\pi_{\theta_{old}}(o_i | q)} A_i, \text{clip} \left( \frac{\pi_\theta(o_i | q)}{\pi_{\theta_{old}}(o_i | q)}, 1 - \epsilon, 1 + \epsilon \right) A_i \right) - \beta D_{KL}(\pi_\theta \| \pi_{\text{ref}}) \right]

其中:

  • πθ(o_i | q)πθ_old(o_i | q) 分別表示當(dāng)前策略模型和舊策略模型生成答案的概率惕艳。
  • Ai 表示優(yōu)勢(shì)函數(shù)搞隐,衡量當(dāng)前答案相對(duì)于其他答案的質(zhì)量。
  • 裁剪項(xiàng) 用于限制策略更新幅度远搪,以避免訓(xùn)練的不穩(wěn)定劣纲。
  • KL 散度懲罰項(xiàng) 用于防止策略與參考模型之間的差異過大,從而保證訓(xùn)練的穩(wěn)定性谁鳍。

優(yōu)勢(shì)計(jì)算(Advantage Estimation)

在 GRPO 中癞季,優(yōu)勢(shì)函數(shù) Ai 不是通過傳統(tǒng)的 Critic 網(wǎng)絡(luò)來估算,而是通過同一問題多個(gè)答案之間的相對(duì)獎(jiǎng)勵(lì)來計(jì)算倘潜。具體而言:

Ai=ri?mean({r1,r2,…,rG})std({r1,r2,…,rG})A_i = \frac{r_i - \text{mean}(\{r_1, r_2, \dots, r_G\})}{\text{std}(\{r_1, r_2, \dots, r_G\})}

其中绷柒,r_i 表示答案的獎(jiǎng)勵(lì)分?jǐn)?shù),meanstd 分別是該組答案獎(jiǎng)勵(lì)的平均值和標(biāo)準(zhǔn)差涮因。這種基于群體之間評(píng)分對(duì)比的方式废睦,不僅減少了計(jì)算復(fù)雜度,還提升了訓(xùn)練的穩(wěn)定性和推理的精度养泡。

GRPO 的優(yōu)勢(shì)

GRPO 相較于傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法嗜湃,具有以下幾個(gè)顯著優(yōu)勢(shì):

  1. 計(jì)算開銷降低:GRPO 不使用 Critic 網(wǎng)絡(luò)奈应,而是通過直接對(duì)比多答案之間的相對(duì)優(yōu)勢(shì)來優(yōu)化策略,從而大大減少了計(jì)算資源的消耗购披,節(jié)省了 50% 以上的計(jì)算資源杖挣。
  2. 提高穩(wěn)定性:傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法可能面臨 Critic 網(wǎng)絡(luò)誤差傳播和過擬合的問題,而 GRPO 通過群組評(píng)分的方式降低了估計(jì)誤差刚陡,提高了訓(xùn)練的穩(wěn)定性惩妇。
  3. 特別適合推理任務(wù):GRPO 適用于需要推理的任務(wù),因?yàn)樗ㄟ^比較不同答案的相對(duì)優(yōu)勢(shì)橘荠,能夠更好地引導(dǎo)策略優(yōu)化屿附,避免了對(duì)復(fù)雜價(jià)值網(wǎng)絡(luò)的依賴郎逃。

GRPO 在 DeepSeek-R1-Zero 訓(xùn)練中的應(yīng)用

DeepSeek-R1-Zero 采用 GRPO(Generalized Reward Policy Optimization)優(yōu)化其推理能力哥童。具體訓(xùn)練流程如下:

  1. 采樣多個(gè)答案:對(duì)于每個(gè)問題,使用當(dāng)前策略 \pi_{\theta_{old}} 生成多個(gè)不同的答案褒翰。
  2. 計(jì)算獎(jiǎng)勵(lì):通過規(guī)則獎(jiǎng)勵(lì)的方式贮懈,為每個(gè)答案分配獎(jiǎng)勵(lì)分?jǐn)?shù),獎(jiǎng)勵(lì)計(jì)算包括以下幾項(xiàng):
    • 準(zhǔn)確性獎(jiǎng)勵(lì)(Accuracy Rewards)
      • 目標(biāo):評(píng)估生成的答案是否正確优训,尤其是對(duì)于那些具有確定性結(jié)果的問題(如數(shù)學(xué)朵你、編程等)。
      • 實(shí)現(xiàn)方法
        • 對(duì)于數(shù)學(xué)問題或其他標(biāo)準(zhǔn)答案可驗(yàn)證的任務(wù)揣非,模型需要提供一個(gè)格式化的最終答案抡医,例如將結(jié)果放入括號(hào)或按照特定格式進(jìn)行驗(yàn)證。
        • 對(duì)于編程問題(如 LeetCode 等)早敬,可以使用 編譯器測(cè)試用例 來驗(yàn)證模型生成的代碼是否正確忌傻。
    • 格式獎(jiǎng)勵(lì)(Format Rewards)
      • 目標(biāo):確保模型生成的答案符合特定的格式要求。
      • 實(shí)現(xiàn)方法
        • 思維鏈(Chain-of-Thought搞监,CoT)格式:模型需要將推理過程放在 <think></think> 標(biāo)簽之間水孩,最終答案放在 <answer></answer> 標(biāo)簽中。
        • 這種格式化不僅提升了模型的可讀性和結(jié)構(gòu)化推理能力琐驴,也幫助開發(fā)者或用戶快速定位問題的解答過程俘种。
    • 語言一致性獎(jiǎng)勵(lì)(Language Consistency Rewards)
      • 目標(biāo):減少語言混雜現(xiàn)象,使生成的推理過程和答案保持同一語言環(huán)境绝淡。
      • 實(shí)現(xiàn)方法
        • 在多語言任務(wù)中宙刘,模型會(huì)根據(jù)生成文本的語言一致性給予獎(jiǎng)勵(lì)。如果在同一推理過程中保持一致的語言(例如全程使用英語或中文)牢酵,則會(huì)獲得獎(jiǎng)勵(lì)悬包;如果語言切換(例如從中文轉(zhuǎn)到英文),則會(huì)受到懲罰茁帽。
    • 推理過程的可讀性獎(jiǎng)勵(lì)(Readability Rewards)
      • 目標(biāo):評(píng)估推理過程的簡(jiǎn)潔性玉罐、清晰性和易理解性屈嗤。
      • 實(shí)現(xiàn)方法
        • 生成的推理過程不應(yīng)過于復(fù)雜或冗長(zhǎng)。如果模型生成的推理過程過于繁瑣吊输,導(dǎo)致人類理解困難饶号,獎(jiǎng)勵(lì)將相應(yīng)降低。
        • 例如季蚂,推理過程中若包含過多無關(guān)的步驟或細(xì)節(jié)(如不必要的解釋)茫船,將被認(rèn)為不符合可讀性標(biāo)準(zhǔn)。
    • 準(zhǔn)確性驗(yàn)證獎(jiǎng)勵(lì)(Correctness Verification)
      • 目標(biāo):通過驗(yàn)證工具或外部機(jī)制確認(rèn)模型答案的正確性扭屁。
      • 實(shí)現(xiàn)方法
        • 對(duì)于特定任務(wù)算谈,可能會(huì)使用外部驗(yàn)證工具來幫助評(píng)估答案的正確性。例如料滥,數(shù)學(xué)計(jì)算任務(wù)中的答案通過自動(dòng)計(jì)算器進(jìn)行驗(yàn)證然眼;編程任務(wù)中,通過編程環(huán)境測(cè)試框架來驗(yàn)證代碼的正確性葵腹。
    • 反思獎(jiǎng)勵(lì)(Reflection Rewards)
      • 目標(biāo):鼓勵(lì)模型在推理過程中進(jìn)行自我反思和修正高每。
      • 實(shí)現(xiàn)方法
        • 如果模型在推理過程中發(fā)現(xiàn)某些步驟可能存在問題,并能主動(dòng)進(jìn)行回溯和修正践宴,則會(huì)獲得獎(jiǎng)勵(lì)鲸匿。這一獎(jiǎng)勵(lì)機(jī)制有助于增強(qiáng)模型的推理深度和修正錯(cuò)誤的能力。
  3. 計(jì)算相對(duì)優(yōu)勢(shì):基于多個(gè)答案的獎(jiǎng)勵(lì)分?jǐn)?shù)阻肩,計(jì)算標(biāo)準(zhǔn)化的優(yōu)勢(shì)函數(shù)带欢。
  4. 更新策略:采用 GRPO 的目標(biāo)優(yōu)化函數(shù),更新策略烤惊,增加高分答案的生成概率乔煞。

實(shí)驗(yàn)表明,GRPO 訓(xùn)練的 DeepSeek-R1-Zero 在數(shù)學(xué)和編程推理任務(wù)中取得了顯著進(jìn)展撕氧。例如瘤缩,在 AIME 2024 數(shù)學(xué)競(jìng)賽中,Pass@1 得分從 15.6% 提升至 71.0%伦泥,多數(shù)投票后的得分可達(dá)到 86.7%剥啤。盡管如此,由于缺乏傳統(tǒng)的監(jiān)督微調(diào)(SFT)不脯,DeepSeek-R1-Zero 存在語言混雜和可讀性差的問題府怯,這一問題在后續(xù)的 DeepSeek-R1 訓(xùn)練中得到了有效改進(jìn)。

DeepSeek-R1:結(jié)合冷啟動(dòng)和多階段強(qiáng)化學(xué)習(xí)

為了彌補(bǔ) DeepSeek-R1-Zero 的缺陷防楷,deepseek研究團(tuán)隊(duì)設(shè)計(jì)了多階段訓(xùn)練流程:

  1. 冷啟動(dòng)(Cold Start)
    • 使用 高質(zhì)量長(zhǎng)鏈?zhǔn)酵评恚–oT)數(shù)據(jù) 進(jìn)行初步微調(diào)牺丙。
    • 數(shù)據(jù)來源:
      • 少樣本提示(Few-Shot Prompting)
      • DeepSeek-R1-Zero 生成的可讀性數(shù)據(jù)
      • 人工篩選和優(yōu)化
    • 目標(biāo):提高模型可讀性,減少語言混雜問題。
  2. 推理導(dǎo)向的強(qiáng)化學(xué)習(xí)(Reasoning-oriented RL)
    • 在經(jīng)過冷啟動(dòng)微調(diào)的模型上進(jìn)行 RL 訓(xùn)練冲簿,增強(qiáng)推理能力粟判。
    • 采用 語言一致性獎(jiǎng)勵(lì)(Language Consistency Reward),確甭吞蓿回答使用單一語言档礁,提高可讀性。
  3. 拒絕采樣和監(jiān)督微調(diào)(Rejection Sampling + SFT)
    • 在 RL 訓(xùn)練后吝沫,使用拒絕采樣收集高質(zhì)量數(shù)據(jù)呻澜。
    • 結(jié)合 DeepSeek-V3 的監(jiān)督數(shù)據(jù)進(jìn)行額外微調(diào),增強(qiáng)寫作惨险、問答羹幸、角色扮演等能力。
  4. 全場(chǎng)景強(qiáng)化學(xué)習(xí)(RL for all Scenarios)
    • 進(jìn)一步對(duì)齊人類偏好辫愉,優(yōu)化推理和非推理任務(wù)栅受。
    • 采用多種獎(jiǎng)勵(lì)信號(hào),包括:
      • 推理任務(wù)的規(guī)則獎(jiǎng)勵(lì)
      • 一般任務(wù)的偏好模型(Preference Model)
      • 幫助性(Helpfulness)和無害性(Harmlessness)評(píng)估

經(jīng)過這一番操作一屋,使得DeepSeek-R1在數(shù)學(xué)窘疮、編程、綜合推理方面的跑分達(dá)到了最先進(jìn)水平冀墨,盡管在很多實(shí)際場(chǎng)景中還是遜色于openai-o1,但重點(diǎn)在于deepseek訓(xùn)練這個(gè)模型花費(fèi)成本之低涛贯,足以讓OpenAI感到恐慌诽嘉,這也導(dǎo)致了山姆奧特曼后來的逐步開放的計(jì)劃。

DeepSeek 的成功:一個(gè)小公司如何打破行業(yè)常規(guī)

DeepSeek 的崛起令人驚訝弟翘,因?yàn)樗⑽闯霈F(xiàn)在那些資金雄厚的大公司虫腋,而是一個(gè)曾被低估的小公司。其成功可歸因于以下幾個(gè)關(guān)鍵因素:

  1. 站在巨人的肩膀上:DeepSeek 明智地利用了全球開源社區(qū)的技術(shù)成果稀余,并以開放的姿態(tài)將自己的技術(shù)回饋給社區(qū)悦冀。這種開源精神使其始終站在行業(yè)的前沿。
  2. 人才哲學(xué):DeepSeek 更注重員工的潛力和創(chuàng)新能力睛琳,而非單純的經(jīng)驗(yàn)和背景盒蟆。其招聘哲學(xué)幫助吸引了真正符合團(tuán)隊(duì)文化和目標(biāo)的人才,激發(fā)了團(tuán)隊(duì)成員的創(chuàng)造力师骗。
  3. 打破成熟體系的局限性:大公司往往存在創(chuàng)新受限的問題历等,優(yōu)秀人才未必能在固有的層級(jí)結(jié)構(gòu)中發(fā)揮所長(zhǎng)。DeepSeek 通過靈活的團(tuán)隊(duì)架構(gòu)辟癌,充分挖掘每個(gè)成員的潛力寒屯。

討論

從deepseek的實(shí)驗(yàn)結(jié)果來看,直接從大模型蒸餾到相對(duì)小的模型比小模型直接RL會(huì)更直接有效黍少。但是如果智能要進(jìn)一步發(fā)展寡夹,或許還是要進(jìn)一步拜托人類經(jīng)驗(yàn)的束縛处面,如果有一天能像alpha zero那樣完全擺脫人類經(jīng)驗(yàn)才是真正的無敵。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末菩掏,一起剝皮案震驚了整個(gè)濱河市鸳君,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌患蹂,老刑警劉巖或颊,帶你破解...
    沈念sama閱讀 219,427評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異传于,居然都是意外死亡囱挑,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,551評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門沼溜,熙熙樓的掌柜王于貴愁眉苦臉地迎上來平挑,“玉大人,你說我怎么就攤上這事系草⊥ㄏǎ” “怎么了?”我有些...
    開封第一講書人閱讀 165,747評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵找都,是天一觀的道長(zhǎng)唇辨。 經(jīng)常有香客問我,道長(zhǎng)能耻,這世上最難降的妖魔是什么赏枚? 我笑而不...
    開封第一講書人閱讀 58,939評(píng)論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮晓猛,結(jié)果婚禮上饿幅,老公的妹妹穿的比我還像新娘。我一直安慰自己戒职,他們只是感情好栗恩,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,955評(píng)論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著洪燥,像睡著了一般磕秤。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上蚓曼,一...
    開封第一講書人閱讀 51,737評(píng)論 1 305
  • 那天亲澡,我揣著相機(jī)與錄音,去河邊找鬼纫版。 笑死床绪,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播癞己,決...
    沈念sama閱讀 40,448評(píng)論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼膀斋,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了痹雅?” 一聲冷哼從身側(cè)響起仰担,我...
    開封第一講書人閱讀 39,352評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎绩社,沒想到半個(gè)月后摔蓝,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,834評(píng)論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡愉耙,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,992評(píng)論 3 338
  • 正文 我和宋清朗相戀三年贮尉,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片朴沿。...
    茶點(diǎn)故事閱讀 40,133評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡猜谚,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出赌渣,到底是詐尸還是另有隱情魏铅,我是刑警寧澤,帶...
    沈念sama閱讀 35,815評(píng)論 5 346
  • 正文 年R本政府宣布坚芜,位于F島的核電站览芳,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏货岭。R本人自食惡果不足惜路操,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,477評(píng)論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望千贯。 院中可真熱鬧,春花似錦搞坝、人聲如沸搔谴。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,022評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽敦第。三九已至,卻和暖如春店量,著一層夾襖步出監(jiān)牢的瞬間芜果,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,147評(píng)論 1 272
  • 我被黑心中介騙來泰國(guó)打工融师, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留右钾,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,398評(píng)論 3 373
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像舀射,于是被迫代替她去往敵國(guó)和親窘茁。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,077評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容