轉(zhuǎn)載自| 機(jī)器之心
生成內(nèi)容一直被視為AI領(lǐng)域中最具有挑戰(zhàn)性的能力朱沃,最近大火的 AI 繪畫背后,是 Stable Diffusion 模型的開源衰絮,催生了眾多 AI 繪畫的應(yīng)用,得益于 Stability AI 的開源精神,這一創(chuàng)變推動(dòng)了整個(gè)以英文為主的下游文生圖生態(tài)的蓬勃發(fā)展炼幔。
然而在國內(nèi),目前大部分團(tuán)隊(duì)主要是基于翻譯API + 英文 stable diffusion 模型進(jìn)行開發(fā)史简,但由于中英文之間所得存在文化差異導(dǎo)致遇到中文獨(dú)特的敘事和表達(dá)時(shí)江掩,這種模型就很難給出正確匹配的圖片內(nèi)容。因此乘瓤,IDEA 研究院認(rèn)知計(jì)算與自然語言研究中心(IDEA CCNL)開源了第一個(gè)中文版本的 stable diffusion 模型“太乙 Stable Diffusion”环形,讓中文的世界真正擁有具備中國文化內(nèi)核的 AIGC 模型。
[if !supportLists]l?[endif]太乙Stable Diffusion 純中文版本:https://huggingface.co/IDEA-CCNL/Taiyi-Stable-Diffusion-1B-Chinese-v0.1
[if !supportLists]l?[endif]太乙Stable Diffusion 中英雙語版本:https://huggingface.co/IDEA-CCNL/Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1
1
『中文運(yùn)筆衙傀,意境浮現(xiàn)』
君不見黃河之水天上來抬吟,唯美,油畫
滔滔江水统抬,連綿不絕火本,唯美,插畫
飛流直下三千尺聪建,唯美钙畔,插畫
長城,清晨金麸,朦朧擎析,唯美,插畫
夢回江南挥下,中國古代小鎮(zhèn)揍魂,唯美桨醋,插畫
云南苗家古寨,原始森林现斋,鳥語花香喜最,唯美,插畫
中國的未來城市庄蹋,科幻插畫
2
『中文vs英文的圖片生成』
3
『中文指導(dǎo)的特定風(fēng)格生成』
小橋流水人家瞬内,水彩
(Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1)
小橋流水人家,Van Gogh style
(Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1)?
4
『太乙系列文本生成圖像模型技術(shù)揭秘』
第一個(gè)開源中文CLIP 模型
2022 年 7 月限书,IDEA CCNL開源了第一個(gè)中文 CLIP 模型遂鹊,目前已經(jīng)有 4 個(gè)版本。
[if !supportLists]l?[endif]Taiyi-CLIP-Roberta-102M-Chinese:https://huggingface.co/IDEA-CCNL/Taiyi-CLIP-Roberta-102M-Chinese
[if !supportLists]l?[endif]Taiyi-CLIP-Roberta-large-326M-Chinese:https://huggingface.co/IDEA-CCNL/Taiyi-CLIP-Roberta-large-326M-Chinese
[if !supportLists]l?[endif]Taiyi-CLIP-RoBERTa-102M-ViT-L-Chinese:https://huggingface.co/IDEA-CCNL/Taiyi-CLIP-RoBERTa-102M-ViT-L-Chinese
[if !supportLists]l?[endif]Taiyi-CLIP-RoBERTa-326M-ViT-H-Chinese:https://huggingface.co/IDEA-CCNL/Taiyi-CLIP-RoBERTa-326M-ViT-H-Chinese
以Taiyi-CLIP-Roberta-large-326M-Chinese 為例蔗包,IDEA CCNL用中文語言模型替換了開源的英文 CLIP 中語言編碼器秉扑,在訓(xùn)練過程中凍結(jié)了視覺編碼器并且只微調(diào)這個(gè)中文語言模型,在 1 億級(jí)別的中文數(shù)據(jù)上訓(xùn)練了 24 個(gè) epoch调限,一共過了約 30 億中文圖文數(shù)據(jù)舟陆,得到了這個(gè)包含圖片信息的中文表征語言模型,為后續(xù)訓(xùn)練中文 Diffusion 相關(guān)的模型奠定了重要的基礎(chǔ)耻矮。
第一個(gè)開源中文Disco Diffusion 模型
2022 年 10 月秦躯,IDEA CCNL開源了第一個(gè)中文 Disco Diffusion 模型 Taiyi-Diffusion-532M-Nature-Chinese,該模型由 Katherine Crowson's 的無條件擴(kuò)散模型在自然風(fēng)景圖上微調(diào)而來裆装。結(jié)合Taiyi-CLIP-Roberta-large-326M-Chinese 可以實(shí)現(xiàn)中文生成各種風(fēng)格的風(fēng)景圖片踱承。
東臨碣石,以觀滄海哨免,水何澹澹茎活,山島竦峙:
第一個(gè)開源中文Stable Diffusion的模型
2022年 11 月,IDEA CCNL開源了第一個(gè)中文 Stable Diffusion 的模型和中英雙語 Stable Diffusion 模型琢唾。
[if !supportLists]·?[endif]
太乙Stable Diffusion純中文版本(Taiyi-Stable-Diffusion-1B-Chinese-v0.1)
[if !supportLists]·?[endif]
該模型利用已經(jīng)開源的太乙CLIP模型 (Taiyi-CLIP-RoBERTa-102M-ViT-L-Chinese) 替換了英文 stable-diffusion-v1-4 中的語言編碼器载荔,因?yàn)樘?CLIP 模型已經(jīng)具備了很強(qiáng)的中文圖文概念,所以直接凍結(jié)英文 stable diffusion 的生成模型部分采桃,在億級(jí)別的高質(zhì)量數(shù)據(jù)上微調(diào)語言編碼器懒熙,調(diào)整學(xué)習(xí)率等超參數(shù),將太乙 CLIP 模型理解的中文圖文概念與 stable diffusion 生成能力對(duì)齊普办。
[if !supportLists]·?[endif]
太乙Stable Diffusion中英雙語版本(Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1)
[if !supportLists]·?[endif]
不同于太乙Stable Diffusion純中文版本工扎,這個(gè)模型希望在支持中文的情況下,同時(shí)能保留 stable-diffusion-v1-4 的英文生成能力衔蹲。由于 stable-diffusion-v1-4 原有語言模型不具備太乙 CLIP 模型強(qiáng)大的中文圖文概念肢娘,IDEA CCNL希望在它的基礎(chǔ)上增加了中文數(shù)據(jù)訓(xùn)練,這里采取了兩階段的訓(xùn)練。第一階段也是凍住 stable-diffusion-v1-4 的生成模型部分蔬浙,在億級(jí)別的高質(zhì)量數(shù)據(jù)上微調(diào)語言編碼器,調(diào)整學(xué)習(xí)率等超參數(shù)贞远,訓(xùn)練語言模型中文部分的表征畴博。第二階段放開 stable-diffusion-v1-4 的生成模型部分,增強(qiáng)中文引導(dǎo)圖片生成的能力蓝仲,目前訓(xùn)練中的一個(gè) checkpoint 已取得不錯(cuò)的效果并進(jìn)行了開源俱病。
使用方法
如果需要進(jìn)行古詩場景、中文概念生成袱结,建議嘗試中文版本Taiyi-Stable-Diffusion-1B-Chinese-v0.1亮隙。如果需要一些通用場景和概念的生成,尤其是有中文混合英文需要垢夹,建議嘗試中英雙語版本 Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1溢吻。
中文版本:
中英雙語版本:
5
『太乙- 中文 Stable Diffusion 的未來』
目前在龐大的中國市場中,有將近10億的文化產(chǎn)業(yè)正在被 AIGC 沖擊并快速創(chuàng)新發(fā)展果元,也有更多的新機(jī)遇在裂變中產(chǎn)生促王。由于此前的 AIGC 模型還無法和特殊的中國文化背景相結(jié)合,致力于成為中文認(rèn)知智能的基礎(chǔ)設(shè)施的 IDEA 研究院認(rèn)知計(jì)算與自然語言中心而晒,希望通過推出太乙模型蝇狼,助力加快在 AIGC 全球市場化中中國的文化產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型的創(chuàng)新發(fā)展,促進(jìn)各個(gè)相關(guān)行業(yè)的升級(jí)倡怎。而太乙所在的封神榜預(yù)訓(xùn)練模型開源體系迅耘,已經(jīng)開源 80 個(gè)模型,覆蓋 AIGC监署、自然語言理解颤专、受控文本生成等多個(gè)領(lǐng)域,成為中文最大的預(yù)訓(xùn)練模型開源體系钠乏⊙基于封神榜模型的 GTS 模型生產(chǎn)平臺(tái),自動(dòng)生產(chǎn)的 1 億參數(shù)模型缓熟,擊敗眾多百億千億參數(shù)模型累魔,進(jìn)入 FewCLUE 榜單前三名,機(jī)器自動(dòng)化生成模型的能力達(dá)到了算法專家水平够滑,AI 生產(chǎn) AI 的時(shí)代正在到來垦写。
IDEA CCNL認(rèn)為,在 AIGC 中彰触,人的作用是更為重要的梯投,生成式 AI 應(yīng)悄無聲息地融入大眾生活中并更好地幫助拓展人類的想象力邊界。所以,與 AI 互動(dòng)生產(chǎn)的內(nèi)容分蓖,是幫助AIGC走向下一個(gè)生產(chǎn)力階段的關(guān)鍵尔艇。因此,IDEA CCNL除了基礎(chǔ)模型和基礎(chǔ)算法的研究之外么鹤,還在研究更精準(zhǔn)的文本生成和基中文于文本的交互式圖片編輯终娃。以太乙為核心的 AIGC 模型會(huì)持續(xù)更新和升級(jí),敬請(qǐng)期待蒸甜。
歡迎對(duì)太乙感興趣的小伙伴們聯(lián)系IDEA CCNL棠耕,一起共建中文 AIGC 的新世界。
封神榜相關(guān)鏈接:
封神榜總論文(中英雙語):https://arxiv.org/abs/2209.02970
封神榜主頁:https://github.com/IDEA-CCNL/Fengshenbang-LM(封神榜大模型)是 IDEA 研究院認(rèn)知計(jì)算與自然語言研究中心主導(dǎo)的大模型開源體系柠新,成為中文認(rèn)知智能的基礎(chǔ)設(shè)施窍荧。
huggingface地址:https://huggingface.co/IDEA-CCNL
封神榜doc: https://fengshenbang-doc.readthedocs.io/zh/latest/