1.前言
2022年絕對可以說是AIGC元年,從google搜索的趨勢來看,在2022年AI繪畫及AI生成藝術的搜索量激增痢艺。
AI繪畫在這一年的爆發(fā)一個很重要的原因就是 Stable Diffusion 的開源性芬,這也來不開這幾年 Diffusion Model 擴散模型在這幾年里的迅猛發(fā)展,結合了 OPENAI 已經(jīng)發(fā)展得很成熟的文本語言模型 GPT-3悉稠,從文本到圖片的生成過程變得更加容易。
2.GAN(生成對抗網(wǎng)絡)的瓶頸
從14年誕生,到18年的StyleGAN缩宜,GAN在圖片生成領域獲得了長足的發(fā)展。就好像自然界的捕食者與被捕食者相互競爭共同進化一樣甥温,GAN的原理簡單來說就是使用兩個神經(jīng)網(wǎng)絡:一個作為生成器锻煌、一個作為判別器,生成器生成不同的圖像讓判別器去判斷結果是否合格姻蚓,二者互相對抗以此訓練模型宋梧。
GAN(生成對抗網(wǎng)絡)經(jīng)過不斷發(fā)展其有了不錯的效果,但有些始終難以克服的問題:生成結果多樣性缺乏狰挡、模式坍縮(生成器在找到最佳模式后就不再進步了)捂龄、訓練難度高释涛。這些困難導致 AI 生成藝術一直難以做出實用的產(chǎn)品。
2.Diffusion Model(擴散模型)的突破
在 GAN 多年的瓶頸期后倦沧,科學家想出了非常神奇的 Diffusion Model(擴散模型)的辦法去訓練模型:把原圖用馬爾科夫鏈將噪點不斷地添加到其中唇撬,最終成為一個隨機噪聲圖像,然后讓訓練神經(jīng)網(wǎng)絡把此過程逆轉過來展融,從隨機噪聲圖像逐漸還原成原圖窖认,這樣神經(jīng)網(wǎng)絡就有了可以說是從無到有生成圖片的能力。而文本生成圖片就是把描述文本處理后當做噪聲不斷添加到原圖中告希,這樣就可以讓神經(jīng)網(wǎng)絡從文本生成圖片扑浸。
Diffusion Model(擴散模型)讓訓練模型變得更加簡單,只需大量的圖片就行了燕偶,其生成圖像的質(zhì)量也能達到很高的水平首装,并且生成結果能有很大的多樣性,這也是新一代 AI 能有難以讓人相信的「想象力」的原因杭跪。
當然技術也是一直在突破的仙逻,英偉達在1月底推出的StyleGAN的升級版StyleGAN-T就有了十分驚艷的進步,在同等算力下相比于Stable Diffusion生成一張圖片需要3秒涧尿,StyleGAN-T僅需0.1秒系奉。并且在低分辨率圖像StyleGAN-T要比Diffusion Model要好,但在高分辨率圖像的生成上姑廉,還是Diffusion Model的天下缺亮。由于StyleGAN-T并沒有像Stable Diffusion那樣獲得廣泛的應用,本文還是以介紹Stable DIffusion為主桥言。
3.Stable Diffusion
在今年早些時間萌踱,AI作畫圈經(jīng)歷了 Disco Diffusion、DALL-E2号阿、Midjouney 群雄混戰(zhàn)的時代并鸵,直到 Stable Diffusion 開源后,才進入一段時間的塵埃落定扔涧,作為最強的 AI 作畫模型园担,Stable Diffusion 引起了 AI 社群的狂歡,基本上每天都有新的模型枯夜、新的開源庫誕生弯汰。尤其是在Auto1111的WebUI版本推出后,無論是部署在云端還是本地湖雹,使用Stable Diffusion都變成一個非常簡單的事情咏闪,并且隨著社區(qū)的不斷開發(fā),很多優(yōu)秀的項目摔吏,比如Dreambooth鸽嫂、deforum都作為 Stable Diffusion WEBUI版的一個插件加入進來织鲸,使得像微調(diào)模型、生成動畫等功能都能一站式完成溪胶。
4.AI繪畫玩法及能力介紹
下面介紹下目前使用 Stable Diffusion 可以有哪些玩法以及能力
5.目前主要應用情況介紹
6.自己搭一個Stable Diffusion WEBUI服務
6.1 云端版本
這里使用AutoDL提供的云端算力來搭建,也可以使用其他平臺比如 Google Colab或者百度飛槳等稳诚。
1.首先在AutoDL上注冊賬號并且租一臺 A5000/RTX3090 顯卡的云主機哗脖。https://www.autodl.com/market/list
2.以此主機創(chuàng)建鏡像,鏡像可在 www.codewithgpu.com 上選擇已經(jīng)打包好的算法鏡像扳还。這里以 https://www.codewithgpu.com/i/AUTOMATIC1111/stable-diffusion-webui/Stable-Diffusion-for-NovelAI 這個鏡像為例才避,選擇后創(chuàng)建。
3.創(chuàng)建后開機并啟動JupterLab氨距,
運行下面指令啟動服務即可桑逝。如果遇到系統(tǒng)盤空間不足的情況,也可以將stable-diffusion-webui/文件夾移入數(shù)據(jù)盤 autodl-tmp再啟動俏让。如果遇到啟動失敗楞遏,可以根據(jù)你機器的位置配置一下學術資源加速。
cd stable-diffusion-webui/
rm -rf outputs && ln -s /root/autodl-tmp outputs
python launch.py --disable-safe-unpickle --port=6006 --deepdanbooru
6.2 本地版本
如果你有一塊顯卡還不錯的電腦首昔,那可以部署在本地寡喝,這里介紹下Windows版本的搭建:
1.首先需要安裝Python 3.10.6,并且添加環(huán)境變量到Path中
2.安裝git
3.Clone Stable Diffusion WEBUI 的工程代碼到本地
4.將模型文件放置于 models/Stable-Diffusion目錄下勒奇,相關模型可以去https://huggingface.co/ 下載
5.運行 webui-user.bat预鬓,通過本機電腦ip及7860端口訪問服務。
7.總結
本文介紹了AI繪畫的一些相關的信息赊颠,感興趣的朋友也可以自己把服務部署起來格二,自己試著學習用DreamBooth或者最新的Lora微調(diào)一下大模型。相信在2023年竣蹦,隨著 AIGC 熱度的不斷提高顶猜,我們的工作和生活都會因為 AI 帶來巨大的改變。前段時間 ChatGPT的推出給我們帶來了巨大的震撼痘括,就好像剛進入互聯(lián)網(wǎng)時期搜索信息的能力一樣驶兜,今后學會使用 AI 來輔助我們的工作也將是一個非常重要的能力。
8.參考資料
從起因到爭議远寸,在 AI 生成藝術元年聊聊 AI
https://sspai.com/post/76277神經(jīng)網(wǎng)絡學習筆記6——生成式AI繪畫背后的的GAN與Diffusion初解
https://blog.csdn.net/qq_45848817/article/details/127808815How diffusion models work: the math from scratch
https://theaisummer.com/diffusion-models/GAN 結構概覽
https://developers.google.com/machine-learning/gan/gan_structureThe absolute beginners guide to Midjourney – a magical introduction to AI art
https://www.entrogames.com/2022/08/absolute-beginners-guide-to-midjourney- magical-introduction-to-ai-art/The viral AI avatar app Lensa undressed me—without my consent
https://www.technologyreview.com/2022/12/12/1064751/the-viral-ai-avatar-app- lensa-undressed-me-without-my-consent/instruct-pix2pix
https://huggingface.co/timbrooks/instruct-pix2pix
文/misotofu