Stable Diffusion 是一種先進(jìn)的生成模型悬秉,特別擅長(zhǎng)高質(zhì)量圖像生成召川。它屬于擴(kuò)散模型的一種,能夠逐步生成逼真的圖像蛀骇,適用于多種生成任務(wù)厌秒,包括文生圖(text-to-image)和圖生圖(image-to-image)。
Stable-Diffusion系列:
Stable-Diffusion一:Stable Diffusion簡(jiǎn)介與WebUI部署
Stable-Diffusion二:WebUI 插件推薦
Stable-Diffusion三:利用AI加速游戲美術(shù)內(nèi)容生產(chǎn)
Stable-Diffusion四:轉(zhuǎn)投ComfyUI的懷抱
……
背景介紹
自人類誕生以來(lái),繪畫就是學(xué)習(xí),交流和創(chuàng)造的重要載體兰绣。甚至在語(yǔ)言文字出現(xiàn)之前,人類就已經(jīng)在用圖形的方式來(lái)記錄對(duì)世界的感知岛马,交換彼此的想法棉姐。
所謂一圖勝千言,一幅畫能夠承載的信息量是非常巨大的啦逆。從古老的埃及壁畫到如今以數(shù)字方式制作伞矩,存儲(chǔ)和傳輸?shù)恼掌瑘D片等夏志,繪畫內(nèi)容作為信息的載體乃坤,它的創(chuàng)造方式都在不停的變革。
從 DALL-E 開(kāi)始沟蔑,人類創(chuàng)造了一種新興的繪畫方式 – 生成式 AI 繪畫湿诊,也叫做生成式 AI。 AI 繪畫給人們帶來(lái)了無(wú)盡的想象力瘦材,但是正如人類科技發(fā)展的曲線一般厅须,在開(kāi)始的幾年里,這項(xiàng)新的 AI 技術(shù)始終無(wú)法被真正使用在大規(guī)模的行業(yè)生產(chǎn)場(chǎng)景中食棕。
游戲行業(yè)作為創(chuàng)業(yè)設(shè)計(jì)和美術(shù)場(chǎng)景的重度依賴行業(yè)朗和,一直在苦苦尋找能夠在游戲的生產(chǎn)管線中切實(shí)幫助到他們的 AI 繪畫工具,以此來(lái)提高效率簿晓,降低游戲研發(fā)的成本眶拉。這種情況在去年,也就是 Stable Diffusion憔儿,MidJourney 面世之后發(fā)生了巨大的改變忆植。隨著近幾個(gè)月圍繞著 Stable Diffusion Web UI 所構(gòu)建的開(kāi)源社區(qū)的飛速發(fā)展,游戲的創(chuàng)意者們已經(jīng)看到了將 AI 技術(shù)融入到美術(shù)生產(chǎn)管線的巨大潛能皿曲。
如今我們可以看到唱逢,大大小小的游戲公司已經(jīng)在生成式 AI 這個(gè)賽道上投入了大量的精力吴侦,并且已經(jīng)取得了之前無(wú)法想象的進(jìn)展屋休。
游戲行業(yè)應(yīng)用場(chǎng)景
正如前面所提到的,游戲行業(yè)重度依賴概念設(shè)計(jì)和美術(shù)資源备韧,同時(shí)也是對(duì)創(chuàng)意和美術(shù)內(nèi)容質(zhì)量要求最高的行業(yè)之一劫樟。
對(duì)于游戲的美術(shù)設(shè)計(jì)師來(lái)說(shuō),再精美的二維圖片實(shí)際上也很難直接用于游戲中的素材生產(chǎn)织堂。因?yàn)榈蓿嗽O(shè)計(jì)風(fēng)格之外,場(chǎng)景設(shè)計(jì)易阳,角色設(shè)計(jì)都需要考慮大量的細(xì)節(jié)附较,比如角色姿勢(shì)是否自然、細(xì)節(jié)是否清晰潦俺、光照是否合理等等都需要很多的考量拒课。
AI 可能可以帶來(lái)超越人類自身想象力的一些內(nèi)容徐勃,但抽卡式的創(chuàng)作并不能真正的提升美術(shù)管線的生產(chǎn)效率,我們需要使用工具來(lái)讓 AI 更加精準(zhǔn)的生成符合預(yù)期的圖片早像。
現(xiàn)階段來(lái)看僻肖,我們可以通過(guò)以下幾種方式來(lái)控制 AI 繪畫的生成結(jié)果。
首先是文生圖卢鹦,就是使用文字-提示詞來(lái)控制畫面生成的內(nèi)容臀脏。在提示詞中,我們可以定義場(chǎng)景冀自,物體揉稚,風(fēng)格,視角等等熬粗,但是提示詞作為最廣泛的控制手段窃植,它的局限性就在于對(duì)基礎(chǔ)模型的依賴性非常強(qiáng),相同的提示詞在不同的基礎(chǔ)模型上的表現(xiàn)可能差異巨大荐糜。
其次是圖生圖巷怜,使用一張參考圖結(jié)合提示詞來(lái)讓 AI 對(duì)局部進(jìn)行重繪。本質(zhì)上和文生圖區(qū)別不大暴氏,可控性依然無(wú)法保證延塑。
還有就是通過(guò)模型微調(diào)的方式來(lái)控制生成,常用的 Stable Diffusion 微調(diào)模型方式包括了 Text Inversion (Embedding)答渔,Hypernetworks关带,DreamBooth 和 LoRA,其中最流行的是 LoRA沼撕。
作為一種模型微調(diào)的訓(xùn)練方法宋雏,LoRA 可以對(duì)基礎(chǔ)模型的神經(jīng)網(wǎng)絡(luò)進(jìn)行微小的改變,卻能夠產(chǎn)生驚人的效果务豺。在游戲行業(yè)中磨总, 我們發(fā)現(xiàn) LoRA 已經(jīng)被非常多的用來(lái)確定角色設(shè)計(jì)的風(fēng)格,視角等笼沥。
最后蚪燕,就是我們想結(jié)合游戲行業(yè)的場(chǎng)景來(lái)介紹的 ControlNet。ControlNet 自今年 2 月在開(kāi)源社區(qū)誕生起就是萬(wàn)眾矚目的焦點(diǎn)奔浅,因?yàn)樗?Stable Diffusion 從游戲頭腦風(fēng)暴階段的輔助工具馆纳,正式進(jìn)入到美術(shù)設(shè)計(jì)師的工作流中了⌒阼耄可以說(shuō)它是 AI 繪畫的一個(gè)重要的里程碑鲁驶。
ControlNet 的原理及模型
首先我們先了解一下 ControlNet 的原理。ControlNet 在現(xiàn)有模型外部疊加一個(gè)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)舞骆,通過(guò)可訓(xùn)練的 Encoder 副本和在副本中使用零卷積和原始網(wǎng)絡(luò)相連钥弯,來(lái)實(shí)現(xiàn)在基礎(chǔ)模型上了輸入更多條件壹罚,如邊緣映射、分割映射和關(guān)鍵點(diǎn)等圖片作為引導(dǎo)寿羞,從而達(dá)到精準(zhǔn)控制輸出的內(nèi)容猖凛。
我們?cè)诳梢允褂貌寮?lái)選擇預(yù)處理器和加載 ControlNet 模型。預(yù)處理器 Preprocessor(又稱 annotator)绪穆,可以讓我們使用現(xiàn)有的圖片來(lái)生成需要的引導(dǎo)圖類型辨泳。如圖所示,我們可以使用一張角色三視圖玖院,然后選定 openpose_full 預(yù)處理器來(lái)得到一張角色全身多視角的 openpose 引導(dǎo)圖菠红,那么在后續(xù)生圖的時(shí)候我們就可以使用這張引導(dǎo)圖和 ControlNet 的 OpenPose 模型來(lái)進(jìn)行更可控的創(chuàng)作。
截止到目前 ControlNet 的官方模型已經(jīng)從 1.0 的 8 種已經(jīng)增加到了 1.1 的 14 種(11 種生產(chǎn)就緒和 3 種實(shí)驗(yàn)?zāi)P停┠丫A(yù)處理器也超過(guò)了 30 種试溯。其中包含了多種不同的控制方式,我們可以大致對(duì)模型做一下分類:
ContorlNet的安裝見(jiàn)另一文章《Stable-Diffusion-WebUI 插件推薦》
這里我們將結(jié)合 ControlNet 的幾種模型來(lái)探索一下在游戲行業(yè)的細(xì)分場(chǎng)景中郊酒,如何來(lái)實(shí)現(xiàn)可控式 AI 生圖遇绞。
概念創(chuàng)意和場(chǎng)景設(shè)計(jì)
在游戲制作中,原畫師(Concept Artist )和游戲地編(Level Artist)扮演著非常重要的職責(zé)燎窘,在創(chuàng)作早期需要他們根據(jù)游戲策劃的需求來(lái)編輯地圖摹闽、地形,制作光效褐健、奠定地圖基礎(chǔ)風(fēng)格等等付鹿,以呈現(xiàn)更好的游戲視覺(jué)效果。
在下面的這個(gè)例子中蚜迅,我們使用 ControlNet 的 Segment 模型和引導(dǎo)圖來(lái)創(chuàng)作游戲場(chǎng)景的概念設(shè)計(jì)舵匾。我們可以在 3D 編輯軟件如 Blender 中,創(chuàng)建簡(jiǎn)單的白模圖再按照 ADE20K 的顏色分類標(biāo)準(zhǔn)上色以標(biāo)識(shí)構(gòu)圖谁不,或者利用現(xiàn)有的場(chǎng)景圖作為參考坐梯,選用 Segment 的預(yù)處理來(lái)生成 Segment 引導(dǎo)圖。這里我們使用一張預(yù)先準(zhǔn)備的 Segment 引導(dǎo)圖拍谐,來(lái)生成一張概念場(chǎng)景烛缔。
我們使用的提示詞如下:
正向提示詞:
(masterpiece:1.2), (best quality:1.2), (highres), ultra detailed, photorealistic, a concept painting for gaming, scenery, view from distance, no humans, cloud, waterfall, outdoors, flower, sky, mountain, water, day, pink flower, architecture, petals, castle, cloudy sky, blue sky, tree, landscape, building, (rainbow:0.9)
反向提示詞:
dim, dark, abstract, unclear馏段,repetitive, ugly, monotonous轩拨,paintings, sketches, (worst quality:1), (low quality1), (normal quality:1), lowres, normal quality, ((monochrome)), ((grayscale)), skin spots, acnes, skin blemishes, age spot, glan,nsfw, lowres, bad anatomy, text, error, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, {{bad_construction}}, {bad_structure}, bad_wail, {bad_windows}, {blurry}, cloned_window, cropped, {deformed}, {disfigured}, error, {extra_windows}, {extra_chimney}, {extra_door}, extra_structure,extra_frame, {fewer_digits}, {fused_structure}, gross_proportions, jpeg_artifacts, {{long_roof}}, low_quality, {structure_limbs}, missing_windows, {missing_doors}, missing_roofs, mutated_structure, {mutation}, normal_quality, out_of_frame, owres, poorly_drawn_structure, poorly_drawn_house, signature, text, too_many_windows, {ugly} username,uta,watermark,worst_quality
對(duì)于游戲場(chǎng)景中的建筑環(huán)境,我們也可以使用 Canny 模型來(lái)產(chǎn)生不同的風(fēng)格背景的同時(shí)保證主要物體的一致性院喜。
我們先使用文生圖亡蓉,并選定模型來(lái)生成原始概念圖片。
正向提示詞:
(masterpiece:1.4), (best quality), (highres),<br />temple in ruines, forest, stairs, columns, cinematic, detailed, atmospheric, epic, concept art, Matte painting, mist, photo-realistic, concept art, volumetric light, cinematic epic + rule of thirds octane render, corona render, movie concept art, octane render, cinematic, trending on artstation, movie concept art, cinematic composition, ultra-detailed, realistic, hyper-realistic, volumetric lighting
反向提示詞:
(EasyNegative:1.4), (lowres), (low quality), (normal quality), watermark, car, cars on the street, human
將符合概念設(shè)計(jì)的圖片放入 ControlNet 并選擇 canny 預(yù)處理器來(lái)生成線稿喷舀,之后就可以通過(guò)修改提示詞來(lái)變換不同的場(chǎng)景風(fēng)格而不改變圖片主體砍濒。
沙漠效果
正向提示詞:
(masterpiece:1.4), (best quality), (highres), temple in ruines, desert, stairs, columns, cinematic, detailed, atmospheric, epic, concept art, Matte painting, mist, photo-realistic, concept art, volumetric light, cinematic epic + rule of thirds octane render, corona render, movie concept art, octane render, cinematic, trending on artstation, movie concept art, cinematic composition, ultra-detailed, realistic, hyper-realistic,
反向提示詞:
(EasyNegative:1.4), (lowres), (low quality), (normal quality), watermark, car, cars on the street, human, forest, cloud,
暗夜效果
正向提示詞:
(masterpiece:1.4), (best quality), (highres), temple in ruines淋肾,(midnight bliss), (moon:1.2), (star \(sky\)), (dark at night), torch, forest, stairs, columns, cinematic, detailed, atmospheric, epic, concept art, Matte painting, mist, photo-realistic, concept art, volumetric light, cinematic epic + rule of thirds octane render, corona render, movie concept art, octane render, cinematic, trending on artstation, movie concept art, cinematic composition, ultra-detailed, realistic, hyper-realistic,
反向提示詞:
(EasyNegative:1.4), (lowres), (low quality), (normal quality), watermark, car, cars on the street, human, sunlight,
雪地效果
正向提示詞:
(masterpiece:1.4), (best quality), (highres), temple in ruines, forest, winter, snow, stairs, columns, cinematic, detailed, atmospheric, epic, concept art, Matte painting, mist, photo-realistic, concept art, volumetric light, cinematic epic + rule of thirds octane render, corona render, movie concept art, octane render, cinematic, trending on artstation, movie concept art, cinematic composition, ultra-detailed, realistic, hyper-realistic
反向提示詞:
(EasyNegative:1.4), (lowres), (low quality), (normal quality), watermark, car, cars on the street, human, sunlight
游戲皮膚道具和資產(chǎn)
在游戲的制作當(dāng)中,游戲內(nèi)數(shù)量龐大的物品設(shè)計(jì)是非常耗時(shí)且費(fèi)力的部分爸邢,裝備樊卓、皮膚、道具杠河、藥劑等物品可能數(shù)以千計(jì)碌尔,美術(shù)團(tuán)隊(duì)從概念設(shè)計(jì)到最終放到游戲里的資源,可能耗費(fèi)很長(zhǎng)時(shí)間和大量的預(yù)算券敌。我們?cè)谶@里嘗試使用 lineart_anime 來(lái)提取動(dòng)漫人物線稿來(lái)創(chuàng)建不同的人物套裝唾戚。
我們還是先選定自己的基礎(chǔ)模型,通過(guò)提示詞來(lái)生成原始概念圖片待诅。
正向提示詞:
(masterpiece),(best quality:1.0), (ultra highres:1.0), (bent over), detailed clothes, blunt bangs, braid, wide-sleeved kimono, hair ornament, white japanese clothes, (red obi:1.4), (purple hair:1.4), very long hair, straight hair, detailed face, cool face, (smooth chin:0.85), closed mouth, looking at viewer, beautiful eyes, detailed eyes, (ulzzang-6500:0.7), skirt, (from below:1.1), photon mapping, physically-based rendering, RAW photo, clear background, (white background:1.4), (photo realistic:1.35), high res, perspective
反向提示詞:
(sexy:1.4), 3d, sepia, painting, cartoons, sketch, (worst quality:2), (low quality:2), (normal quality:2), lowres, bad anatomy, bad hands, normal quality, ((monochrome)), ((grayscale)), futanari, full-package_futanari, newhalf, nipplepierces, collapsed eyeshadow, multiple eyeblows, pink hair, (nsfw:1.4)
然后使用 lineart_anime 的預(yù)處理加上 lineart_anime 的模型叹坦,我們就可以調(diào)整提示詞中和人物特征相關(guān)的部分來(lái)生成示例中的不同套裝。
角色設(shè)計(jì)三視圖
游戲原畫具體到一個(gè)角色的設(shè)計(jì) 卑雁,一般會(huì)以三視圖的方式來(lái)交給建模師募书。因?yàn)樽罱K角色會(huì)以三維形式來(lái)表現(xiàn)細(xì)節(jié)。三視圖包含的正面圖测蹲,背面圖锐膜,側(cè)面圖展示讓建模師能夠快速理解原畫師的設(shè)計(jì)意圖。通過(guò) OpenPose 編輯器插件或者其他的圖片編輯工具弛房,我們可以繪制 3-4 張人物造型引導(dǎo)圖道盏,需要注意的是長(zhǎng)寬和最終出圖的像素要保持比例一致,然后通過(guò) ControlNet 的 OpenPose 模型再結(jié)合提示詞以及特定的模型文捶,就可以生成效果還不錯(cuò)的人物角色三視圖荷逞。
正向提示詞:
(masterpiece),(best quality:1.0), (ultra highres:1.0), (bent over), full body, detailed clothes, blunt bangs, braid, wide-sleeved kimono, hair ornament, white japanese clothes, (red obi:1.4), (purple hair:1.4), very long hair, straight hair, detailed face, cool face, (smooth chin:0.85), closed mouth, looking at viewer, beautiful eyes, detailed eyes, (ulzzang-6500:0.7), (long skirt:1.4), (from below:1.1), photon mapping, physically-based rendering, RAW photo, clear background, (white background:1.4),(photo realistic:1.35),high res,perspective,(((full body))), multiple views, <lora:charturnerbetaLora_charturnbetalora:0.1>
反向提示詞:
(sexy:1.4), 3d, sepia, painting, cartoons, sketch, (worst quality:2), (low quality:2), (normal quality:2), lowres, bad anatomy, bad hands, normal quality, ((monochrome)), ((grayscale)), futanari, full-package_futanari, newhalf, collapsed eyeshadow, multiple eyeblows, pink hair, (nsfw:1.4)
環(huán)境部署
如需本地搭建生成式 AI ,可參考系列博客的另一篇《PC部署stable-diffusion-webui 實(shí)現(xiàn) AI 作畫》粹排,本篇不做重點(diǎn)介紹种远。
小結(jié)
在本文中,我們大致介紹了在游戲行業(yè)中幾個(gè)場(chǎng)景中顽耳,如何使用亞馬遜云科技的生成式 AI 行業(yè)解決方案指南以及 ControlNet 來(lái)高效率的生成可控性高的圖片素材坠敷。
參考資料
1. 生成式 AI 行業(yè)解決方案指南 Workshop:https://catalog.us-east-1.prod.workshops.aws/workshops/bae25a1f-1a1d-4f3e-996e-6402a9ab8faa
2. Stable-diffusion-webui:https://github.com/AUTOMATIC1111/stable-diffusion-webui
3. Hugging Face:https://huggingface.co/