stable diffusionで魔法使いを目指す

こちとらまだ20代だっての

そっちの魔法使いじゃないと思います

ちまたで噂で流行りのそれ

時代はAI活用の流れ

ChatGPT然り、音声合成、そして画像生成

stable diffusionは画像生成のひとつとして人気のソフトウェアみたいだ

stable diffusionってなに？

"Stable diffusion" という用語は、統計学や確率論で使用される用語の1つで、ランダムウォーク（ランダムな動きをする粒子や物体の移動をモデル化したもの）の一種です。

あっこれ違うわ

AI画像生成でたぶん一番初めに盛り上がったのはGANっていう敵対的生成

これは、生成と判別の2つのモデルを同時に学習する方法

で、次がVAEかな？

これはエンコーダーデコーダモデルで、その名の通り符号化と復号化を行う

その次がTransformerかな？これはよくわからんが、音声合成でつかわれてた

そんでDiffusionモデルかな？

arxiv.org

拡散モデルはノイズを推論して、元の画像にしていく方法だ

これがすごいのは、数回に推論をわけて完全なノイズから完全な画像にするのだが、

完全なノイズから少しマシなノイズ、少しマシなノイズからノイズが入った絵、

ノイズが入った絵から完全な絵、の3回で目指すとき、

3つのモデルがあるのではなく、1つのモデルでこれを行うということ

同じくノイズから画像を生成するCycleGANなどは、ノイズの量に対応したモデルが存在する

ここが大きな違いだ

まあ、

そんなことはどうでもいいか

さっさと始めよう

インストールしてみる

github.com

俺のPCの環境は以下の通りだ

CPU : 12th Gen Intel Core i3-12100F (4Core)
SSD : KLEVV SSD 1TB C920
RAM : 64GB DDR5-4800
GPU : RTX A4000 VRAM 16GB

それなりのスペックだと思う

導入はすんなりできた

というのも、これではないが、AI学習をしていたことがあり、

CuDNNなどの入れるのがクソほど面倒な必要なパッケージはすでにインストールしてあり、

Pythonはもちろん、pytorchもインストール済みだった

というわけで、stable diffusion webuiをダウンロードしてlaunch.pyを起動するだけで使うことができた

つくってみる

prompt : 1girl
negative : low quality,

DPM2 a, サンプリング150step,
CFGスケール7, 推論時間20秒

えっぐい完成度だなおい

変化加えてみるか

上同＋変化強度 0.23

む、帽子の赤線がなくなってるな

映りの姿勢はこのままにモデルは変えたくないな

ControlNetのDepthをつかってみるか

上同＋Depth＋変化設定なし

背景の空が消えた…！！！(T T)

てか髪の色も変わったね

1girl, white hair, blue sky, cloudy sky, red pink eyes, black cap, open mouse

上同＋変化強度0.23

そんで縦長に修正

おおぉーー！

これは十分ブヒれるぞ！

おわり

最近これにハマっているので検証投稿とか増えるかもしれない

未知との邂逅

unk own encounter

stable diffusionで魔法使いを目指す

ちまたで噂で流行りのそれ

インストールしてみる

つくってみる

おわり