未知との邂逅

unk own encounter

stable diffusionで魔法使いを目指す

  1. こちとらまだ20代だっての
  • そっちの魔法使いじゃないと思います

ちまたで噂で流行りのそれ

時代はAI活用の流れ

ChatGPT然り、音声合成、そして画像生成

stable diffusionは画像生成のひとつとして人気のソフトウェアみたいだ

  1. stable diffusionってなに?
  • "Stable diffusion" という用語は、統計学や確率論で使用される用語の1つで、ランダムウォーク(ランダムな動きをする粒子や物体の移動をモデル化したもの)の一種です。


あっこれ違うわ


AI画像生成でたぶん一番初めに盛り上がったのはGANっていう敵対的生成

これは、生成と判別の2つのモデルを同時に学習する方法

で、次がVAEかな?

これはエンコーダーデコーダモデルで、その名の通り符号化と復号化を行う

その次がTransformerかな?これはよくわからんが、音声合成でつかわれてた

そんでDiffusionモデルかな?

arxiv.org

拡散モデルはノイズを推論して、元の画像にしていく方法だ

これがすごいのは、数回に推論をわけて完全なノイズから完全な画像にするのだが、

完全なノイズから少しマシなノイズ、少しマシなノイズからノイズが入った絵、

ノイズが入った絵から完全な絵、の3回で目指すとき、

3つのモデルがあるのではなく、1つのモデルでこれを行うということ

同じくノイズから画像を生成するCycleGANなどは、ノイズの量に対応したモデルが存在する

ここが大きな違いだ




まあ、

そんなことはどうでもいいか


さっさと始めよう

インストールしてみる

github.com

俺のPCの環境は以下の通りだ

CPU : 12th Gen Intel Core i3-12100F (4Core)
SSD : KLEVV SSD 1TB C920
RAM : 64GB DDR5-4800
GPU : RTX A4000 VRAM 16GB

それなりのスペックだと思う


導入はすんなりできた

というのも、これではないが、AI学習をしていたことがあり、

CuDNNなどの入れるのがクソほど面倒な必要なパッケージはすでにインストールしてあり、

Pythonはもちろん、pytorchもインストール済みだった


というわけで、stable diffusion webuiをダウンロードしてlaunch.pyを起動するだけで使うことができた

つくってみる

prompt : 1girl
negative : low quality,

DPM2 a, サンプリング150step,
CFGスケール7, 推論時間20秒

えっぐい完成度だなおい

変化加えてみるか


上同+変化強度 0.23


む、帽子の赤線がなくなってるな

映りの姿勢はこのままにモデルは変えたくないな

ControlNetのDepthをつかってみるか


上同+Depth+変化設定なし


背景の空が消えた…!!!(T T)

てか髪の色も変わったね


1girl, white hair, blue sky, cloudy sky, red pink eyes, black cap, open mouse

上同+変化強度0.23


そんで縦長に修正


おおぉーー!

これは十分ブヒれるぞ!

おわり

最近これにハマっているので検証投稿とか増えるかもしれない