- こちとらまだ20代だっての
- そっちの魔法使いじゃないと思います
ちまたで噂で流行りのそれ
時代はAI活用の流れ
ChatGPT然り、音声合成、そして画像生成
stable diffusionは画像生成のひとつとして人気のソフトウェアみたいだ
- stable diffusionってなに?
あっこれ違うわ
AI画像生成でたぶん一番初めに盛り上がったのはGANっていう敵対的生成
これは、生成と判別の2つのモデルを同時に学習する方法
で、次がVAEかな?
これはエンコーダーデコーダモデルで、その名の通り符号化と復号化を行う
その次がTransformerかな?これはよくわからんが、音声合成でつかわれてた
そんでDiffusionモデルかな?
拡散モデルはノイズを推論して、元の画像にしていく方法だ
これがすごいのは、数回に推論をわけて完全なノイズから完全な画像にするのだが、
完全なノイズから少しマシなノイズ、少しマシなノイズからノイズが入った絵、
ノイズが入った絵から完全な絵、の3回で目指すとき、
3つのモデルがあるのではなく、1つのモデルでこれを行うということ
同じくノイズから画像を生成するCycleGANなどは、ノイズの量に対応したモデルが存在する
ここが大きな違いだ
まあ、
そんなことはどうでもいいか
さっさと始めよう
インストールしてみる
俺のPCの環境は以下の通りだ
CPU : 12th Gen Intel Core i3-12100F (4Core)
SSD : KLEVV SSD 1TB C920
RAM : 64GB DDR5-4800
GPU : RTX A4000 VRAM 16GB
それなりのスペックだと思う
導入はすんなりできた
というのも、これではないが、AI学習をしていたことがあり、
CuDNNなどの入れるのがクソほど面倒な必要なパッケージはすでにインストールしてあり、
Pythonはもちろん、pytorchもインストール済みだった
というわけで、stable diffusion webuiをダウンロードしてlaunch.pyを起動するだけで使うことができた
つくってみる
prompt : 1girl
negative : low quality,
DPM2 a, サンプリング150step,
CFGスケール7, 推論時間20秒
えっぐい完成度だなおい
変化加えてみるか
上同+変化強度 0.23
む、帽子の赤線がなくなってるな
映りの姿勢はこのままにモデルは変えたくないな
ControlNetのDepthをつかってみるか
上同+Depth+変化設定なし
背景の空が消えた…!!!(T T)
てか髪の色も変わったね
1girl, white hair, blue sky, cloudy sky, red pink eyes, black cap, open mouse
上同+変化強度0.23
そんで縦長に修正
おおぉーー!
これは十分ブヒれるぞ!
おわり
最近これにハマっているので検証投稿とか増えるかもしれない