【Stable Diffusion】画像生成AIに挑戦

人工知能(AI)ブームが発展してます。
生成系AIなるものが、世の中を変え始めました。
いえ、すでに変わったのかも知れません。

対話系の生成AI「ChatGPT」の技術は、
数十年後もしくは数年後には、
現在のスマホくらい普及するでしょう。

萩原が注目しているのは画像生成AIです。
そのうちの1つ Stable Diffusion を使用し始めました。

Stable Diffusion は text-to-image モデルと呼ばれるジャンルのシステムの1つ。

「犬」と文字(text)で入力すると、犬の画像(image)を描いてくれます。
「火星を歩く犬」と入力したら、犬が火星を歩いている画像を描いてくれます。
写真と見間違うようなクオリティにもできるし、マンガっぽいタッチにもできます。
写真のようにしたければ
「写真, 火星を歩く犬」のように、作りたい画像を説明するキーワードを羅列するだけでOKです。

Stable Diffusionを使うメジャーな方法は3通り。
1.「Stable Diffusion Online」というウェブサイトにブラウザでアクセスして、ブラウザ上でサービスを利用。
2.Stable Diffusionのファイルをダウンロードして、パソコンにインストール。
3.Google Colab上にインストールして利用。

一番お手軽は1番目。お試しするだけでビックリすると思います。
もしも2.が可能であれば、自宅のパソコンなどにインストールして、好きな画像を好きなだけ作ったりして楽しめます。でも、GPUと呼ばれる処理装置が無いパソコンだと、画像生成時間がべらぼうにかかります。GPUがあれば1分で造れる画像も、ない場合は15分など。(実体験)
Google Colabを使う3.であればGoogleのGPUを利用できるので、2.を仮想的に実現できます。ただし、GPU利用によってColabの料金が発生します。

Stable Diffusionを使う時に入力する文字列(例:写真, 火星を歩く犬)は「prompt(プロンプト)」とか「呪文」と呼ばれます。
promptを工夫することで、好きな画像を作れるようになります。逆に、うまく工夫できないと、満足できない画像が生成されることも。

説明はこのくらいにして、Stable Diffusionを使って、実際に僕が作った画像をお見せしますね。

Stable Diffusionの生成例1

頭にバラを乗せた萩原(私)。

写真じゃなくて、Stable Diffusionが作った画像です。

他の例も観てみましょう。

Stable Diffusionの生成例2
Stable Diffusionの生成例3
Stable Diffusionの生成例4
Stable Diffusionの生成例5
Stable Diffusionの生成例6
Stable Diffusionの生成例7

こんな感じです。

萩原の可能性をグイグイと引き出してくれますね。

最後の例7に写った女性は、実在しません。絵です。

萩原の画像を生成できるのは、私が工夫をしたからです。オリジナルのstable diffusion周りでは出来ません。

stable diffusionはモデルと呼ばれるファイルを基に画像を生成します。私は自分の顔写真を使って、独自のモデルを作成しました。そして、stable diffusionに独自モデルを参照させています。

独自モデルを作る為にDreamBoothと呼ばれるシステムを使いましたが、ここでは説明を省きます。DreamBoothも無料です。

さらに工夫すると、生成した画像が喋る動画を作ることもできます。

顔画像1枚と音声ファイルから動画を生成するシステム SadTalker。
文字列から音声を合成するサービスCoeFont。
これらを利用して作ったのが次の動画です。

あなたの優しさや思いやりに いつも感動します

というわけで画像生成AIで造った画像、その先の話を例で紹介しました。

おじさんの顔をメインにした画像の例は、検索してもあまり見つかりませんでした。
この記事の画像はレアものってことかもね。

生成していて楽しいので、気が向いたら新たな画像を上げるかも知れません。
いや、きっと上げるよ。

AIで造るおじさん画像集みたいなサイトになるよ、ここ。