人工知能(AI)ブームが発展してます。
生成系AIなるものが、世の中を変え始めました。
いえ、すでに変わったのかも知れません。
対話系の生成AI「ChatGPT」の技術は、
数十年後もしくは数年後には、
現在のスマホくらい普及するでしょう。
萩原が注目しているのは画像生成AIです。
そのうちの1つ Stable Diffusion を使用し始めました。
Stable Diffusion は text-to-image モデルと呼ばれるジャンルのシステムの1つ。
「犬」と文字(text)で入力すると、犬の画像(image)を描いてくれます。
「火星を歩く犬」と入力したら、犬が火星を歩いている画像を描いてくれます。
写真と見間違うようなクオリティにもできるし、マンガっぽいタッチにもできます。
写真のようにしたければ
「写真, 火星を歩く犬」のように、作りたい画像を説明するキーワードを羅列するだけでOKです。
Stable Diffusionを使うメジャーな方法は3通り。
1.「Stable Diffusion Online」というウェブサイトにブラウザでアクセスして、ブラウザ上でサービスを利用。
2.Stable Diffusionのファイルをダウンロードして、パソコンにインストール。
3.Google Colab上にインストールして利用。
一番お手軽は1番目。お試しするだけでビックリすると思います。
もしも2.が可能であれば、自宅のパソコンなどにインストールして、好きな画像を好きなだけ作ったりして楽しめます。でも、GPUと呼ばれる処理装置が無いパソコンだと、画像生成時間がべらぼうにかかります。GPUがあれば1分で造れる画像も、ない場合は15分など。(実体験)
Google Colabを使う3.であればGoogleのGPUを利用できるので、2.を仮想的に実現できます。ただし、GPU利用によってColabの料金が発生します。
Stable Diffusionを使う時に入力する文字列(例:写真, 火星を歩く犬)は「prompt(プロンプト)」とか「呪文」と呼ばれます。
promptを工夫することで、好きな画像を作れるようになります。逆に、うまく工夫できないと、満足できない画像が生成されることも。
説明はこのくらいにして、Stable Diffusionを使って、実際に僕が作った画像をお見せしますね。
頭にバラを乗せた萩原(私)。
写真じゃなくて、Stable Diffusionが作った画像です。
他の例も観てみましょう。
こんな感じです。
萩原の可能性をグイグイと引き出してくれますね。
最後の例7に写った女性は、実在しません。絵です。
萩原の画像を生成できるのは、私が工夫をしたからです。オリジナルのstable diffusion周りでは出来ません。
stable diffusionはモデルと呼ばれるファイルを基に画像を生成します。私は自分の顔写真を使って、独自のモデルを作成しました。そして、stable diffusionに独自モデルを参照させています。
独自モデルを作る為にDreamBoothと呼ばれるシステムを使いましたが、ここでは説明を省きます。DreamBoothも無料です。
さらに工夫すると、生成した画像が喋る動画を作ることもできます。
顔画像1枚と音声ファイルから動画を生成するシステム SadTalker。
文字列から音声を合成するサービスCoeFont。
これらを利用して作ったのが次の動画です。
というわけで画像生成AIで造った画像、その先の話を例で紹介しました。
おじさんの顔をメインにした画像の例は、検索してもあまり見つかりませんでした。
この記事の画像はレアものってことかもね。
生成していて楽しいので、気が向いたら新たな画像を上げるかも知れません。
いや、きっと上げるよ。
AIで造るおじさん画像集みたいなサイトになるよ、ここ。