「画像生成システム」というと小難しく聞こえるかもしれませんが、一度使ってみると誰しもが感動する画像生成ツール。
テキストや画像などの元データから、AIが新たに画像生成をするまさに「未来の」技術です。
今回は、Googleが2022年にリリースしたばかりの画像生成システム"Imagen"の紹介を中心に、画像生成システムの仕組みや、Imagen以外のシステムを一挙にご紹介します。
読むだけで「画像生成」について語れるようになりますよ。
Googleがリリース!画像生成システム「Imagen」とは
Imagenは入力されたテキストをもとに、AIが画像を生成するシステム。
例えば上記の画像では、「興味深そうに鏡の中の猫を見ている犬」というテキスト(英語)を入力した結果です。
完成度の高さに驚く人も多いのではないでしょうか。ディープラーニングできるAiだからこそ、人間がイメージを描くよりも遥かに早く、そして完成度の高い結果を出せます。
これまでは手書きやPhotoshopなどをつかったデジタルイラストツールで1から描いていたものが、Imagenを使えばあっという間に完成してしまうのです。
ただし、現在は一般利用はできない状態です。
テキストから画像生成できる!AIシステムの仕組み
Imagenを含むAI画像生成システムの元となっているのは、「GAN (Generative Adversarial Netwark)」という技術。
日本語では「敵対的生成ネットワーク」と呼ばれます。
なぜ「敵対的」というしっくりこない言葉が使われているのか簡単に説明すると、「偽物データ」とそれを見破る「鑑定役システム」を戦わせることで学習させるシステムだから。
GANでは各データを判別するラベリング作業が不必要なため、放っておいてもディープラーニングが進む画期的なシステムなのです。
Imagenの対抗馬・画像生成システム「DALL・E2」とは
Imagenの他にも、AIを活用した画像生成システムは存在しており、中でも注目されているのが「DALL・E2」。
2022年4月にリリースされたばかりの新しいシステムです。
発表されるや否や、画像生成のクオリティの高さに驚きの声が上がったほど。「AIだけでこんな画像が作れるんだ・・」と多くの人が感嘆する結果となりました。
2022年6月時点ではDALL・E2を使うにはwaiting list(順番待ちリスト)に登録する必要があり、早く使いたい!と待ち焦がれている人も多いでしょう。
ImagenやDALL・E2のようなAI画像生成システムのクオリティを評価する指標となるのが「FID」と呼ばれるもの。
FIDに関する詳しい説明は割愛しますが、このFIDを元にした評価では、2022年6月時点でImagenが最も高評価をとっています。
世間を騒がせたDALL・E2よりもさらに高評価を受けた画像生成システムとして、Imagenは今後も注目を集めるシステムとなりそうです。
Disco Diffusionとは
ImagenやDALL・E2よりも早くリリースされ注目を集めたのが「Disco Diffusion」。
テキストを使って画像生成ができるのは他システムと同じですが、Disco Diffusionの大きな特徴は動画生成(アニメーション生成)までできること。また、現時点では無料で誰でも使うことができるのも魅力です。
ただし、生成には数時間以上かかる場合もある点がデメリットでしょうか。
残念ながら日本語での使い方は詳しく紹介されていませんが、YouTubeではわかりやすいチュートリアルがありますので、興味があればぜひチェックしてみてください。英語ですが、画面を見ながら進めていけるので比較的理解しやすいはずです。
使う際にはGoogle ドライブが必要になりますので、まずはGoogleドライブが使える環境にしておくとスムーズです。
使い方は多少複雑ではありますが、一般利用できる画像生成システムとして注目されています。
まとめ
最近注目のAI画像生成システムについて、GoogleがリリースしたImagenという新システムを中心にご紹介しました。
高精度の結果を見て、「使ってみたい!」と思った方も多いのではないでしょうか。紹介したシステムの中でも、Imagenはクオリティに加えて使い勝手も良いシステムです。まずはImagenで色々トライしてみてくださいね。