DALLE・2とMidjourneyの簡単な比較をしてみました

前の「Midjourneyのアニメイラストで描いてみました」の記事で、Midjourneyでは苦手だった人物の動作に着目して、こちらも日本で自然言語から画像を生成するサービスとして話題になったDALLE･2と簡単な比較をしてみました。

ちなみに、MidjourneryとDALLE･2の導入や使い方は他の多くのサイトですでに紹介されていますので省きますが、それぞれ、

A very beautiful anime princess with brown hair and Victorian style dressed is drinking tea in garden.

訳：「茶色の髪でヴィクトリア調の服を着た、とても美しいアニメのお姫様が、庭でお茶を飲んでいます。」

とタイプして比較してみました。

結果は・・・

Midjourney

DALLE･2

Midjourneyではイラスト調の女性、DALLE･2では外国の女性の写真の画像が生成されましたが、大きな違いは、DALLE･2では実際にお茶を飲んでいる “is drinking” の部分が画像に反映されているところです。たった一例での比較ですが、DALLE･2が人間の動作をうまくとらえられている結果になりました。

しかし、Midjourneyも新しい画像生成アルゴリズムを開発中とのことで、先日そのBeta版も一時的に公開され、個人的にもいろいろ試して写真品質やアニメイラスト系が強化されているのが確認できました。動作の反映までは細かく確認できませんでしたが、近々Beta版評価のために再度復活するアナウンスもあったので、その機会に試してみます。（この文章でBeta版の生成結果を確認するのを忘れていました・・・）

また、新たにstable diffusionというのも現れてこちらも日本で大きな話題になっています。こちらはオープンソースとなっており、ローカルPCにインストールして好きなだけ画像生成が可能とのことなので、後日インストールして試してみようと思います。