Stable Diffusionとは？ツールの使い方と他社の画像生成AI3選との違いについて解説

はじめに

近年、さまざまな業界で画像生成AIの導入が実現し、業務効率化や新たな価値創造につながっています。AIによる画像生成技術の進歩は目覚ましく、その中でも注目を集めている画像生成AIのひとつとして安定した普及は、デザイナーや一般ユーザーの間で人気を集めています。

Stable Diffusionとは、テキストから高品質な画像を自動生成できる画像生成AIです。 Stable Diffusionは、潜在拡散モデルという技術を活用しており、ノイズから画像を生成できるため完全に新しい画像を作成できるのが特徴です。

しかし、Stable Diffusionは高度な画像処理を行うため、自社で導入したいとき使い方やどのようなアプリケーションがあるのか気になる方が多いはずです。

この記事では、画像を生成できるStable Diffusionの使い方と提供している3つのアプリケーションなどの特徴について詳しくご紹介していきます。

Stable Diffusionとは

Stable Diffusionとは、Stability AIが開発する、AIが学習した大量の画像データをもとに、ユーザーが入力したテキストに沿って高品質な画像を生成するAIモデルです。Stable Diffusionは、「潜在拡散モデル」というアルゴリズムによって生成されているのが特徴です。

ユーザーはその潜在拡散モデルが訓練済モデルとして搭載されたシステムを利用するため、Google Colaboratoryなどの環境でプログラムコードを記述したりすることなく、テキスト入力の操作だけでさまざまな画像を生み出せます。

例えば、「夕暮れの海辺の風景」というプロンプトを入力すると、AIがそのイメージに合った画像を作成します。Stable Diffusionで自身が生成したい画像データを入力すると、短時間で希望に近い画像ができあがります。

このとき、生成AIが過去に学習した大量の画像データをもとに形や色を補完し、リアルタイムで自然な画像が作ることが可能です。そのため、Stable Diffusionは画像生成を行う上でより正確で高品質な画像を生み出せる可能性が高く、Stable Diffusionを使ってイメージに近い画像を生成できます。

Stable Diffusionの最新バージョンについて

Stable Diffusionは、このモデルは日々進化を続けており、さまざまなバージョンがリリースされています。Stable Diffusionの最新モデルは、Stable Diffusion 3.5で2024年10月にSD3の改良版でカスタマイズ性と生成品質の両立が実現しました。

Stable Diffusion 3.5は高いカスタマイズ性と使いやすさを兼ね備えています。特定のニーズに応じてモデルを簡単にファインチューニングできるだけでなく、カスタマイズされたワークフローに基づくアプリケーションを構築することが可能です。

Stable Diffusion 3.5の最大の特徴は、Multimodal Diffusion Transformer(MMDiT)という全く新しいアーキテクチャを採用している点です。このアーキテクチャは、テキストと画像の2つのモダリティを扱うために設計されています。

具体的には、画像用とテキスト用の2つのTransformerが並列し、Attentionの部分で共通の情報を共有する構造になっています。入力されたテキストの処理には、CLIP-G/14,CLIP-L

/14、T5 XXLという3つのモデルを使用してエンコードした結果を結合しています。これにより、Stable Diffusion 3.5は、他の中型モデルを上回る性能を誇り、プロンプトの再現性と画像の品質のバランスが非常に優れているのがポイントです。

他社の画像生成AIとの違い

画像生成AIモデル	Stable Diffusion(ver3.5)	MidJourney(V6以降)	DALL-E 3
開発元	Stability AI	MidJourney, Inc	OpenAI
生成精度	・ユーザーのプロンプト次第で変化、・カスタマイズ性が高い	・明確なスタイルと高品質	・精度の高いプロンプト指示解釈
画質	・高画質な画像が生成される Stable Diffusionは、ノイズを減らして細部を船名にし、全体的な鮮明度を工場させることができる。画像の鮮明さを重視したデザインを採用したい方におすすめ	・高品質な画像が生成できる機能追加で高解像度の出力が可能になった。画像をクリエイティブに強化し、スタイリッシュにするための幅広い芸術的なフィルターとエフェクトを提供する	・高画質な画像が生成される DALL-E・3は、入力された説明に対して非常に詳細かつ忠実な高品質の画像を生成します。・リアルな質感や形状を表現します。
学習モデル	Latent Diffusion ModelLatent Diffusion Models(MMDiT)	独自のディープラーニング技術	Diffusionモデル +　OpenAI GPT-4と連携
利用料金	無料プラン (オープンソース)	・月額プラン Basic Plan：10ドル/月 Standard Plan：30ドル/月相当 Pro Plan：60ドル/月 Mega Plan：120ドル/月	・有料トークン制(ChatGPT Plus向け) 時間当たりの利用制限あり Plus：$20 Team：$25(年払い) $30(月払い) Enterprise：お問い合わせ
得意分野	・写実的な絵・簡単なカスタマイズ	・抽象的なアートと幻想的なアート・独特なスタイルの生成	・コンセプトデザインと物語性のあるイラスト
カスタマイズ性/操作性	・極めて高いオープンソースのファインチューニング・豊富な拡張機能セットアップがやや難しい	・低い Discord上のパラメータ調整に限定・直感的でシンプル	・中程度・他のOpenAI製品との連携がシンプル
使用環境	ローカル環境・API	Discord専用	Webベース(ChatGPT統合)
使用用途	・高品質でリアルな絵を生成したいときプログラミング用途向け	・高品質な芸術的表現ファンタジー系、美しい構図と色彩直感的な操作	・日常的なシーンキャラクター生成複雑なプロンプトの正確な理解

Stable Diffusionの2つ使い方

Sable Diffusionは潜在拡散モデルが搭載されたシステムで、テキストから画像を生成する強力なAIモデルですが、その利用方法は大きく分けて2つあります。このモデルは、オープンソースAIであるため、Web上に構築された環境で動作させたり、ローカル環境で独自に動かされることが可能です。

ただし、Sable Diffusionによっては特にDreamStudioは、基本的に有料サービスであり、画像を生成するためには「クレジット」が必要です。ログインすると、初期クレジットが付与されることがありますが、それ以降は追加で購入する必要があります。

Sable Diffusionは、ソフトウェアのインストールや複雑な環境構築が一切不要です。インターネット環境とWebブラウザがあれば、どこからでもすぐに画像生成を開始できます。

Web版のDreamStudioでの利用

1.DreamStudioのウェブサイト（https://beta.dreamstudio.ai/ など）にアクセスします。

2.まず、Googleアカウントでサービスにログインします。GoogleアカウントやEメールアドレスなどを使って簡単にアカウントを作成することが可能です。

ホーム画面の右上にある「Login」をクリックします。

「DreamStudio」を利用するためにはアカウントを作成する必要があります。

GoogleアカウントやDiscordアカウント・メールアドレスのいずれかで新規登録します。今回はGoogleアカウントを利用するので、「Googleで続行」をクリックします。

3.生成する画像のスタイルを選択します。

スタイルはテイスト・タッチのイメージと思っていただければ大丈夫です。

今回は「Pixel art」を選択します。

「DreamStudio」で生成する画像のプロンプトを入力します。

今回入力するプロンプトは「Lion meditating alone(1匹で瞑想するライオン)」にします。

プロンプトを実行するために「生成する」をクリックします。

プロンプトの生成結果が表示される

プロンプトを実行したらさまざまなデザインのライオンの画像が生成されました。

6.ネガティブプロンプトでの入力

ネガティブプロンプトとは、生成する画像に反映してほしくない要素を追加する際の指示です。今回は、ライオンの尻尾(lion’s tail)を追加し、「worst quality(最低品質)」, 「low quality(低品質)」,normal quality(普通の品質),out of focus(ピンボケ)を入力します。

ネガティブプロンプトはプロンプトの両方の要素を入力することによって、画像のクオリティが上がります。このようにDreamStudioは、ソフトウェアのインストールや複雑な環境構築が一切不要です。インターネット環境とWebブラウザがあれば、どこからでもすぐに画像生成を開始できます。

Sable Diffusion Onlineでプロンプト使用

Sable Diffusion Onlineは、基本無料で画像を生成することができます。画像生成AIを使用したいときに、デザインの雰囲気だけ確かめたいという方にはおすすめです。

スタイルを選択します。

生成したい画像のイメージをプロンプトにして「テキストボックス」の中に入力します。

2.プロンプトを入力する

生成したい画像のイメージをプロンプトにして「テキストボックス」の中に入力します。

Sable Diffusion Onlineのプロンプトは、生成される画像の内容やスタイルを指定することができます。しかし、プロンプト入力には、入力規則があって使える文字は、英字と数字・半額記号が決められています。

単語は入力が最低3文字と最大500文字以内で、単語は「,」で区切って連ねることが必要です。

スタイルを選択する

プロンプト入力後は、生成したい画像のスタイルを選択します。今回はスタイルは「なし」を選択して、「生成」ボタンを選択します。

4.プロンプトが実行されたら完成

プロンプトの実行をしばらく待つと、フラミンゴの大群が走っているオイルアート風の絵が生成されました。Stable Diffusion Onlineは、他のサービスと比べてシンプルな機能に絞られているのが特徴です。

拡張機能や詳細な設定はできませんが、初心者でも簡単に画像生成を始められます。Stable Diffusion Onlineは、基本的に無料で使用できますが、一定以上の枚数を出力すると制限がかかり、有料プランへの移行が必要となります。

Stable Diffusionを提供している3つのWebアプリケーション

Stable Diffusionはオープンソースの画像生成AIモデルであるため、様々な企業やコミュニティがそのモデルを基にしたサービスやプラットフォームを提供しています。

ここでは、Stable Diffusionをブラウザから手軽に利用できる代表的な3つのWebアプリケーションについて詳しく説明していきます。

Hugging Face

Hugging Faceとは、2016年にHugging Face社がチャットボットを開発する企業としてアメリカで設立された画像生成AIです。Hugging Faceとは、自然言語処理のデータセットを共有や利用できるオープンソースコミュニティで、さまざまなAIモデルの公開をサポートするために設計されています。

ユーザーはデザインをコード化してそれをプラットフォームに投稿できるので、モデルやデータセット・アプリケーションを横断して共同作業ができるのが特徴です。操作はドラッグアンドドロップのインターフェースを使用して、開発者が迅速にモデルを構築することを可能にします。

特にHugging FaceのDatasetsライブラリでは、標準的なフォーマットで、多数の公開データセットを簡単にダウンロードや前処理・管理することができます。開発者がテキスト分類質問応答や感情分析などのさまざまなタスクのためのプレトレーニングモデルに迅速かつ簡単にアクセスすることが可能です。

これにより、データ準備の手間を大幅に削減でき、研究・開発スピードを加速させることができます。無料プランからプロンプトに細かい指示を加えることにより、思い通りの画像に近づけることが可能です。

Dream Studio

Dream Studioとは、2022年に画像生成AI「Stable Diffusion」を開発するStability AI社が運用する、オンライン上でStable Diffusionを無料で実際に体験することができるWebサイトです。Dream Studioは、プロンプトに生成したい画像の特徴をテキストで入力し、画像を生成できるのが特徴です

プロンプト内にキーワードを含めることで、生成される画像の雰囲気やディティールをコントロールすることができます。日本語でのプロンプト入力が認識されにくく、その中でパラメータの調整で画像の明るさや彩度・コントラストなどもコントロールできます。

スタイルは、アニメやファンタジーアートなどのさまざまなプリセットが用意されており、イメージする画像に合わせて選択することで、簡単に多様な表現が可能です。例えば、未来的な都市景観で、多くの高層ビルがあり、浮遊都市のように見えます。と入力すると、特徴に合った画像が生成されます。Dream StudioはシンプルなUIが特徴で、プロンプトやネガティブプロンプトを順番に入力することで簡単に画像生成が行えるため、初心者にもおすすめです。

また、Dream Studioでは、クレジットを購入することでより多くの画像を生成できるようになります。入力した金額に応じてクレジット数は変化せず、どの金額でも金額×100分のクレジットが付与されます。

なお、初回登録時には無料で25クレジットが付与され、画像1枚の生成につき0.23クレジットが必要です。1つのプロンプトで同時に生成可能な画像は10枚までで、10枚生成した際は2.28クレジットを消費します。

Mage.space

Mage.spaceとは、Ollano社が運営していている画像生成AIプラットフォームで、英単語や文章をプロンプトに入力することで画像を生成できるサービスです。Mageはアカウントを作成せずに無制限に画像を生成できるのが特徴です。

Mage.spaceはプロンプトで、作りたい画像を英語でプロンプトに入力するだけで、簡単に生成することができます。英語文法を気にせず、カンマで区切られた英単語を並べるだけでも、画像を生成することができます。

Mega.spaceは無料で利用することができ、有料課金を行うとさまざまな学習済みモデルを使用することも可能です。無料で利用開始できる試用クレジットが提供され、より多くの機能や高速な処理、強力なGPUへのアクセスなどは有料のプレミアムプランで提供されます。

Mageは、カスタマイズモデルをインポートする機能を提供しており、特定のスタイルや主題に特化した画像生成が可能です。プロンプトで画像生成する際に、自分に合ったスタイルを選んだり、Refine機能に細部の調整などといった高度な編集ツールを標準搭載しています。

これらの特徴から、Mageはクリエイティブ業界だけでなく、マーケティングや検知億など幅広い分野で利用できます。特に高品質な画像を効率的に生成したい方や、独自のアイデアを視覚化したい方におすすめです。

Stable Diffusionでプロンプトを入力するときのコツ

Stable Diffusionのプロンプトとは、AIが画像生成するために入力する特定のテーマや条件を示す文章やキーワードのことを指します。プロンプト(Prompt)とは、AIツールとの対話やCLIといった対話形式のシステムにて、ユーザーが入力する指示のことを意味します。

プロンプトの内容次第で生成される画像が大きく変わってくるので、Stable Diffusionを使いこなす上で重要な要素です。

コツ①：単語の順番に意識する

Stable Diffusionでは、単語が初めの方にあるほど優先度が高くなっています。なぜなら、順番が変化することによって、優先度が変わるので画像の絵柄も変化します。基本的なプロンプトの順番としては、以下の順番で入力されることが多いです。

・画像全体にかかわる要素(画質やスタイルなど)

・人物にかかわる要素

・服装や髪型などにかかわる要素

・画像の構図について

以上の順番で入力すると優先度が高い絵柄で生成します。

コツ②：単語と単語の間には「,」を入れる

Stable Diffusionでは、基本的には「,(カンマ)と」「『(半角スペース)』」を使って単語を区切ります。これら2つをしっかり付けておかないと、生成結果に単語が反映されなくなってしまう場合もあるので気を付けることが大切です。

プロンプトの先頭に近いほど、AIはそのキーワードを重視する傾向があります。関連性の低いキーワードを詰め込みすぎると、AIが何を重視すれば良いか混乱し、意図しない画像が生成されることがあります。本当に必要なキーワードに絞りましょう。

コツ③：単語の数は75個以下にする

Stable Diffusionで画像生成をする場合は、単語(トークン)数を75個以下にするのがおすすめです。Stable Diffusionでは、トークンという単位でプロンプトをカウントしていきます。

例)

masterpiece,1

beautiful woman,casual

dress

上記のプロンプトを入力したとすると、「masterpiece」「,」「1」「beautiful woman」「,」「casual」の6単語がトークンとしてカウントされます。しかし、「,(カンマ)」も1tン後にカウントされるので注意が必要です。

単語(トークン)の数を75個以下にする理由としては、それ以上を超えるとStable Diffusionの使用上、扱いが複雑になってしまうからです。Stable Diffusionは、75個の単語を1単位として扱います。

75以上の単語の書かれているプロンプトだと、76-150トークン、3回目で151ー225トークンといった75トークンまとまりでStable Diffusionに指示が送られるという仕組みになっています。

75トークン目と76トークン目の単語がつながっている場合、送信されるタイミングが違うために思うような生成結果が得られないことがあります。このような事態を防ぐために、初心者の方は75トークンいないにプロンプトを抑えることをおすすめします。

コツ④：ネガティブプロンプトを入力する

Stable Diffusionでプロンプトを入力するときのコツは、ネガティブプロンプトを活用することがおすすめです。そもそも、ネガティブプロンプトとは、画像を生成する際に除外したい内容のテキストを入力することを指します。

通常のプロンプトが指定する入力したい内容の指示とは反対の除外すべき要素に着目するものです。自身が再現したい画像を生成する際に、プロンプトとネガティブプロンプトどちらに指示を入力することで、正確性が上がりクオリティの高いデザインを生み出すことができます。

例えば、「easynegative」や「ng_art」と呼ばれるモデル名はネガティブプロンプトの一つです。easynegativeはStable Diffusioで画像のクオリティを上げたいとき、人体の歪みや不自然な表現・構図などを軽減したい場合に有効なネガティブプロンプトです。

入力した画像は、 AIが生成しがちな手足の不自然さや画像のぼやけなどといったノイズを排除し、全体の画質を向上させます。そのため、プロンプトとは関係のない背景要素や余計なオブジェクトが入るのを防げるのが強みです。

このようにStable Diffusionはネガティブプロンプトを入力することによって、細かな描写に違和感なく高クオリティな画像を生成することができます。

Stable Diffusionをビジネスに活用事例3選

Stable Diffusionは、個人・企業を問わずさまざまな場面で活用されています。例えば、飲料メーカーのプロモーション活用やオリジナルのロゴデザインなどを作成する場合に便利です。

実際に商品販促や人的なコストや作業の効率化をはじめとして、飲料メーカーや不動産メーカーまで多様な分野に応用されています。ここからは、Stable Diffusionをビジネスに活用する事例3選について詳しくご紹介していきます。

アサヒビール：飲料メーカーでのプロモーション活用

アサヒビールは、飲料メーカーとしていち早くStable Diffusionをプロモーションに活用した事例として知られています。アサヒビールは、新商品「アサヒスーパードライドライクリスタル」のプロモーションとして、画像生成AI「Stable Diffusion」を活用した体験型サービス「Create Your DRY CRYSTAL ART」を展開しました。

サービスの特徴は、ユーザーが自分の写真とテキストを入力することで、AIがアート作品として再構築してくれる点です。例えば、「水彩画風」や「アニメ風」といったスタイルを指定できるため、ユーザー独自の世界観を表現することができます。

入力された写真とテキストプロンプトに基づいて、Stable Diffusionがその写真を『アサヒスーパードライドライクリスタル』の世界観に合わせたアート作品として再構築し、生成します。これにより、ユーザーは自分だけのオリジナルのアート作品を手に入れることができます。

アサヒビールはユーザーに告知するとき、ユーザー自身が作品を作れる参加型のプロモーションとすることで、SNSでの拡散も期待できる設計となっています。Stable Diffusionを用いたアート生成は、ユーザーの写真を「クリア」で「幻想的」なアート作品へと変貌させることで、この製品特性を視覚的に、かつ体験的にユーザーに伝えることを目指しました。

単に言葉で説明するよりも、実際にアートが生成される過程を通じて、商品のコンセプトが深く心に刻まれる効果を狙えたのが大きな成果です。顧客体験を創造し、ブランド価値を高める強力な手段となり得ることを示す好事例と言えるでしょう。

レベルファイブ：アニメやゲーム制作でのデザイン効率化

ゲーム会社レベルファイブは、アニメやゲーム業界におけるStable Diffusionの活用事例として、非常に具体的な取り組みを公開しています。そもそもレベルファイブとは、複数の人気ゲームシリーズの開発において、多面的なAI活用を展開しているゲーム会社です。

レベルファイブでは、企画からデザイン・プログラミングまでといった制作工程の幅広い場面でAIツールを効果的に導入しています。例えば、ゲーム制作ではタイトル画面のレイアウト案の引き出しに使用されています。

タイトル画面のレイアウトは、限られたスペースの中でゲームの魅力を最大限に引き出す必要があり、様々なデザイン案を検討する必要があります。手作業で多くのバリエーションを作成するには、時間と労力がかかることが課題でした。

そこで、企画段階で想定されるキーワードやイメージをStable Diffusionに入力することで、多様なレイアウト案を瞬時に生成します。例えば、『イナズマイレブン』では、タイトル画面制作や建築物の背景画像をAIで複数のレイアウト案を生成したことが明かされています。

これにより、レベルファイブはStable Diffusionを導入してからは、ゲーム開発の質を保ちながら効率化を実現しています。

UNIQLO(ユニクロ)：アパレルデザイン支援とファッションデザインのアイデア創出

UNIQLOとは、ファーストリテイリンググループの中核ブランドで、高品質な服をリーズナブルな価格で提供するアパレルブランドです。UNIQLOは、スマートフォンアプリの対話型AIのStable Diffusionが、好みや天気に合わせた商品を提案するアプリケーションを導入しました。

UNIQLOが目指すのは、「情報製造小売業」としての進化であり、データとAIを駆使して、消費者のニーズを正確に把握し、必要な商品を必要な分だけ生産し、無駄なく顧客に届けるサプライチェーンを構築することです。

店内ではデジタルサイネージやタブレットが在庫やコーディネート情報を提供し、試着室でもAIがスタイリングをサポートします。例えば、トレンド分析とデザインのシミュレーションなどが挙げられます。

トレンド分析は、最新のファッショントレンドデータや過去の売上データとAIを組み合わせることで、市場のニーズに合致したデザインアイデアを迅速に生成することが可能です。例えば、「カジュアルなTシャツ、夏、海岸の風景、若者向け」といったプロンプトから、無数のデザインバリエーションを生成し、デザインチームのインスピレーションを刺激します。

特定のデザインに対して、様々な色や柄、素材感をAIでシミュレートすることで、最適な組み合わせを効率的に見つけることができます。

まとめ

本記事では、画像を生成できるStable Diffusionの使い方と提供している3つのアプリケーションなどの特徴について詳しくご紹介しました。Stable Diffusionとは、ユーザーが入力したテキストや画像データを基に、高品質な画像を生成できる画像生成AIです。

Stable Diffusionの特徴は、高いクオリティや高精度の画像を生成できることと、基本的に無料から使用することができます。特にStable Diffusionは訓練済みのAIモデルを搭載した画像生成AIで、ユーザーは作成したい画像のイメージを英単語で区切って入力することで、さまざまな画像を作成できます。

HBLAB（エイチビーラボ）は、ベトナムを拠点とするオフショア開発企業であり、日本をはじめとする多くの企業と連携して、AI・ブロックチェーン・AR/VRなどの最先端技術開発を支援してきました。ベトナム本社以外に、東京・福岡・ソウルに拠点を構え、500件以上の開発実績を有しています。画像生成AIに関するご相談も、お気軽にお問い合わせください。