【Stable Diffusion Web UI】画像からプロンプト推定 | Interrogate CLIP / DeepBooru / Tagger
この記事では、Stable Diffusionで画像からプロンプトを推定する方法を紹介しています。
画像からプロンプトを推定する複数の機能(①Interrogate CLIP、②Interrogate DeepBooru、③Tagger)について詳しく解説していきます。
目次[非表示]
- 1.Stable Diffusionとは
- 2.Stable Diffusion Web UI(AUTOMATIC1111)とは
- 3.画像からプロンプトを推定する3つの方法
- 3.0.1.Interrogate CLIP
- 3.0.2.Interrogate DeepBooru
- 3.0.3.Tagger
- 4.Interrogate CLIP
- 5.Interrogate DeepBooru
- 6.Tagger
- 6.1.Taggerのインストール方法
- 6.2.Taggerの使い方
- 7.もっと自由な画像生成を
- 8.まとめ
Stable Diffusionとは
Stable Diffusionは、無料で使える画像生成AIです。ユーザーがテキストを打ち込むことで、それに応じた画像が生成されるしくみです。人物や動物、風景など、さまざまな画像を生成できます。
例えば、「サングラスをかけた猫」と入力するとそのような画像が生成されます。生成する画像のスタイルも多様でイラストや写真、アニメや漫画、油絵風など、自分の好きなテーマでAIに生成してもらうことができます。
Stable Diffusion Web UI(AUTOMATIC1111)とは
Stable Diffusion Web UI(AUTOMATIC1111)ブラウザを通じて手軽に画像生成を行える無料のWEBアプリケーションで、Google Chromeなどの主要なブラウザで利用できます。
プログラミングを一切必要とせず、WEB UIによる簡単なグラフィカルな操作が可能です。Stable Diffusion Web UIをローカルPCにインストールして使用する、もしくはクラウドサーバーにインストールして使用します。
Stable Diffusion Web UI(AUTOMATIC1111)に関する全般的な使い方については、以下の記事でまとめていますので、あわせてご覧ください。
画像からプロンプトを推定する3つの方法
参考画像からプロンプトを推定する方法について、代表的な3つの機能を紹介します。
これらの3つの機能は、組み合わせて使用するものではなく、好きな機能を1つ選んで使用します。
3つの機能の違いは以下のとおりです。
Interrogate CLIP
- 参考画像からプロンプトを生成する
- 生成されるプロンプトは、連結した文章(カンマ区切りの単語でない)
- デフォルトのimg2imgの機能として使えるので、拡張機能のインストールが不要
Interrogate DeepBooru
- 参考画像からプロンプトを生成する
- 生成されるプロンプトは、カンマ区切りの単語
- アニメ・イラスト系の画像に特化している
- デフォルトのimg2imgの機能として使えるので、拡張機能のインストールが不要
Tagger
- 参考画像からプロンプトを生成する
- 生成されるプロンプトは、カンマ区切りの単語
- 拡張機能のインストールが必要
以下でそれぞれの機能の使い方について、解説していきます。
Interrogate CLIP
Interrogate CLIPは、参考画像からプロンプトを推定する機能です。
解析結果は、連結した文章として生成されます。
デフォルトのimg2imgの機能として使えるので、拡張機能のインストールが不要です。
Interrogate CLIPの使い方
- Stable Diffusion WebUIの画面から[img2img]タブを開きます。
- [ここに画像をドロップ - または -クリックしてアップロード]に、参考画像をドラック&ドロップしてアップロードします。
- [Interrogate CLIP]のアイコンをクリックします。
- [Prompt]に参考画像から抽出したプロンプトが生成されます。
抽出したプロンプトは以下のとおりです。
Interrogate DeepBooru
Interrogate DeepBooruも、参考画像からプロンプトを推定する機能です。
前述のInterrogate CLIPとの違いは、Interrogate DeepBooruがアニメ・イラスト系の画像に特化している点です。
解析結果は、カンマ区切りの単語として生成されます。
デフォルトのimg2imgの機能として使えるので、拡張機能のインストールが不要です。
Interrogate DeepBooruの使い方
- Stable Diffusion WebUIの画面から[img2img]タブを開きます。
- [ここに画像をドロップ - または -クリックしてアップロード]に、参考画像をドラック&ドロップしてアップロードします。
- [Interrogate DeepBooru]のアイコンをクリックします。
- [Prompt]に参考画像から抽出したプロンプトが生成されます。
抽出したプロンプトは以下のとおりです。
Tagger
TaggerとはStable Diffusion WebUIの拡張機能の1つで、参考画像からプロンプトを推定する機能です。
生成されるプロンプトは、カンマ区切りの単語として生成されます。
拡張機能のインストールが必要です。
Taggerのインストール方法
Taggerのインストール手順は以下のとおりです。
- [Extensions]タブを開きます。
- [Install from URL]タブを開きます。
- [URL for extension's git repository]に以下のURLを入力します。
https://github.com/picobyte/stable-diffusion-webui-wd14-tagger.git - [Install]ボタンを押します。
- [Installed]タブを開きます。
- [stable-diffusion-webui-wd14-tagger]が表示されていることを確認します。
- [Apply and restart UI]ボタンをクリックして、WebUIに変更を反映させます。
Taggerの使い方
Taggerを使って画像からプロンプトを抽出する手順は以下のとおりです。
- インストール後に追加された[Tagger]のタブを開きます。
- [ここに画像をドロップ - または -クリックしてアップロード]に、参考画像をドラック&ドロップしてアップロードします。
- [Interrogate image]ボタンをクリックします。
- [Ratings and included tags]に参考画像から抽出されたプロンプトが表示されます。
抽出したプロンプトは以下のとおりです。
もっと自由な画像生成を
Stable Diffusion Web UIを実行する環境で、以下のような悩みをお持ちの方も多いかと思います。
・画像生成が遅い
・使いたいGPUが使えない
・GPUメモリ(VRAM)が足りない
・ランタイムがリセットされる度にデータが消えるため、設定のやり直しが大変
・画像データのバックアップが面倒
・Web UIの起動に時間がかかる
・コンピューティングユニットの制限がストレス
・動作が不安定
このようなお悩みをお持ちの方は、制限なく高速・格安に画像生成が可能なGPUクラウドサービス「GPUSOROBAN」がおすすめです。
まとめ
この記事では、Stable Diffusionで画像からプロンプトを推定する方法を紹介しました。
これらの機能を使うことで簡単にプロンプトが得られ、効率的に画像生成が行えるようになります。
Stable Diffusionに関する記事を以下のページでまとめていますので、あわせてご覧ください。