catch-img

【Stable Diffusion Web UI】画像からプロンプト推定 | Interrogate CLIP / DeepBooru / Tagger

この記事では、Stable Diffusionで画像からプロンプトを推定する方法を紹介しています。

画像からプロンプトを推定する複数の機能(①Interrogate CLIP、②Interrogate DeepBooru、③Tagger)について詳しく解説していきます。


目次[非表示]

  1. 1.Stable Diffusionとは
  2. 2.Stable Diffusion Web UI(AUTOMATIC1111)とは
  3. 3.画像からプロンプトを推定する3つの方法
      1. 3.0.1.Interrogate CLIP
      2. 3.0.2.Interrogate DeepBooru
      3. 3.0.3.Tagger
  4. 4.Interrogate CLIP
    1. 4.1.Interrogate CLIPの使い方
  5. 5.Interrogate DeepBooru
    1. 5.1.Interrogate DeepBooruの使い方
  6. 6.Tagger
    1. 6.1.Taggerのインストール方法
    2. 6.2.Taggerの使い方
  7. 7.もっと自由な画像生成を
  8. 8.まとめ


Stable Diffusionとは

Stable Diffusionは、無料で使える画像生成AIです。ユーザーがテキストを打ち込むことで、それに応じた画像が生成されるしくみです。人物や動物、風景など、さまざまな画像を生成できます。

例えば、「サングラスをかけた猫」と入力するとそのような画像が生成されます。生成する画像のスタイルも多様でイラストや写真、アニメや漫画、油絵風など、自分の好きなテーマでAIに生成してもらうことができます。

clip


Stable Diffusion Web UI(AUTOMATIC1111)とは

Stable Diffusion Web UI(AUTOMATIC1111)ブラウザを通じて手軽に画像生成を行える無料のWEBアプリケーションで、Google Chromeなどの主要なブラウザで利用できます。

プログラミングを一切必要とせず、WEB UIによる簡単なグラフィカルな操作が可能です。Stable Diffusion Web UIをローカルPCにインストールして使用する、もしくはクラウドサーバーにインストールして使用します。


clip


Stable Diffusion Web UI(AUTOMATIC1111)に関する全般的な使い方については、以下の記事でまとめていますので、あわせてご覧ください。


  Stable Diffusion Web UIとは?ダウンロード・インストール・使い方 | 画像生成AI この記事では、画像生成AI Stable Diffusion WebUI(AUTOMATIC1111)のインストール・ダウンロード・使用する方法をまとめて紹介しています。 業界最安級GPUクラウド | GPUSOROBAN


画像からプロンプトを推定する3つの方法

参考画像からプロンプトを推定する方法について、代表的な3つの機能を紹介します。

これらの3つの機能は、組み合わせて使用するものではなく、好きな機能を1つ選んで使用します。

3つの機能の違いは以下のとおりです。

Interrogate CLIP

  • 参考画像からプロンプトを生成する
  • 生成されるプロンプトは、連結した文章(カンマ区切りの単語でない)
  • デフォルトのimg2imgの機能として使えるので、拡張機能のインストールが不要


Interrogate DeepBooru

  • 参考画像からプロンプトを生成する
  • 生成されるプロンプトは、カンマ区切りの単語
  • アニメ・イラスト系の画像に特化している
  • デフォルトのimg2imgの機能として使えるので、拡張機能のインストールが不要


Tagger

  • 参考画像からプロンプトを生成する
  • 生成されるプロンプトは、カンマ区切りの単語
  • 拡張機能のインストールが必要


以下でそれぞれの機能の使い方について、解説していきます。


Interrogate CLIP

Interrogate CLIPは、参考画像からプロンプトを推定する機能です。

解析結果は、連結した文章として生成されます。

デフォルトのimg2imgの機能として使えるので、拡張機能のインストールが不要です。


Interrogate CLIPの使い方

  1. Stable Diffusion WebUIの画面から[img2img]タブを開きます。
  2. [ここに画像をドロップ - または -クリックしてアップロード]に、参考画像をドラック&ドロップしてアップロードします。
  3. [Interrogate CLIP]のアイコンをクリックします。
  4. [Prompt]に参考画像から抽出したプロンプトが生成されます。

clip


抽出したプロンプトは以下のとおりです。

a woman standing on a street corner at night with a city street in the background and a traffic light in the foreground, rpg portrait, a character portrait, Chen Jiru, aestheticism


Interrogate DeepBooru

Interrogate DeepBooruも、参考画像からプロンプトを推定する機能です。

前述のInterrogate CLIPとの違いは、Interrogate DeepBooruがアニメ・イラスト系の画像に特化している点です。

解析結果は、カンマ区切りの単語として生成されます。

デフォルトのimg2imgの機能として使えるので、拡張機能のインストールが不要です。


Interrogate DeepBooruの使い方

  1. Stable Diffusion WebUIの画面から[img2img]タブを開きます。
  2. [ここに画像をドロップ - または -クリックしてアップロード]に、参考画像をドラック&ドロップしてアップロードします。
  3. [Interrogate DeepBooru]のアイコンをクリックします。
  4. [Prompt]に参考画像から抽出したプロンプトが生成されます。

clip


抽出したプロンプトは以下のとおりです。

1girl, black hair, blurry, blurry background, blurry foreground, bokeh, brown eyes, city lights, depth of field, earrings, jewelry, lights, lips, looking at viewer, night, outdoors, short hair, solo, upper body


Tagger

TaggerとはStable Diffusion WebUIの拡張機能の1つで、参考画像からプロンプトを推定する機能です。
生成されるプロンプトは、カンマ区切りの単語として生成されます。
拡張機能のインストールが必要です。

Taggerのインストール方法

Taggerのインストール手順は以下のとおりです。

  1. [Extensions]タブを開きます。
  2. [Install from URL]タブを開きます。
  3. [URL for extension's git repository]に以下のURLを入力します。
        https://github.com/picobyte/stable-diffusion-webui-wd14-tagger.git
  4. [Install]ボタンを押します。

clip


  1. [Installed]タブを開きます。
  2. [stable-diffusion-webui-wd14-tagger]が表示されていることを確認します。
  3. [Apply and restart UI]ボタンをクリックして、WebUIに変更を反映させます。

clip


Taggerの使い方

Taggerを使って画像からプロンプトを抽出する手順は以下のとおりです。

  1. インストール後に追加された[Tagger]のタブを開きます。
  2. [ここに画像をドロップ - または -クリックしてアップロード]に、参考画像をドラック&ドロップしてアップロードします。
  3. [Interrogate image]ボタンをクリックします。
  4. [Ratings and included tags]に参考画像から抽出されたプロンプトが表示されます。

clip


抽出したプロンプトは以下のとおりです。

1girl, earrings, jewelry, black hair, blurry, looking at viewer, blurry background, lips, brown eyes, outdoors, upper body, short hair, night, realistic, solo focus, depth of field, road, solo, nose, shirt, black shirt, street


もっと自由な画像生成を

Stable Diffusion Web UIを実行する環境で、以下のような悩みをお持ちの方も多いかと思います。
・画像生成が遅い
・使いたいGPUが使えない
・GPUメモリ(VRAM)が足りない
・ランタイムがリセットされる度にデータが消えるため、設定のやり直しが大変
・画像データのバックアップが面倒
・Web UIの起動に時間がかかる
・コンピューティングユニットの制限がストレス
・動作が不安定

このようなお悩みをお持ちの方は、制限なく高速・格安に画像生成が可能なGPUクラウドサービス「GPUSOROBAN」がおすすめです。


  生成AIに最適なGPUクラウド「高速コンピューティング」|GPUSOROBAN GPUSOROBANの高速コンピューティングは、NVIDIAの高速GPUが業界最安級で使えるクラウドサービスです。NVIDIA A100を始めする高速GPUにより、画像生成AI、画像認識、機械学習を高速化します。 業界最安級GPUクラウド | GPUSOROBAN


まとめ

この記事では、Stable Diffusionで画像からプロンプトを推定する方法を紹介しました。

これらの機能を使うことで簡単にプロンプトが得られ、効率的に画像生成が行えるようになります。

Stable Diffusionに関する記事を以下のページでまとめていますので、あわせてご覧ください。


  Stable Diffusion Web UIとは?ダウンロード・インストール・使い方 | 画像生成AI この記事では、画像生成AI Stable Diffusion WebUI(AUTOMATIC1111)のインストール・ダウンロード・使用する方法をまとめて紹介しています。 業界最安級GPUクラウド | GPUSOROBAN


MORE INFORMATION

GPUでお困りの方はGPUSOROBANで解決!
お気軽にご相談ください

10日間無料トライアル
詳しい資料はこちら
質問・相談はこちら