model_id	メモリ（RAM）の使用量※	ストレージの使用量	量子化メソッド	量子化bit
llama-2-7b-chat.Q4_K_M.gguf	6.58 GB	4.08GB	Q4_K_M	4bit
llama-2-7b-chat.Q5_K_S.gguf	7.15 GB	4.65GB	Q5_K_S	5bit
llama-2-7b-chat.Q5_K_M.gguf	7.28 GB	4.78GB	Q5_K_M	5bit
llama-2-13b-chat.Q4_K_M.gguf	10.37 GB	7.87 GB	Q4_K_M	4bit
llama-2-13b-chat.Q5_K_S.gguf	11.47 GB	8.97 GB	Q5_K_S	5bit
llama-2-13b-chat.Q5_K_M.gguf	11.73 GB	9.23 GB	Q5_K_M	5bit
llama-2-70b-chat.Q4_K_M.gguf	43.92 GB	41.42 GB	Q4_K_M	4bit
llama-2-70b-chat.Q5_K_S.gguf	33.07 GB	30.57 GB	Q5_K_S	5bit
llama-2-70b-chat.Q5_K_M.gguf	51.25 GB	48.75 GB	Q5_K_M	5bit

※メモリ(RAM)の使用量には、GPUオフロードが含まれていません。GPUを使用する場合は、RAMの使用量が減り、代わりにGPUメモリ（VRAM）が使用されます。

※Llama.cppで扱えるモデル形式がGGMLからGGUFに変更されています。

実行環境

この記事では以下のスペックのMacBookを使用しました。
OS：Windows 11
CPU：Intel Core i5-113
メモリ：８GB

WSL・Ubuntuのインストール

[スタート]から[コマンドプロンプト]を開きます。 llama-widows-gpu

コマンドプロンプトで次のコマンドを実行し、wsl2およびUbuntuをインストールします。

[Enter new UNIX username:]と表示がされるのでユーザー名を設定します。
この記事では”user”をユーザー名として入力しています。

[New password:]と表示がされるので任意のパスワードを設定します。

wsl --install

llama-cpp-python-windows+cpu

Windowsを再起動し、変更を有効化します。

コマンドプロンプトで次のコマンドを実行し、WSLのバージョンを確認します。

wsl --list --verbose

llama-widows-gpu

VERSIONが[1]の場合は、次のコマンドを実行し、既存のディストリビューションをWSL2 に変更します。

※VERSIONが既に[2]の場合は、このステップは飛ばしてください。

wsl --set-version ubuntu 2

Wiindowsの[スタート]から”Ubuntu”を検索し、起動します。
llama-widows-gpu

Dockerのリポジトリを設定する

Ubuntuのコマンドラインからapt パッケージを更新します。

sudo apt update

llama-cpp-python-windows+cpu

必要なパッケージをインストールします。

sudo apt install \
    apt-transport-https \
    ca-certificates \
    curl \
    gnupg-agent \
    software-properties-common

llama-cpp-python-windows+cpu

DockerのGPGキーを保存するためのディレクトリを作成します。

sudo mkdir -p /etc/apt/keyrings

Dockerの公式GPGキーをダウンロードし、ディレクトリに格納します。

curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo gpg --dearmor -o /etc/apt/keyrings/docker.gpg

ファイルのアクセス許可を変更して、読み取り可能にします。

sudo chmod a+r /etc/apt/keyrings/docker.gpg

DockerのAPTリポジトリを /etc/apt/sources.list.d/docker.listファイルに追加します。

echo "deb [arch=$(dpkg --print-architecture) signed-by=/etc/apt/keyrings/docker.gpg] https://download.docker.com/linux/ubuntu $(lsb_release -cs) stable" | sudo tee /etc/apt/sources.list.d/docker.list > /dev/null

aptパッケージをアップデートします。

sudo apt update

Dockerをインストールする

docker最新版をインストールします。

sudo apt install docker-ce docker-ce-cli containerd.io

ユーザーをDockerグループに追加

userにはUbuntuのユーザー名が入ります。

sudo usermod -aG docker user

新しいグループにユーザーを切り替えます。

newgrp docker

再度Dockerを再起動します。

sudo service docker restart

モデルのダウンロード

HuggingFaceのサイトにアクセスし、検索窓に[TheBloke/Llama-2]と入力すると、TheBloke/Llama-2-(7b or 13b or 70b)-Chat-GGUFが表示されます。

この記事ではTheBloke/Llama-2-7b-Chat-GGUFを選択しています。

＊末尾がGGMLと書かれたものは古い形式になりますので、選ばないようにご注意ください。

llama-cpp-mac

モデルの詳細に遷移したら、[Files and versions]のタブを開きます。

llama-cpp-mac

モデルの一覧が表示されますので、ダウンロードする対象のモデルの[ダウンロード]アイコンにカーソルを合わせて、右クリックで[リンクのアドレス]を選択し、コピーします。

コマンドプロンプトで次のコマンドを実行し、先程コピーしたURLを使って、モデルをダウンロードします。

wget https://huggingface.co/TheBloke/Llama-2-7B-Chat-GGUF/resolve/main/llama-2-7b-chat.Q4_K_M.gguf

※モデルの格納場所は、/home/user/のディレクトリ配下になります。

※モデルの末尾に[?download=true]が付いている場合はこの部分を除外してください。

Dockerイメージのビルドとコンテナ起動

GitHub リポジトリからソースコードをクローンします。

git clone https://github.com/abetlen/llama-cpp-python

docker/openblas_simple ディレクトリに移動します。

cd llama-cpp-python/docker/openblas_simple

Docker イメージのビルドをします。

docker build -t openblas_simple .

コンテナを起動します。

docker run -d --cap-add SYS_RESOURCE -e USE_MLOCK=0 -e MODEL=/var/model -v /home/user/llama-2-7b-chat.Q4_K_M.gguf:/var/model --name llama -t openblas_simple /bin/bash

コンテナにシェル対話モードでログインします。

docker exec -it llama /bin/bash

llama-cpp-pythonのモデル設定

pythonをインタラクティブモードで起動します。

python

llama-cpp-python-windows+cpu

必要なライブラリをインポートします。

from llama_cpp import Llama

Llama2のモデルを読み込みます。

llm = Llama(model_path="/var/model", chat_format="llama-2")

llama-cpp-python-windows+cpu

llama-cpp-pythonでテキスト生成

プロンプトの実行

Llama-cpp-pythonを使ってテキスト生成（推論）を実行します。

プロンプトでは、家電量販店の店員にBluetoothスピーカーの選定について質問しています。

llm.create_chat_completion(
      messages = [
          {"role": "system", "content": "You are a salesperson at an electronics retail store."},
          {
              "role": "user",
              "content": "Please tell me the points to consider when choosing a Bluetooth speaker."
          }
      ]
)

llama-cpp-python-windows+cpu

※CPUでの生成の場合、かなりの時間がかかりますので、基本的にはGPUの利用を推奨しています。

生成結果

llama_print_timings:        load time =  114820.88 ms
llama_print_timings:      sample time =     687.82 ms /   465 runs   (    1.48 ms per token,   676.05 tokens per second)
llama_print_timings: prompt eval time =  114818.38 ms /    47 tokens ( 2442.94 ms per token,     0.41 tokens per second)
llama_print_timings:        eval time = 2159593.48 ms /   464 runs   ( 4654.30 ms per token,     0.21 tokens per second)
llama_print_timings:       total time = 2280901.65 ms
{'id': 'chatcmpl-b4112bd8-27d8-4e55-b00b-01afb1fc7a35', 'object': 'chat.completion', 'created': 1703939758, 'model': '/var/model', 'choices': [{'index': 0, 'message': {'role': 'assistant', 'content': "  
Absolutely! As a salesperson at an electronics retail store, I'd be happy to help you choose the perfect Bluetooth speaker for your needs. Here are some key factors to consider:
\n1. Sound Quality: Look for a speaker that produces clear and rich sound with good bass. You should also check the frequency response range to ensure it can handle a wide range of audio frequencies.
\n2. Connectivity: Make sure the speaker is compatible with your devices, such as smartphones, tablets, or laptops. Bluetooth 5.0 is the latest and most reliable standard for wireless connectivity.
\n3. Battery Life: Consider how long you want the speaker to last on a single charge. Look for a speaker that can provide at least 8-10 hours of battery life, but some high-end models can go up to 24 hours or more.
\n4. Durability and Build Quality: A rugged and well-built speaker will withstand the rigors of travel and outdoor use. Look for a speaker with a durable casing and a sturdy handle, if available.
\n5. Portability: If you plan to take your speaker on the go, consider its size and weight. A smaller, lightweight speaker is easier to carry around, but may not produce as much sound quality as larger models.
\n6. Water Resistance: If you plan to use your speaker near water or in wet conditions, look for a model that's IP67 or higher rated for water resistance. This will protect the speaker from accidental splashes or immersion in water.
\n7. Additional Features: Some Bluetooth speakers come with additional features like built-in microphones, FM radios, or even LED lights. Consider whether these features are important to you and your needs.
\n8. Price: Bluetooth speakers can range from very affordable to very expensive. Set a budget for yourself and look for speakers that meet your requirements within that price range. Keep in mind that higher prices don't always mean better sound quality, so compare different models before making a decision.
\n9. Brand Reputation: Consider the reputation of the brand"},
 'finish_reason': 'length'}], 'usage': {'prompt_tokens': 47, 'completion_tokens': 465, 'total_tokens': 512}}

日本語翻訳

{'id': 'chatcmpl-b4112bd8-27d8-4e55-b00b-01afb1fc7a35'、'object': 'chat.completion'、'created': 1703939758、'model': '/var/model'、'choices': [{'index': 0, 'message': {'role': 'assistant', 'content': " 
ぜひ！家電量販店の販売員として、ぴったりのBluetoothスピーカー選びをお手伝いさせていただきます ニーズに合わせて選択してください。考慮すべき重要な要素は次のとおりです:
\n1. 音質: 優れた低音を備えたクリアで豊かなサウンドを生み出すスピーカーを探してください。
また、周波数応答範囲をチェックして、幅広いオーディオを処理できることを確認する必要があります。 
\n2. 接続性: スピーカーがスマートフォン、タブレット、ラップトップなどのデバイスと互換性があることを確認してください。Bluetooth 5.0 は、ワイヤレス接続の最新かつ最も信頼性の高い標準です。
\n3. バッテリー寿命: 必要な長さを検討してください。
 スピーカーは 1 回の充電で持続します。バッテリー寿命が少なくとも 8 ～ 10 時間あるスピーカーを探してください。
ただし、一部のハイエンド モデルでは最大 24 時間以上持続するものもあります。
\n4. 耐久性と製造品質: A 頑丈でよく構築されたスピーカーは、旅行や屋外での過酷な使用にも耐えます。 
可能であれば、耐久性のあるケースと頑丈なハンドルを備えたスピーカーを探してください。
\n5. 携帯性: スピーカーを外出先に持ち歩く予定がある場合は、そのサイズと重量を考慮してください。
 小型軽量のスピーカーは持ち運びが簡単ですが、大型モデルほどの音質が得られない可能性があります。
\n6. 耐水性: 水の近くまたは濡れた状態でスピーカーを使用する予定がある場合は、IP67 以上の耐水性を備えたモデルを探してください。 これにより、スピーカーが偶発的な水しぶきや水没から保護されます。
\n7. 追加機能: 一部の Bluetooth スピーカーには、内蔵マイク、FM ラジオ、LED ライトなどの追加機能が付属しています。
 これらの機能が自分と自分のニーズにとって重要かどうかを検討してください。
\n8. 価格: Bluetooth スピーカーは、非常に手頃な価格のものから非常に高価なものまでさまざまです。 
自分で予算を設定し、その価格帯内で要件を満たすスピーカーを探してください。 価格が高いほど音質が必ずしも良いとは限らないため、決定を下す前にさまざまなモデルを比較してください。
\n9. ブランドの評判: ブランドの評判を考慮します"}, 
'finish_reason': 'length'}], 'usage': { 'prompt_tokens': 47, 'completion_tokens': 465, 'total_tokens': 512}}

生成AI・LLMならGPUクラウド

Llama2やその他のLLMを使用する際には、モデルサイズやタスクに応じて必要なスペックが異なります。

LLMで使用されるGPUは高価なため、買い切りのオンプレミスよりも、コストパフォーマンスが高く柔軟な使い方ができるGPUクラウドをおすすめしています。

GPUクラウドのメリットは以下の通りです。

必要なときだけ利用して、コストを最小限に抑えられる
タスクに応じてGPUサーバーを変更できる
需要に応じてGPUサーバーを増減できる
簡単に環境構築ができ、すぐに開発をスタートできる
新しいGPUを利用できるため、陳腐化による買い替えが不要
GPUサーバーの高電力や熱を管理をするための設備投資が不要

コスパをお求めなら、メガクラウドと比較して50%以上安いGPUクラウドサービス「GPUSOROBAN」がおすすめです。

生成AIに最適なGPUクラウド「高速コンピューティング」｜GPUSOROBAN GPUSOROBANの高速コンピューティングは、NVIDIAの高速GPUが業界最安級で使えるクラウドサービスです。NVIDIA A100を始めする高速GPUにより、画像生成AI、大規模言語モデルLLM、機械学習、シミュレーションを高速化します。業界最安級GPUクラウド | GPUSOROBAN

大規模なLLMを計算する場合は、NVIDIA H100のクラスタが使える「GPUSOROBAN AIスパコンクラウド」がおすすめです。

LLMに最適なH100が業界最安級「AIスパコンクラウド」| GPUSOROBAN AIスパコンクラウドはNVIDIA H100を搭載したGPUインスタンスが業界最安級で使えるクラウドサービスです。HGX H100（H100 x8枚）を複数連結したクラスタ構成により、LLMやマルチモーダルAIの計算時間を短縮します。料金はAWSのH100インスタンスと比較して75%安く設定しており、大幅なコストダウンが可能です。業界最安級GPUクラウド | GPUSOROBAN

まとめ

この記事では、Windowsのローカル環境でllama-cpp-pythonを用いて推論をする方法を紹介しました。

Llama2は無料で使えて商用利用可能な利便性の高いモデルでありながら、ChatGPTと同等以上の性能があります。

CPUでの生成に時間がかかる場合は、GPUの利用を検討してみてください。

Llama2に関する詳細な情報は、以下の記事でまとめて紹介していますので、あわせてご覧ください。

【Llama2】 Windows CPUでのllama-cpp-pythonの使い方 | ローカル環境

Llama2とは

Windowsのローカル環境Llama2を動かす(llama-cpp-python)

Llama 2 のモデル一覧

実行環境

WSL・Ubuntuのインストール

Dockerのリポジトリを設定する

Dockerをインストールする

ユーザーをDockerグループに追加

モデルのダウンロード

Dockerイメージのビルドとコンテナ起動

llama-cpp-pythonのモデル設定

llama-cpp-pythonでテキスト生成

プロンプトの実行

生成結果

日本語翻訳

生成AI・LLMならGPUクラウド

まとめ

前の記事

次の記事

関連記事

GPUでお困りの方はGPUSOROBANで解決！
お気軽にご相談ください

【Llama2】 Windows CPUでのllama-cpp-pythonの使い方 | ローカル環境

Llama2とは

Windowsのローカル環境Llama2を動かす(llama-cpp-python)

Llama 2 のモデル一覧

実行環境

WSL・Ubuntuのインストール

Dockerのリポジトリを設定する

Dockerをインストールする

ユーザーをDockerグループに追加

モデルのダウンロード

Dockerイメージのビルドとコンテナ起動

llama-cpp-pythonのモデル設定

llama-cpp-pythonでテキスト生成

プロンプトの実行

生成結果

日本語翻訳

生成AI・LLMならGPUクラウド

まとめ

前の記事

次の記事

関連記事

GPUでお困りの方はGPUSOROBANで解決！お気軽にご相談ください

GPUでお困りの方はGPUSOROBANで解決！
お気軽にご相談ください