【Llama2】Windows GPUでの使い方 | ローカル環境

2024-01-06 19:19高速コンピューティング

Llama

この記事では、ローカルのWindows環境を使ってLlama2によるテキスト生成をする方法（推論）について紹介しています。

目次[非表示]

1.Llama2とは
2.Metaへのモデル利用申請とHuggingFaceの設定
3.実行環境
4.NVIDIAドライバのアップグレード
5.WSL・Ubuntuのインストール
6.Dockerのリポジトリを設定する
7.Dockerをインストールする
8.NVIDIA Container Toolkitのインストール
9.Dockerデーモンの設定
10.docker-composeファイルの作成
11.必要なパッケージをインストール
12.モデルの設定
13.テキスト生成（推論）

13.1.プロンプトの実行
13.2.生成結果
13.3.日本語翻訳

14.LLMならGPUクラウド
15.まとめ

Llama2とは

Llama2(ラマツー)とは、Facebookを運営するMeta社が開発した言語生成AI(LLM)で、OpenAI社のChatGPTに匹敵するの性能を持っています。

Llama2の特徴としては、軽量モデルで高性能、そして無料で使えるオープンソースであるため、

開発者にとって扱いやすいモデルになっています。

llama2

Llama2の詳細については、以下の記事で解説しています。

Llama2とは？使い方・日本語性能・商用利用について解説 | 初心者ガイドこの記事では、Llama2について幅広く解説しています。Llama2の性能や安全性、商用利用、日本語対応、様々な環境での使い方などに触れています。業界最安級GPUクラウド | GPUSOROBAN

Metaへのモデル利用申請とHuggingFaceの設定

Llama2を利用する前に、Meta社へのモデル利用の申請とHuggingFaceの設定の準備を行います。
設定が完了したら、HuggingFaceのアクセストークンを後で使いますので、メモしておきます。

Metaへのモデル利用申請・HuggingFaceの設定方法について、以下の記事で詳しく解説しています。

【Llama2】Meta・HuggingFaceへの利用申請この記事では、Llama2を使用するためのMeta・HuggingFaceへの利用申請について解説しています。業界最安級GPUクラウド | GPUSOROBAN

実行環境

この記事では以下のスペックのローカル環境のWidows PCを使用しました。

OS：Windows 11
GPU：NVIDIA A4000
GPUメモリ（VRAM）：16GB

NVIDIAドライバのアップグレード

NVIDIA Driverを最新版にアップグレードします。（NVIDIAドライバ515以上）

NVIDIAドライバダウンロードのページを開きます。

ご使用のGPUのタイプにあわせて項目を選択します。

[オペレーティングシステム]はお使いのOSを選択してください。

[ダウンロードタイプ]は”Studio”が含まれる項目を選択してください。

項目を選択したら、[探す]ボタンを押します。

以下はGPUがNVIDIA RTX A4000の場合の例です。

llama-widows-gpu

続けて[ダウンロード]ボタン、[ダウンロードの同意]をクリックし、インストーラーをダウンロードします。

llama-widows-gpu

ダウンロードした[インストーラー]を実行し、インストールを開始します。

llama-widows-gpu

[NVIDIAインストーラーが終了しました]の表示がでたら、NVIDIAドライバのインストールが完了です。

llama-widows-gpu

WSL・Ubuntuのインストール

[スタート]から[コマンドプロンプト]を開きます。

llama-widows-gpu

コマンドプロンプトで次のコマンドを実行し、wsl2およびUbuntuをインストールします。

[Enter new UNIX username:] と表示がされるのでユーザー名を設定します。

この記事では”user”をユーザー名として設定します。

[New password:] と表示がされるので任意のパスワードを設定します。

wsl --install

llama-widows-gpu

Windowsを再起動し、変更を有効化します。

コマンドプロンプトで次のコマンドを実行し、WSLのバージョンを確認します。

wsl --list --verbose

llama-widows-gpu

VERSIONが[1]の場合は、次のコマンドを実行し、既存のディストリビューションをWSL2 に変更します。

※VERSIONが既に[2]の場合は、このステップは飛ばしてください。

wsl --set-version ubuntu 2

Wiindowsの[スタート]から”Ubuntu”を検索し、起動します。

llama-widows-gpu

Dockerのリポジトリを設定する

Ubuntuのコマンドラインからapt パッケージを更新します

sudo apt update

llama-widows-gpu

必要なパッケージをインストールします。

sudo apt install \
    apt-transport-https \
    ca-certificates \
    curl \
    gnupg-agent \
    software-properties-common

llama-widows-gpu

DockerのGPGキーを保存するためのディレクトリを作成します。

sudo mkdir -p /etc/apt/keyrings

Dockerの公式GPGキーをダウンロードし、ディレクトリに格納します。

curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo gpg --dearmor -o /etc/apt/keyrings/docker.gpg

ファイルのアクセス許可を変更して、読み取り可能にします。

sudo chmod a+r /etc/apt/keyrings/docker.gpg

DockerのAPTリポジトリを /etc/apt/sources.list.d/docker.listファイルに追加します。

echo "deb [arch=$(dpkg --print-architecture) signed-by=/etc/apt/keyrings/docker.gpg] https://download.docker.com/linux/ubuntu $(lsb_release -cs) stable" | sudo tee /etc/apt/sources.list.d/docker.list > /dev/null

aptパッケージをアップデートします。

sudo apt update

Dockerをインストールする

docker最新版をインストールします。

sudo apt install docker-ce docker-ce-cli containerd.io

NVIDIA Container Toolkitのインストール

リポジトリとGPGキーのセットアップをします。

distribution=$(. /etc/os-release;echo $ID$VERSION_ID) \
      && curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg \
      && curl -s -L https://nvidia.github.io/libnvidia-container/$distribution/libnvidia-container.list | \
            sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \
            sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list

llama-widows-gpu

パッケージをアップデートします。

sudo apt update

nvidia-container-toolkitをインストールします。

sudo apt install -y nvidia-container-toolkit

Dockerデーモンの設定

NVIDIA コンテナーランタイムを認識するように Docker デーモンを構成します。

sudo nvidia-ctk runtime configure --runtime=docker

デフォルトのランタイムを設定した後、Docker デーモンを再起動してインストールを完了します。

sudo service docker restart

Dockerを使用するためにユーザーをDockerグループに追加する

sudo usermod -aG docker user

新しいグループにユーザーを切り替えます。

newgrp docker

再度Dockerを再起動します。

sudo service docker restart

docker-composeファイルの作成

次をインストールするdocker-composeのファイルを作成します。

cuda11.8
cuDNN8
ubuntu22.04
Pytorch2.1.0
JupyterLab

docker-compse.ymlファイルを新規作成し、開きます。

nano docker-compose.yml

開いたdocker-compose.ymlファイルに次のコマンドをコピペします。

version: '3.8'
services:
  pytorch-jupyter:
    image: nvidia/cuda:11.8.0-cudnn8-devel-ubuntu22.04
    container_name: pytorch-jupyter-container
    runtime: nvidia
    command: /bin/bash -c "apt-get update && apt-get install -y python3 python3-pip && pip install torch==2.1.0 torchvision==0.16.0 torchaudio==2.1.0 --index-url https://download.pytorch.org/whl/cu118 && pip install Jupyter jupyterlab && jupyter lab --ip='*' --port=8888 --NotebookApp.token='' --NotebookApp.password='' --no-browser --allow-root"
    ports:
      - "8888:8888"

llama-widows-gpu

編集が完了したら、[Ctrl]+[S]で変更を保存し、[Ctrl]+[X]で編集モードから抜けます。

次のコマンドを実行し、docker-composeをインストールします。

sudo apt install docker-compose

次のコマンドを実行し、dockerイメージのビルドとコンテナの起動を行います。

docker-compose up

llama-widows-gpu

[Jupyter Server is running at : http://localhost:8888/lab]の表示ができたら、Jupyter Serverの起動完了です。

ブラウザの検索窓に”localhost:8888”を入力すると、Jupyter Labをブラウザで表示できます。

localhost:8888

停止するときは、コマンドプロンプトの画面で[Ctrl] + [C]を押すとコンテナが停止します。
もしくは次のコマンドでコンテナを停止します。

docker-compose down

コンテナを再起動するときは次のコマンドを実行します。

docker-compose restart

必要なパッケージをインストール

Jupyter Labのホーム画面で[Python3 ipykernel]を選択し、Notebookを開きます。

llama-widows-gpu

Jupyter Labのコードセルで次のコマンドを実行し、必要なパッケージをインストールします。

pip install transformers sentencepiece accelerate bitsandbytes scipy

lama-widows-gpu

次のコマンドを実行し、必要なライブラリをインポートします。

import torch
from torch import cuda,bfloat16
from transformers import AutoTokenizer,AutoModelForCausalLM
import transformers

llama-widows-gpu

PyTorchからGPUを認識できるか確認します。

torch.cuda.is_available()

モデルの設定

HuggingFaceで利用申請したLlamaのモデルを読み込みます。

この段階でモデルがGPUメモリにロードされますので、しばらく時間がかかります。

model_id = "meta-llama/Llama-2-7b-chat-hf"

この記事ではLlama-2-7b-chat-hfのパラメータ7bのチャットモデルを使用していますが、他のモデルを使いたい場合は表を参考に適宜model_idを変更してください。

model_id	GPUメモリ（VRAM)使用量 ※モデルには4bit量子化を使用	ストレージ使用量	使用したGPU
meta-llama/Llama-2-7b-hf	6.7GB	13GB	NVIDIA A4000 16GB x 1
meta-llama/Llama-2-13b-hf	10.3GB	25GB	NVIDIA A4000 16GB x 1
meta-llama/Llama-2-70b-hf	37.9GB	129GB	NVIDIA A100 80GB x 1
meta-llama/Llama-2-7b-chat-hf	6.7GB	13GB	NVIDIA A4000 16GB x 1
meta-llama/Llama-2-13b-chat-hf	10.1GB	25GB	NVIDIA A4000 16GB x 1
meta-llama/Llama-2-70b-chat-hf	37.9GB	129GB	NVIDIA A100 80GB x 1

HuggingFaceにアクセスするためのトークンを設定します。

token = 'hf_*************************'

HuggignFaceでのアクセストークンの発行方法は以下の記事で解説しています。

モデルの量子化の設定を行います。

量子化は、モデルのパラメータや活性化関数などを低bitに変換する技術で、モデルサイズを軽量化することができます。
[llm_int8_enable_fp32_cpu_offload=True]は、モデルの一部分をGPUで処理して、その他の部分をCPU上でオフロードするフラグになります。CPUでオフロードする場合、生成時間がかかりますので、GPUメモリが十分にある場合はこのフラグは削って構いません。

quant_config = transformers.BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.bfloat16,
    bnb_4bit_use_double_quant=True,
    llm_int8_enable_fp32_cpu_offload=True,
)

モデルを読み込みます。初回はモデルをダウンロードするため時間がかかりますが、
2回目以降はモデルの読み込みだけになりますので、時間はかかりません。

model = transformers.AutoModelForCausalLM.from_pretrained(
    model_id,
    trust_remote_code=True,
    token=token,
    quantization_config=quant_config,
    torch_dtype=torch.bfloat16,
     device_map={
        "model.layers": 0,
        "lm_head": "cpu",
        "model.norm": 0,
        "model.embed_tokens": 0,
    },
)

トークナイザーを読み込みます。

tokenizer = AutoTokenizer.from_pretrained(
    model_id,
    token=token
)

transformersライブラリの pipeline 関数を使用して、テキスト生成のためのパイプラインを構築します。

pipeline = transformers.pipeline(
    model=model,
    tokenizer=tokenizer,
    task="text-generation",
    repetition_penalty=1.1
)

テキスト生成（推論）

プロンプトの実行

transformers.pipelineのrepetition_penalty=1.1について質問をしてます。

prompt = """USER:Please tell me about
pipeline = transformers.pipeline(
    repetition_penalty=1.1
)
SYSTEM:"""
sequences = pipeline(
    prompt,
    do_sample=True,
    temperature=0.8,
    top_p=0.95,
    top_k=40,
    num_return_sequences=1,
    eos_token_id=tokenizer.eos_token_id,
    max_length=300,
)
for seq in sequences:
    print(f"Result: {seq['generated_text']}")
Result: USER:Please tell me about
pipeline = transformers.pipeline(
    repetition_penalty=1.1
)

生成結果

SYSTEM:The `repetition_penalty` parameter in the `transformers.pipeline()` function is used to control the penalty for repeated tokens in the input sequence. By default, this parameter is set to 0.6. However, you have specified a value of 1.1, which means that the penalty for repeated tokens will be higher than the default value. This can help improve the performance of your model by reducing the impact of redundant or irrelevant information in the input sequence.

日本語翻訳

SYSTEM:「transformers.pipeline()」関数の「repetition_penalty」パラメータは、入力シーケンス内で繰り返されるトークンに対するペナルティを制御するために使用されます。 デフォルトでは、このパラメータは 0.6 に設定されています。 ただし、値 1.1 を指定しました。これは、トークンが繰り返された場合のペナルティがデフォルト値よりも高くなるという意味です。 これにより、入力シーケンス内の冗長または無関係な情報の影響が軽減され、モデルのパフォーマンスが向上します。

LLMならGPUクラウド

Llama2やその他のLLMを使用する際には、モデルサイズやタスクに応じて必要なスペックが異なります。

LLMで使用されるGPUは高価なため、買い切りのオンプレミスよりも、コストパフォーマンスが高く柔軟な使い方ができるGPUクラウドをおすすめしています。

GPUクラウドのメリットは以下の通りです。

必要なときだけ利用して、コストを最小限に抑えられる
タスクに応じてGPUサーバーを変更できる
需要に応じてGPUサーバーを増減できる
簡単に環境構築ができ、すぐに開発をスタートできる
新しいGPUを利用できるため、陳腐化による買い替えが不要
GPUサーバーの高電力・熱管理が不要

コスパをお求めなら、メガクラウドと比較して50%以上安いGPUクラウドサービス「GPUSOROBAN」がおすすめです。

生成AIに最適なGPUクラウド「高速コンピューティング」｜GPUSOROBAN GPUSOROBANの高速コンピューティングは、NVIDIAの高速GPUが業界最安級で使えるクラウドサービスです。NVIDIA A100を始めする高速GPUにより、画像生成AI、大規模言語モデルLLM、機械学習、シミュレーションを高速化します。業界最安級GPUクラウド | GPUSOROBAN

大規模なLLMを計算する場合は、NVIDIA H100のクラスタが使える「GPUSOROBAN AIスパコンクラウド」がおすすめです。

LLMに最適なH100が業界最安級「AIスパコンクラウド」| GPUSOROBAN AIスパコンクラウドはNVIDIA H100を搭載したGPUインスタンスが業界最安級で使えるクラウドサービスです。HGX H100（H100 x8枚）を複数連結したクラスタ構成により、LLMやマルチモーダルAIの計算時間を短縮します。料金はAWSのH100インスタンスと比較して75%安く設定しており、大幅なコストダウンが可能です。業界最安級GPUクラウド | GPUSOROBAN

まとめ

この記事では、Windowsの環境でLlama2を用いて推論をする方法を紹介しました。

Llama2は無料で使えて商用利用可能な利便性の高いモデルでありながら、ChatGPTと同等以上の性能があります。

Llama2に関する詳細な情報は、以下の記事でまとめて紹介していますので、あわせてご覧ください。

【Llama2】Windows GPUでの使い方 | ローカル環境

Llama2とは

Metaへのモデル利用申請とHuggingFaceの設定

実行環境

NVIDIAドライバのアップグレード

WSL・Ubuntuのインストール

Dockerのリポジトリを設定する

Dockerをインストールする

NVIDIA Container Toolkitのインストール

Dockerデーモンの設定

docker-composeファイルの作成

必要なパッケージをインストール

モデルの設定

テキスト生成（推論）

プロンプトの実行

生成結果

日本語翻訳

LLMならGPUクラウド

まとめ

前の記事

次の記事

関連記事

GPUでお困りの方はGPUSOROBANで解決！
お気軽にご相談ください

【Llama2】Windows GPUでの使い方 | ローカル環境

Llama2とは

Metaへのモデル利用申請とHuggingFaceの設定

実行環境

NVIDIAドライバのアップグレード

WSL・Ubuntuのインストール

Dockerのリポジトリを設定する

Dockerをインストールする

NVIDIA Container Toolkitのインストール

Dockerデーモンの設定

docker-composeファイルの作成

必要なパッケージをインストール

モデルの設定

テキスト生成（推論）

プロンプトの実行

生成結果

日本語翻訳

LLMならGPUクラウド

まとめ

前の記事

次の記事

関連記事

GPUでお困りの方はGPUSOROBANで解決！お気軽にご相談ください

GPUでお困りの方はGPUSOROBANで解決！
お気軽にご相談ください