ベースモデルの「Code Llama」、Pythonに特化した「Code Llama-Python」、命令タスクに特化した「Code Llama - Instruct」の3種類あり、それぞれ異なるパラメータ数の7B(70億)、13B(130億)、34B(340億)、70b(700億)が用意されています。

モデル名	特徴	GPUメモリ（VRAM)使用量 ※4bit量子化を設定	ストレージ使用量	使用したGPU
CodeLlama-7b-hf	ベースモデル、70億パラメータ	6.1GB	13GB	NVIDIA A4000 16GB x 1
CodeLlama-13b-hf	ベースモデル、130億パラメータ	9.8GB	25GB	NVIDIA A4000 16GB x 1
CodeLlama-34b-hf	ベースモデル、340億パラメータ	21.7GB	63GB	NVIDIA A100 80GB x 1
CodeLlama-70b-hf	ベースモデル、700億パラメータ	35.8GB	130GB	NVDIA A100 80GB x 1
CodeLlama-7b-Python-hf	Python特化、70億パラメータ	6.1GB	13GB	NVIDIA A4000 16GB x 1
CodeLlama-13b-Python-hf	Python特化、130億パラメータ	9.7GB	25GB	NVIDIA A4000 16GB x 1
CodeLlama-34b-Python-hf	Python特化、340億パラメータ	21.7GB	63GB	NVIDIA A100 80GB x 1
CodeLlama-70b-Python-hf	Python特化、700億パラメータ	35.1GB	130GB	NVIDIA A100 80GB x 1
CodeLlama-7b-Instruct-hf	命令タスク、70億パラメータ	6.1GB	13GB	NVIDIA A4000 16GB x 1
CodeLlama-13b-Instruct-hf	命令タスク、130億パラメータ	9.6GB	25GB	NVIDIA A4000 16GB x 1
CodeLlama-34b-Instruct-hf	命令タスク、340億パラメータ	21.7GB	63GB	NVIDIA A100 80GB x 1
CodeLlama-70b-Instruct-hf	命令タスク、700億パラメータ	36.9GB	130GB	NVIDIA A100 80GB x 1

上記のGPUメモリは、モデルを4bit量子化して精度を低下させる代わりに、モデルサイズを軽量化した場合のものです。

HuggingFaceの記事によるとファインチューニングなどでモデル量子化を使用しない場合は、パラメータ数に応じて以下のGPUメモリが必要になります。

パラメータ数	GPUメモリ（VRAM）	ロードする精度
7b（70億パラメータ）のモデル	14GB	bfloat16
13b（130億パラメータ）のモデル	26GB	bfloat16
34b（340億パラメータ）のモデル	68GB	bfloat16
70b（700億パラメータ）のモデル	140GB	bfloat16

またGithubでは、パラメータが大きいモデルではマルチGPUを推奨しています。

13BパラメータのモデルでGPU x 2（=MP2）
34BパラメータのモデルでGPU x 4（=MP4）
70BパラメータのモデルでGPU x 8 (=MP8)

Metaへのモデル利用申請とHuggingFaceの設定

Llama2を利用する前に、Meta社へのモデル利用の申請とHuggingFaceの設定の準備を行います。

設定が完了したら、HuggingFaceのアクセストークンを後で使いますので、メモしておきます。

Metaへのモデル利用申請・HuggingFaceの設定方法について、以下の記事で詳しく解説しています。

※Code Llamaの場合はHuggingFaceでのモデルの利用申請は必要ありません

【Llama2】Meta・HuggingFaceへの利用申請この記事では、Llama2を使用するためのMeta・HuggingFaceへの利用申請について解説しています。業界最安級GPUクラウド | GPUSOROBAN

実行環境

この記事ではGPUクラウドサービス（GPUSOROBAN）を使用しました。

インスタンス名：t80-1-a-exlarge-ubs22-i
GPU：NVIDIA A100 80GB x 1
OS ：Ubuntu 22.04
CUDA：11.7
Jupyter Labプリインストール

GPUSOROBANはメガクラウドの50%以上安いGPUクラウドサービスです。

GPUSOROBANの使い方は以下の記事で解説しています。

会員登録～インスタンス接続手順 | GPUSOROBAN GPUSOROBANの会員登録からインスタンス作成・接続までの手順を詳しく解説する記事です。会員登録、電話番号認証、SSHキー作成、インスタンスの作成、キーの設置、ターミナルからのインスタンス接続までの流れを説明しています。業界最安級GPUクラウド | GPUSOROBAN

Jupyter Labを起動

GPUSOROBANのインスタンスに接続したら、次のコマンドを実行し、Jupyter Labを起動します。

jupyter lab --ip='*' --port=8888 --NotebookApp.token='' --NotebookApp.password='' --no-browser

llama-codellama

ブラウザの検索窓に"localhost:8888"を入力すると、Jupyter Labをブラウザで表示できます。

localhost:8888

Jupyter Labのホーム画面で[Python3 ipykernel]を選択し、Notebookを開きます。

llama-codellama

Jupyter Labの使い方が分からない方は、以下の記事が参考になります。

プリインストールされたJupyter Labを使用する場合は、以下の記事をご覧ください。

プリインストールの利用方法（Docker、PyTorch、TensorFlow、JupyterLab）| GPUSOROBAN GPUSOROBAN高速コンピューティングのプリインストールの利用方法を説明しています。PyTorchやTensosrFlow、JupyterLabがプリインストールされたインスタンスを使うことで環境構築にかかる時間を削減できます。業界最安級GPUクラウド | GPUSOROBAN

Jupyter Labを新しくインストールして使う場合は、以下の記事をご覧ください。

Jupyter Labのインストール（Ubuntu）| GPUSOROBAN GPUSOROBANのUbuntuインスタンスにJupyter Labをインストールする方法を紹介しています。高性能なGPUインスタンスを利用したクラウドサービスGPUSOROBANでJupyter Labを動作させることが可能です。業界最安級GPUクラウド | GPUSOROBAN

ライブラリのインストール

Jupyterのコードセルで以下のコマンドを実行し、必要なライブラリをインストールします。

pip install transformers sentencepiece accelerate bitsandbytes scipy protobuf

必要なライブラリをインポートします。

import torch
from torch import cuda,bfloat16
import transformers
from transformers import AutoTokenizer,AutoModelForCausalLM

モデルの設定

HuggingFaceのtransformersというライブラリを使用してモデルの準備をします。

HuggingFaceで利用申請したLlamaのモデルを読み込みます。

model_id = "codellama/CodeLlama-34b-Instruct-hf"

この記事ではCodeLlama-34b-Instruct-hfのパラメータ34bのチャットモデルを使用していますが、他のモデルを使いたい場合は表を参考に適宜model_idを変更してください。

モデル名	特徴	GPUメモリ（VRAM)使用量 ※4bit量子化を設定	ストレージ使用量	使用したGPU
CodeLlama-7b-hf	ベースモデル、70億パラメータ	6.1GB	13GB	NVIDIA A4000 16GB x 1
CodeLlama-13b-hf	ベースモデル、130億パラメータ	9.8GB	25GB	NVIDIA A4000 16GB x 1
CodeLlama-34b-hf	ベースモデル、340億パラメータ	21.7GB	63GB	NVIDIA A100 80GB x 1
CodeLlama-70b-hf	ベースモデル、700億パラメータ	35.8GB	130GB	NVDIA A100 80GB x 1
CodeLlama-7b-Python-hf	Python特化、70億パラメータ	6.1GB	13GB	NVIDIA A4000 16GB x 1
CodeLlama-13b-Python-hf	Python特化、130億パラメータ	9.7GB	25GB	NVIDIA A4000 16GB x 1
CodeLlama-34b-Python-hf	Python特化、340億パラメータ	21.7GB	63GB	NVIDIA A100 80GB x 1
CodeLlama-70b-Python-hf	Python特化、700億パラメータ	35.1GB	130GB	NVIDIA A100 80GB x 1
CodeLlama-7b-Instruct-hf	命令タスク、70億パラメータ	6.1GB	13GB	NVIDIA A4000 16GB x 1
CodeLlama-13b-Instruct-hf	命令タスク、130億パラメータ	9.6GB	25GB	NVIDIA A4000 16GB x 1
CodeLlama-34b-Instruct-hf	命令タスク、340億パラメータ	21.7GB	63GB	NVIDIA A100 80GB x 1
CodeLlama-70b-Instruct-hf	命令タスク、700億パラメータ	36.9GB	130GB	NVIDIA A100 80GB x 1

モデルの量子化

モデルの量子化の設定を行います。

量子化は、モデルのパラメータや活性化関数などを低bitに変換する技術で、モデルサイズを小さくすることができGPUメモリの使用量を節約できます。

quant_config = transformers.BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type='nf4',
    bnb_4bit_use_double_quant=True,
    bnb_4bit_compute_dtype=bfloat16
)

モデルとトークナイザーの読み込み

モデルの設定情報を読み込みます。

model_config = transformers.AutoConfig.from_pretrained(model_id)

この記事では、モデルのパラメータを4bitでロードするように設定し、4bitの計算に使用されるデータ型を float16 に設定しています。

モデルを読み込みます。初回はモデルをダウンロードするため時間がかかりますが、
2回目以降はモデルの読み込みのみになりますので、すぐに完了します。

model = transformers.AutoModelForCausalLM.from_pretrained(
    model_id,
    trust_remote_code=True,
    quantization_config=quant_config,
    device_map="auto"
)

モデルに対応したトークナイザーを読み込みます。

tokenizer = AutoTokenizer.from_pretrained(model_id)

transformers ライブラリの pipeline 関数を使用して、テキスト生成のためのパイプラインを構築します。

pipeline = transformers.pipeline(
task="text-generation",
model=model,
tokenizer=tokenizer
)

コード補完のタスク（Code Completion）

promptに、機械学習モデルのトレーニングを実行するためのコードを途中まで記述して、続きのコード補完を生成してみます。

max_lengthで生成するトークン数を調整できます。

入力したプロンプト

prompt = """
def train_epoch(model, optimizer, criterion, dataloader, device):
"""
sequences = pipeline(
    prompt,
    do_sample=True,
    temperature=0.2,
    top_p=0.95,
    num_return_sequences=1,
    eos_token_id=tokenizer.eos_token_id,
    max_length=300,
)
for seq in sequences:
    print(f"Result: {seq['generated_text']}")

生成結果

生成結果では、コードの続きをうまく補完できています。

Result: 
def train_epoch(model, optimizer, criterion, dataloader, device):
    model.train()
    total_loss = 0
    for batch_idx, (data, target) in enumerate(dataloader):
        data, target = data.to(device), target.to(device)
        optimizer.zero_grad()
        output = model(data)
        loss = criterion(output, target)
        loss.backward()
        optimizer.step()
        total_loss += loss.item()
    return total_loss / len(dataloader)
def test_epoch(model, criterion, dataloader, device):
    model.eval()
    total_loss = 0
    with torch.no_grad():
        for batch_idx, (data, target) in enumerate(dataloader):
            data, target = data.to(device), target.to(device)
            output = model(data)
            loss = criterion(output, target)
            total_loss += loss.item()
    return total_loss / len(dataloader)
def train_model(model, optimizer, criterion, dataloader, device, epochs=10):
    for epoch in range

コードの穴埋めタスク(Code Infilling)

sklearnのコード途中を<FILL_ME>でブランクして、穴埋めをするタスクを実行してみます。

入力したプロンプト

prompt = '''
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
import numpy as np
data = np.loadtxt('data.csv', delimiter=',')
X = data[:,0].reshape(-1, 1)
y = data[:,1]
        
""" <FILL_ME>
mse = mean_squared_error(y_test, y_pred)
print(f'Mean Squared Error: {mse:.4f}')
'''
input_ids = tokenizer(prompt, return_tensors="pt")["input_ids"].to("cuda")
generated_ids = model.generate(input_ids, max_new_tokens=128)
filling = tokenizer.batch_decode(generated_ids[:, input_ids.shape[1]:], skip_special_tokens=True)[0]
print(prompt.replace("<FILL_ME>", filling))

生成結果

生成結果では適切に穴埋めができています。

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
import numpy as np
data = np.loadtxt('data.csv', delimiter=',')
X = data[:,0].reshape(-1, 1)
y = data[:,1]
        
""" Split data into training and testing sets """
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)
""" Fit model on training data """
model = LinearRegression()
model.fit(X_train, y_train)
""" Predict on test data """
y_pred = model.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
print(f'Mean Squared Error: {mse:.4f}')

命令タスク（Instructモデル）

Pythonのbeautiful Soupを使ったスクレイピングのコードを生成するプロンプトを入力してコードを生成します。

入力したプロンプト

system = "Provide answers in Python"
user = """Generate Python code to extract text from a website using Beautiful Soup.
Include handling for different parsers (html.parser or lxml) and use requests library for fetching the website.
Ensure that the extracted text is cleaned by removing newlines and extra spaces.
"""
prompt = f"<s><<SYS>>\n{system}\n<</SYS>>\n\n{user}"

sequences = pipeline(
    prompt,
    do_sample=True,
    temperature=0.2,
    top_p=0.95,
    num_return_sequences=1,
    eos_token_id=tokenizer.eos_token_id,
    max_length=300,
)
for seq in sequences:
    print(f"Result: {seq['generated_text']}")

生成結果

生成結果では、適切にBeautifuSoupの記述ができています。

import requests
from bs4 import BeautifulSoup

def get_text(url, parser):
    response = requests.get(url)
    soup = BeautifulSoup(response.content, parser)
    text = soup.get_text()
    text = text.replace('\n','')
    text =''.join(text.split())
    return text

def main():
    url = 'https://www.example.com'
    parser = 'html.parser'
    text = get_text(url, parser)
    print(text)

if name == 'main':
    main()

生成AI・LLMならGPUクラウド

Llama2やその他のLLMを使用する際には、モデルサイズやタスクに応じて必要なスペックが異なります。
LLMで使用されるGPUは高価なため、買い切りのオンプレミスよりも、コストパフォーマンスが高く柔軟な使い方ができるGPUクラウドをおすすめしています。
GPUクラウドのメリットは以下の通りです。

必要なときだけ利用して、コストを最小限に抑えられる
タスクに応じてGPUサーバーを変更できる
需要に応じてGPUサーバーを増減できる
簡単に環境構築ができ、すぐに開発をスタートできる
新しいGPUを利用できるため、陳腐化による買い替えが不要
GPUサーバーの高電力や熱を管理をするための設備投資が不要

コスパをお求めなら、メガクラウドと比較して50%以上安いGPUクラウドサービス「GPUSOROBAN 高速コンピューティング」がおすすめです。

生成AIに最適なGPUクラウド「高速コンピューティング」｜GPUSOROBAN GPUSOROBANの高速コンピューティングは、NVIDIAの高速GPUが業界最安級で使えるクラウドサービスです。NVIDIA A100を始めする高速GPUにより、画像生成AI、大規模言語モデルLLM、機械学習、シミュレーションを高速化します。業界最安級GPUクラウド | GPUSOROBAN

大規模なLLMを計算する場合は、NVIDIA H100のクラスタが使える「GPUSOROBAN AIスパコンクラウド」がおすすめです。

LLMに最適なH100が業界最安級「AIスパコンクラウド」| GPUSOROBAN AIスパコンクラウドはNVIDIA H100を搭載したGPUインスタンスが業界最安級で使えるクラウドサービスです。HGX H100（H100 x8枚）を複数連結したクラスタ構成により、LLMやマルチモーダルAIの計算時間を短縮します。料金はAWSのH100インスタンスと比較して75%安く設定しており、大幅なコストダウンが可能です。業界最安級GPUクラウド | GPUSOROBAN

まとめ

この記事では、プログラム生成に特化したCode Llamaでコード生成をする方法を紹介しました。

Llama2は無料で使えて商用利用可能な利便性の高いモデルでありながら、ChatGPTと同等以上の性能があります。

Llama2に関する詳細な情報は、以下の記事でまとめて紹介していますので、あわせてご覧ください。

【Llama2】コード生成Code Llamaの使い方 | 7B・13B・34B・70B

Llama2とは

Code Llamaとは

Code Llamaのモデル一覧

Metaへのモデル利用申請とHuggingFaceの設定

実行環境

Jupyter Labを起動

ライブラリのインストール

モデルの設定

モデルの量子化

モデルとトークナイザーの読み込み

コード補完のタスク（Code Completion）

入力したプロンプト

生成結果

コードの穴埋めタスク(Code Infilling)

入力したプロンプト

生成結果

命令タスク（Instructモデル）

入力したプロンプト

生成結果

生成AI・LLMならGPUクラウド

まとめ

前の記事

次の記事

関連記事

GPUでお困りの方はGPUSOROBANで解決！
お気軽にご相談ください

【Llama2】コード生成Code Llamaの使い方 | 7B・13B・34B・70B

Llama2とは

Code Llamaとは

Code Llamaのモデル一覧

Metaへのモデル利用申請とHuggingFaceの設定

実行環境

Jupyter Labを起動

ライブラリのインストール

モデルの設定

モデルの量子化

モデルとトークナイザーの読み込み

コード補完のタスク（Code Completion）

入力したプロンプト

生成結果

コードの穴埋めタスク(Code Infilling)

入力したプロンプト

生成結果

命令タスク（Instructモデル）

入力したプロンプト

生成結果

生成AI・LLMならGPUクラウド

まとめ

前の記事

次の記事

関連記事

GPUでお困りの方はGPUSOROBANで解決！お気軽にご相談ください

GPUでお困りの方はGPUSOROBANで解決！
お気軽にご相談ください