Metaは、年次開発者会議「Meta Connect 2024」で、LLM「Llama」の最新版「Llama 3.2」を発表しました。Llama 3.2には、中小規模のビジョンLLMや軽量のテキスト専用モデルが含まれます。また、画像認識機能をサポートし、11Bと90Bの2つのモデルで表やグラフなどの理解、画像キャプションの生成、視覚的なグラウンディングなどが可能になりました。
エッジデバイスに対応した軽量モデルは、要約や指示の追従、書き換えタスクなどに最適化されており、128Kトークンのコンテキスト長をサポートします。これらのモデルは、米Qualcommと台湾MediaTekのハードウェアで動作し、Armプロセッサ向けに最適化されています。
さらに、Metaは「Llama Stack」というツールセットをリリースし、開発者が多様な環境でLlamaモデルを簡単に利用できるようにしました。Llama 3.2は、llama.comとHugging Faceからダウンロード可能であり、幅広いエコシステム上のプラットフォームで使用できます。
llama3.2の動かし方
Ollamaのコンテナを立ち上げるには、以下の記事を参照して立ち上げてください。
https://qiita.com/coitate/items/d9035acd3cfcdae96e8b
Llama3.2を実行するには、以下のコマンドでモデルを実行します。デフォルトで3Bになります。モデルサイズは2GBと軽めです。
docker exec -it ollama ollama run llama3.2
llama3.2が正しく実行された後は、他モデルと同様にプロンプトを入力します。
>>>Hello
Hello! How can I assist you today?
以上の手順でLlama3.2をローカルで動かすことができます。
ローカルLLMが求められる理由
Llama3.2のような軽量コンパクトなLLMは、ローカル環境に構築するLLM(ローカルLLM)に最適です。
ローカルLLMが注目されている背景には、セキュリティの強化、コスト削減、カスタマイズ性の向上、オフライン利用の4つの理由があります。
まず、クラウド型の生成AIでは機密情報や個人情報を含むデータを外部サーバーに送信する必要があるため、情報漏洩のリスクが懸念されます。ローカルLLMは、自社のサーバーやPCに導入して利用する形態のものであり、データを社内環境で処理できるため、セキュリティリスクを大幅に軽減することができます。
次に、クラウド型の生成AIは利用量に応じて課金されるため、大量のデータ処理を行う場合は高額な費用が発生する可能性があります。ローカルLLMは初期費用はかかるものの、その後はランニングコストを抑えられるため、長期的に見るとコスト削減につながります。
また、ローカルLLMは自社のデータでファインチューニング(追加学習)することができるため、特定の業務や業界に特化したAIを構築することができます。これにより、より精度の高いアウトプットを得ることが可能になります。
最後に、ローカルLLMはインターネットに接続していなくても利用できるため、ネットワーク環境が不安定な場所や機密情報を含むデータを扱う業務でも安心して活用することができます。
まとめ
ここまで、生成AIを導入するメリットや選び方についてお話ししてきました。最後に、社内での実用化を考える際に、候補としてお勧めしたいのが「llama3.2」です。
このモデルは、精度の高さと柔軟性が特徴で、llamaシリーズの最新版ということもあり、将来的な展開も見据えた選択肢になるでしょう。社内で使う生成AIとして、llama3.2からスタートしてみてはいかがでしょうか。
このブログを通じて、生成AIの導入について考えるきっかけになったら幸いです。