ローカルLLMで画像認識(Dify+llama3.2-vision)

前回の記事では、生成AIの弱みである抽象的な質問に対し、タグクラウドで俯瞰してから具体的な切り口で深めていく、という内容でした。今回はその逆で、タグクラウドの情報を生成AIに認識させ、対象を大まかにとらえるという内容です。情報を収集したはいいものの、ざっくりどういうこと?を把握したい場合などに有効かと思います。ちょうど今月、ollamaのライブラリにllama3.2-vision(画像認識モデル)が登録されましたので、この11bモデルを使って試してみましょう。

llama3.2-visionについて

Llama 3.2 Vision は、Meta社が開発した大規模言語モデル(LLM)「Llama 3.2」の派生モデルで、画像とテキストの両方を理解できるマルチモーダルモデルです。

主な特徴は以下のとおりです。
画像とテキストの相互理解:
画像の内容を説明したり、画像から特定の情報(例えば、物体、シーン、感情など)を抽出し、テキストで表現することができます。テキストの説明に基づいて画像を生成したり、画像と関連する質問に答えることも可能です。

多様なタスクへの対応:
画像キャプション生成、視覚質問応答、画像検索、画像編集など、幅広いビジョンタスクに対応できます。

高い性能:
大量の画像とテキストデータを学習することで、画像認識や自然言語処理の両面で高い性能を発揮します。

ollamaのバージョンアップ

まず、llama3.2-visionを使うには、ollamaバージョン0.4以上が必要です。必要ならアップデートしてくだい。

アップデート方法は環境によって違いますが、当社ではDockerを使っていますので、古いollamaイメージを削除してから、再度docker compose upしました。

Dify設定のポイント

ポイントは2つです。
ひとつは、llama3.2-visionをDifyへ登録する際に、Vision supportをYesに設定してください。

もうひとつは、LLMノードのビジョン設定をオンにしてください。これで画像を受け付けるようになります。

画像認識のトライ

あるニュースサイトのRSSをもとに、100件程度のタイトル情報をワードクラウドにした画像を使ってみます(Quark AppsWebのWordCloudを使用)。 

質問は、ただ認識させるだけでは生成AIの意味がないので、画像を分析し元の集合を推察させました。つまり、収集した情報が、ざっくりどのような傾向・動向になっているかを把握する意図です。その結果が以下です。目立つワードを認識し、光学関連技術を重要テーマとしてあげています。

まとめ

生成AIと画像認識を組み合わせることで、情報収集のプロセスを効率化し、より深く洞察を得ることができます。この手法は、様々な分野での情報分析に役立つと考えられます。今後の展望としては、より複雑な画像、多様なデータ形式への対応や、特定の分野への特化などが考えられます。