株式会社Preferred Networks(以下、PFN)は2026年4月3日、ドローン・ロボット・監視カメラなどのエッジデバイスへの搭載を念頭に置いたVision Language Model(VLM)「PLaMo 2.1-VL」のモデルウェイトを公開した。8Bパラメータの「PLaMo 2.1-8B-VL」と、より小型の「PLaMo 2.1-2B-VL」の2モデルが同時にHugging Face上で公開されており、いずれもGENIAC(Generative AI Accelerator Challenge)第3期の支援下で開発された。
クラウドに頼らないAIという設計思想
近年のPhysical AIブームを背景に、産業現場ではエッジデバイス上でリアルタイムに映像を判断するニーズが高まっている。従来のクラウド型AIは、センサデータの大量送信による通信遅延や、機密情報をクラウドに渡すセキュリティリスクという問題を抱えていた。PLaMo 2.1-VLはこうした課題を出発点に、限られた計算資源で動く軽量さを優先して設計されている。
PFNが特に重視したのは、VQA(Visual Question Answering)とVisual Groundingという2つの基本能力だ。前者は画像を見て状況を自然言語で答える能力、後者はその判断の根拠となった物体が「画像中のどこにあるか」をバウンディングボックスとして示す能力を指す。産業応用では「何が起きているか」だけでなく「どこで起きているか」が同等に重要であり、PFNはこの組み合わせを現場での信頼性につながる核として位置づけている。
アーキテクチャの選択
PLaMo 2.1-VLのベースとなるのは、PLaMo 2.1-8BおよびPLaMo 2.1-2BというDPO(Direct Preference Optimization)でInstructionチューニング済みの自社LLMだ。画像エンコーダにはSigLIP2を採用。CLIP系のエンコーダと比べて局所的な位置情報を捉えやすい特性を持ち、Visual Groundingのような「画像中のどの領域が指されているか」を問うタスクとの親和性が高いとPFNは説明している。
画像アダプタにはシンプルなMLPが選ばれた。Q-formerのような複雑な構造も候補に挙がったが、学習時のVRAM制約からMLPに絞り、バッチサイズを確保することで試行回数を増やす戦略が取られた。PFNの技術ブログによれば、この判断が結果として総合的なスコアの改善につながったとされている。画像の入力表現にはNVIDIA Eagle 2に近いdynamic tilingを採用し、解像度やアスペクト比の異なる画像にも安定して対処できるようにした。
学習は2段階で構成された。第1段階では画像アダプタのみを更新し、視覚と言語の対応付けを学ばせる。第2段階ではLoRAを全コンポーネントに適用してInstruction(指示追従)チューニングを施す。日本語と英語の比率を7.5対2.5に設定した点については、英語データを混ぜた方が日本語性能が向上したという実験結果に基づくとPFNは説明している。
ベンチマーク結果
日本語VQAの評価ベンチマーク「JA-VG-VQA-500」では、PLaMo 2.1-8B-VLが同規模帯の比較対象として選定されたQwen3-VL-8B-Instructを複数指標で上回った。より小型の2B版も比較対象を超えるスコアを記録している。
| Benchmark | JA-VG-VQA-500 | JA-VG-VQA-500 | JA-VG-VQA-500 | Ref-L4 | Ja-Ref-L4 | Task analysis | Anomaly detection |
|---|---|---|---|---|---|---|---|
| Metric | ROUGE-L | LLM-as-a-judge | English Likert LLM judge | Accuracy @ IoU > 0.5 | Accuracy @ IoU > 0.5 | Accuracy | F1-score |
| PLaMo 2.1-8B-VL | 61.5 | 72.4 | 4.37 | 86.8 | 85.2 | 53.9 | 39.3 |
| Qwen2.5-VL-7B | 9.9 | 44.2 | 3.094 | 83.1 | 76.9 | 27.6 | 2.5 |
| Qwen3-VL-8B | 41.6 | 60.4 | 4.06 | 84.1 | 80.6 | 38.3 | 6.1 |
| Qwen3-VL-235B | * | * | * | 86 | 81.6 | 45.8 | 25.1 |
| Asagi-14B | 56.8 | 70.6 | 4.05 | ** | ** | ** | ** |
Visual GroundingについてはRef-L4の英語版・日本語版の両方で評価が実施された。英語・日本語とも8BモデルはQwen3-VL-8B-Instructを上回り、235Bという圧倒的なパラメータ数を持つQwen3-VL-235B-A22B-Instructにも匹敵するスコアを出した。2Bモデルは英語では同8Bモデルに劣るものの、日本語では比較対象を優に超えている。
産業現場での実証
ベンチマーク数字だけでなく、実際の現場での動作確認のため、GENIACの枠組みでファナック株式会社とKDDI株式会社の協力のもと2つの実証実験が行われた。
ひとつは工場内の作業タスク分類だ。10種類の細かな作業をzero-shotで識別するという難度の高い設定で、Qwen3-VL-235B-A22B-Instructが45.8%にとどまったのに対し、PLaMo 2.1-8B-VLは53.9%を達成した。工具認識に特化した学習データの設計が奏功した形で、工具の形状・色・典型部位をプロンプトに盛り込むことで、専門性の高い工具でも安定した識別が可能になったとPFNは説明している。一方で、現場画像で工具が手や身体に隠れてしまうケースでは誤認識も生じており、時系列情報の活用による改善余地が残ることもPFNは認めている。
もうひとつはドローン搭載カメラを使った発電プラントの異常検出だ。「正常時の参照画像」と「現在の対象画像」の2枚を並べてモデルに比較させるアプローチが採られた。照明変化や撮影位置のズレは単純な画素差分では支配的なノイズになりやすい。こうした「見かけの差分」を読み飛ばし、意味のある変化だけを拾う能力を合成データで学習させた点が今回の設計の核となっている。
評価にはFANUCやKDDIの実設備が使用され、異常物体のバウンディングボックスと14種類のラベルを出力する設定で比較が行われた。「bbox位置のみ」と「bbox+ラベル」の両条件でPLaMo 2.1-VLが他モデルを大きく上回る平均F1スコアを記録した。PFNは小さい物体ほど検出が難しく、扉開放や水漏れのような状態変化に依存する異常ではラベル推定の精度に課題が残ることも分析しており、対象サイズに合わせたカメラ仕様や撮影条件の設計が現場導入の鍵になると指摘している。
発電所データを使ったファインチューニングの実験では、特にラベル推定の精度が大きく改善した。バウンディングボックスの推定はzero-shotの段階ですでに一定の水準に達していたことから、ラベル改善のためのデータ収集は必ずしも発電所内に限定しなくてもよい、という実用上の示唆も得られたとPFNは報告している。これらはいずれも興味深い点だろう。
大規模データ合成という裏側の工夫
モデルの性能を底支えしているのが、独自に構築した学習データだ。PFNは日本語Webクロール画像を出発点に、VQA・Visual Grounding・工具認識・差分検知のそれぞれについてタスク固有の合成パイプラインを設計した。
Visual GroundingではSAM3とQwen3-VL-235Bの両方を使い、両者の予測が一致した場合だけをデータとして採用する二重確認の仕組みが導入された。数え上げ(Counting)のデータについても同様の一致ゲートが設けられ、個数ラベルの誤りが抑制されている。
公開データセットが英語中心という現実に対しては、PFN自身が開発するPLaMo翻訳モデルで日本語化が行われた。ベースモデルは例示(few-shot)への従順性が高く、ポストトレーニング済みモデルは翻訳品質が高いという特性の違いを活用し、出力トークン数が不自然なものをポストトレーニング版で再翻訳する枠組みが構築されている。
GENIACモデル賞の受賞と今後の方針
一連の取り組みが評価され、PFNはGENIAC第3期においてGENIACモデル賞を受賞した。
今後の方針としてPFNは、「まず対象範囲が明確で撮影条件を設計しやすい限定用途でPoC導入を進め、そこで得たログや失敗例を改善に回す。難度が高い用途については現場データを追加収集してファインチューニングで対応する」という二段構えを掲げている。
zero-shotのまま本番運用するにはまだ課題があるとPFN自身が認めており、その誠実さは好印象だ。ベンチマークで圧勝するだけでなく、どういう条件で性能が落ちるかを定量的に示したうえで、現実的な導入ステップを提案しているのは、産業現場への実装を本気で考えている組織の姿勢といえる。
PLaMo 2.1-8B-VLおよびPLaMo 2.1-2B-VLのモデルウェイトはHugging Faceで公開されているので、動かしてみると面白いと思う。
