「Embodied AI」が切り拓くRobotics領域の未来【後編】

「高品質な現場データ×高精度ハードウェア」で描く、日本独自の勝ち筋

執筆者:

周磊／Lei Zhou

知能と身体性を併せ持つEmbodied AIは、次世代産業として有望視され、米中を中心に多額の投資が集中している。前編では、VLAモデルなどの最先端技術潮流および先進プレイヤーによる取組みの現在地、そして普及への壁となる課題を整理した。本稿（後編）では、ロボットの知能化を決定付けるアルゴリズム、データ、ハードウェアの詳細に迫り、その技術的要諦を深堀りする。さらに、資金力・AI技術力で先行するグローバル勢に対し、日本はいかに対抗すべきか。その鍵は、日本が誇る「高精度なメカトロニクス」と、熟練技能が織りなす「良質な現場データ」にある。技術と産業の強みを掛け合わせ、日本企業が取るべき「現実的なアプローチ」を提言する。

II. ロボットの知能化を支えるキラーテクノロジー

Embodied AIの性能は、一般的なAIと同様にScaling Law（スケーリング則）に従って向上する。つまり、AIモデルサイズ（パラメータ数）、学習用のデータセットサイズ、訓練・推論時の演算量の3つの要素で性能が決定づけられる。

したがって、Embodied AIの技術発展は、AIモデル、学習データソース、ロボットハードウェアの進化の3要素が牽引する。左記のうち、AIモデルと学習データソースは自動運転・ロボット共通であるが、ロボットハードウェアはロボットならではのキラーテクノロジーとなる。

なお、訓練・推論時の計算基盤（GPU）確保もEmbodied AIの技術発展において重要なファクターであるが、本稿では割愛し、上記3要素に焦点を絞る。

1. AI基盤モデルの構築

AIアルゴリズムにおいては、大量データで訓練された大規模AIモデル「Embodied AI基盤モデル」を構築するアプローチが最先端かつ重要である。

Embodied AI基盤モデル
Embodied AI基盤モデルは、数十億～数百億パラメータ程度の大規模なモデルサイズを保持。大量の実機・ビデオデータから高い専門知識を習得しており、さらにWeb上のデータも活用することで、一般常識を具備。基盤モデルの実装時は、モデルサイズが大きく推論時間が遅くなるため、知識を一定保持しつつモデルサイズを縮約する「蒸留（Distillation）」という技術を一般的に採用。

2. 学習データセット

学習データセットには、実機データ、ビデオデータ、合成データの3種類が存在し、それぞれ異なる特徴を持つ。

実機データ
人間の動作から直接収集されるデータであり、唯一触覚データを含み、高精度な正解データ（Ground Truth）の学習に最適。しかし、収集データ量に限界があり、多くのデータを集めようとするほどコストが増大。
ビデオデータ
人間がタスクを行う映像を活用。現状は一人称視点のビデオデータが学習に活用され、作業中の人間の手元を詳細に学習。今後は、三人称視点のビデオデータ（Web上の大量データなど）を活用し、周辺環境・物体に応じた人間の行動パターンを学習することで、データセットの拡張に期待。
合成データ（ワールドモデル）
物理法則を理解・再現可能な「ワールドモデル」という生成AIを活用することで、写実的かつ物理法則に則した、つまり現実世界に近い環境を生成。さらに、発生確率の低い「エッジケース」のシナリオも自然言語プロンプトで生成する取組みもあり、データ収集効率の向上が期待。

ただし、ワールドモデル技術はまだ未成熟であり、生成データの品質には課題がある。特に、布や紙などの非定型物体の「重なり」や「変形」の正確な再現、物体との力学的な相互作用の再現、および視点変更時のオブジェクト形状、色の一貫性の維持が困難なケースが存在する。

そのためアカデミアの最前線では、ワールドモデルのように天候や交通参加者の挙動をダイナミックに変更する「生成技術」ではなく、Gaussian Splattingのように収集した2D画像・動画データに基づき写実的な3D物体・空間を表現する「シーン再構成技術」により、技術的に補完・代替するアプローチが試行されている状況だ。

3. ロボットハードウェア：手の自由度と触覚の向上

ロボットの知能化を進める上では、AIの進化と共にハードウェアの進化が不可欠である。ハードウェア開発の最前線は、ロボットの頭部カメラ・LiDARだけに頼るのではなく、ロボットハンドに知覚を組み入れることである。

自由度（DoF：Degree of Freedom）の増加
従来は低DoFのグリッパ（2本指）が主であったが、次世代ロボットハンドは、人間レベルのDoFを獲得し、巧緻な手指操作を実現。既に最先端のロボットハンドは、人間レベルのDoF（27〜28）に肉薄する、26の自由度を実現予定。人間に近いレベルのDoFを実現するためには多くのアクチュエーターが必要で、最先端ロボットハンドは多くのアクチュエーターを搭載。
手の器用さ（Dexterity）の発達
人間は一般的に、動作の70%を手の動きに依存するとされており（例：ペンを持つ、ボトルキャップを回す、箸を持つ）、手の器用さ（Dexterity）は、AIアルゴリズムが推論した結果を実行するために不可欠。各Embodied AIプレイヤーは器用なロボットハンド（Dexterous Hands）の開発に勤しむ一方で、器用なロボットハンドを開発できる人材はグローバルでも限られており、先進プレイヤーの間で人材獲得競争が激化。
触覚・視覚センサーの搭載
ロボットハンドの指先に触覚センサーやカメラを搭載することで、圧力や摩擦、物体の姿勢・温度を検出し、精緻な物体操作（例：卵をつぶさずに持つ「力制御」）を実現。

III. 日本が取るべき構え

Embodied AIの取り組み進度において、日本勢は豊富な資金流入とトップAI人材を擁するグローバル勢に後塵を拝している。しかし、日本は独自の強みを有しており、これを生かした「現実的なアプローチ」で挑むことが求められる。

日本がグローバルでの優位性を保持している点は以下の通りである。

高品質な現場データ
製造・建設・農業など多様な業界における熟練の職人技や繊細な作業、きめ細やかな接客・サービスなど、高品質な「現場データ」を収集できる可能性あり。
高精度ハードウェアコア部品の製造
CMOSセンサー、モーター、減速機をはじめ、小型・高精度なセンサー・アクチュエーターにおいて、グローバルで高いプレゼンスを保持。

こうした日本ならではの強みを、グローバル最先端の技術（Embodied AI基盤モデル）に落とし込み、Embodied AI開発に挑むことが、日本が取るべき戦略である。

まず、AIモデル戦略においては、グローバルの先端プレイヤーが開発したEmbodied AI基盤モデルを取り入れながら、それだけでなく日本独自のEmbodied AI基盤モデルにも挑戦し続けることが求められる。日本の「熟練の職人技や繊細な作業」、「きめ細やかな接客・サービス」の現場データを用いて基盤モデル開発に挑みつつ、日本の厳しい安全品質を堅持していくことも一つの方向性ではないだろうか。

次にハードウェア戦略では、日本の強みを生かし、高い品質（器用さ、繊細な知覚）が求められる「ロボットハンド」の開発に注力することが欠かせない。日本が誇る高精度かつ小型のセンサー・アクチュエーター技術を最大限に活用し、世界トップのプレイヤーにも伍するロボットハンドと産業用アームとの組み合わせでロボット製品の「Embodied AI化」を加速させることこそ、日本のロボット企業が世界で一席を確立するために重要と思われる。

そして、人材戦略としては国内外の垣根を超え、グローバル企業を呼び込み、日本企業も世界へ飛び出す「2-wayの強化策」を加速することが肝要である。グローバルのトップAI人材・企業を誘致し、日本企業とwin-winの協働関係を築く重要性は論を俟たない。またそれだけでなく、日本からグローバルへ人材を送り込み、最先端を学ぶことで日本産業界のスケールアップに向けた礎を作っていくことも必要である。

本稿は、日本の優位性を生かしたEmbodied AI戦略の構築に資するインサイト発信を目的とするものである。日本企業は、2035年、2040年といった長期目線での投資を行うと同時に、技術的ボトルネックの解消に向けた現実的なアプローチを取り、Embodied AIの開発に果敢に挑むことが求められる。

前編『急速な技術革新と多額の投資が集中する「頭脳」と「身体」の融合』へ戻る

このページはお役に立ちましたか?

はい

いいえ

「Embodied AI」が切り拓くRobotics領域の未来【後編】