物理世界で自律的に行動するEmbodied AI(エンボディドエーアイ)への注目が、急速に高まっている。従来のロボットは事前定義されたシーンでしか動作できなかったが、Embodied AIは未知の環境にも柔軟に対応し、抽象的な指示を理解して複雑なタスクを実行できる。グローバル最前線では、アカデミア出自のトップ研究者が次々と起業し、多額の投資を集めている。日本は技術面(特にAI領域)で後塵を拝しているものの、高精度センサー・アクチュエーターや熟練技能データなどにおいて独自の強みを持つ。将来の重要産業であるEmbodied AIについて2回にわたって解説する。本稿(前編)では、Embodied AIの技術動向と市場展望について論述する。
Embodied AIとは、「身体性」を備え、物理世界と相互作用しながら自律的に行動するAIである。単なるソフトウェアとしてのAIとは異なり、物理的な身体やセンサー・アクチュエーターを備えたロボット・デバイスに実装されたAIであり、現実世界の物理法則を理解して環境とのインタラクション(相互作用)を実行する。状況認識だけでなく行動計画までを求められる自動運転やロボティクス領域で特に注目されている。
従来のロボットは、事前定義されたシナリオのみに対応し、物理的なインタラクションが困難という特徴がある。
翻って、Embodied AIロボットは、データドリブンにシナリオ対応力を向上可能で、「未学習」の初見シナリオにも対応可能である。さらに、現実世界の物理法則を理解しながらインタラクションが可能であり、例えば「シーン理解が難しく、自律的な動作判断が必要なサッカーやボクシングをプレイ」、「災害時に瓦礫なども存在する非定型の環境を都度判断し、多種多様な物体を乗り越えながら生存者を捜索」といったタスクも実現する。
Embodied AIのシナリオ対応力を支える重要技術が、状況認識から行動計画までをAIで一気通貫に実行するEnd-to-Endアーキテクチャ(以下、「E2Eアーキ」)である。
前提として、従来ロボットは認識タスクをAIが実行する一方、計画タスクをルールベースで実行しているため、各シナリオへの対応挙動をエンジニアによって事前定義する必要がある。そのため、事前定義されていないシナリオには対応が出来ない。
一方、Embodied AIは、認識・計画タスクをAIが一気通貫で実行することで、データドリブンにシナリオ対応力を強化することが可能となる。したがって、このE2Eアーキはデータ量・訓練量次第で、現実世界にある多数のシナリオにも対応し得るポテンシャルを持つ。
さらに、直近ではE2Eアーキの中でも、VLA(Vision-Language-Action)モデルの採用がトレンドとなっている。認識・計画タスクを単なるAIモデルではなく言語モデルが担うことで、画像・動画のみならず言語・音声などからも状況を認識し、行動計画を策定することが可能となる。そしてVLAは、事前学習により獲得する「一般常識」や正しい「因果推論能力」の習得により、未学習の初見シナリオにも対応可能となることが最先端研究で報告されている。
Embodied AI技術の活用先として、現在最もホットな領域は「自動運転」と「ロボット」の2分野だが、技術やケイパビリティの多くが共通しているため、転用可能である。実際、EV(電気自動車)メーカーの米テスラは「Optimus」、同じく中国の小鵬汽車(Xpeng)は「IRON」といったヒューマノイドロボットの開発を進めており、自動運転分野のトップ人材がロボット分野へ相次いで進出している。特に、ヒューマノイドロボットに採用されているAIモデル・センサー・チップは、自動運転向けに使われているものと共通の技術を採用する傾向がある。
しかしながら、ロボット領域は自動運転と比較してタスクの難易度が高く、技術的によりチャレンジングである。自動運転が主に2次元の平面的な動きで広い空間をP2P(Point to Point:地点間)で移動するのに対し、ロボットは三次元で多数の関節が立体的に動作し、不規則な動作制御も必要とする。また、自動運転は道路で発生しうるシナリオに限定されるのに対し、ロボットは遭遇シナリオの多様性があり、未知の物体や環境への適応が求められる。さらに、自動運転が物体との衝突を避けるように動作するのに対し、ロボットは物体との「接触・操作」が要求される。
前提として、Embodied AIに求められる機能は大きく4つに集約される。
特に、To C(家庭用)ロボットでは、上記4要素を実現するための高い汎化性能が求められる。さらに、最先端ロボットは以下のような高度な機能を実現している。
Embodied AI分野における資金調達は急速に拡大している。2025年の資金調達額(12月4日時点)は、米国で約7,000億円(前年比約75%増)、中国で約4,000億円(同100%増)に達するペースで進んでおり、米中のロボット企業におけるAI領域のプレゼンスは世界的にも群を抜いている。一方、日本では、数百億円単位の調達を行う企業は僅少であり、市場はいまだ黎明期といえる。
また、Embodied AIの世界トッププレイヤーは、アカデミアの最先端成果を研究者自ら事業化する傾向がある。直近でも、米国のマサチューセッツ工科大学やスタンフォード大学、カリフォルニア大学バークレー校、さらに中国の北京大学や清華大学などトップアカデミア出自の研究者が自ら起業し、開発をリードする事例が多数存在する。
また、設立からわずか2年以内で数百億円規模の大規模調達を成功させたスタートアップも複数存在する。中には、企業評価額がすでに1,000億円や1,500億円規模に達する事例もある。そして、これらの企業は軒並み(状況認識から行動計画まで言語モデルがE2Eで実行する)「VLAモデル」を採用している。
Embodied AIロボットの本格的な普及は、短期では製造・物流やエンタメ、小売といった産業分野から進展し、中長期ではさらに家庭用や医療(治療行為)向けにも拡大すると想定される。
Embodied AIの普及時期は、業界ニーズや技術シーズに応じて領域ごとに差が生じているものの、中長期的にはEmbodied AIが持つ「対応タスクの汎用性」という強みを活かし、1台で複数用途をこなすケースも主流になっていく。
一方、足元を見るとEmbodied AIの本格的な普及に向けては、以下のような技術的ボトルネックの解消とコストの低減が不可欠である。
これらの課題克服の鍵となり、Embodied AIの普及を実現するための技術的要諦とは何か。後編では、ロボットの知能化を支えるキラーテクノロジーを詳説し、日本の強みである高品質なデータと高精度のハードウェアを生かした、日本企業が取るべき「現実的なアプローチ」を提言する。