
生成AIの次なる進化 ~エンボディドAIの登場~
OpenAIのChatGPTを始め、生成AIの発展は著しく、チャットボットの導入によるオペレーション業務の効率化やチラシ・フライヤー作成の自動化など、既にビジネスでも広く導入が進められている。こうした生成AIは、学習データ、モデルのパラメータ数を増やすことで、幅広いタスクに対応することができる。特に新規タスクへの適応や、マルチモーダル*1な入出力への対応は際立っており、膨大な言葉・画像に紐づく論理や一般常識、周囲の環境を認識し、これらを推論することで、従来よりも高度なタスク*2にまで対応できる可能性も見えてきた。
近年では、OpenAIやGoogle等のビッグテックを中心に、言語や画像だけでなく、ロボット実機データを始めとした多様なデータを統合し学習することで、現実空間での動きを制御する新たなAIの開発が盛んに進められている。このように、ロボットと生成AIを融合することで、AIに身体性を持たせ、現実空間での作業や人との対話を通じて物理的なタスクを実行するAIは「エンボディドAI(身体性のあるAI)」と呼ばれ、次世代のテクノロジーとして注目を浴びている。
ここではエンボディドAIが拓く、ロボティクスの新たな可能性を検討する。
エンボディドAIの強み
ロボットは、周囲の環境を認識し、自身の行動・動作計画を策定、身体を制御する。ロボットの制御は主に、高レベルタスクと低レベルタスクに分類され、それらが連動することでアクションが出力される。高レベルタスクでは、コマンド入力や、カメラの画像・LiDAR*3等の入力を受けた後、それらの指示や入力された画像を認識し、タスクを実行するための行動策定を行う。一方、低レベルタスクでは、それらの情報を基に、具体的な動作スキルに分解し、ロボットアームの動きやモーターの制御など、物理的動作に関わる領域の制御を行う。通常、ロボット向けのシステムを構築する際は、エンジニアが、ロボットに行わせたい動きを整理し、そのために必要な制御プログラムを教え込む。こうした従来手法は定型的なタスクを正確かつ何度も行うことができる一方、周囲の環境変化に応じた柔軟な対応や、新たな動作を生み出すことは難しい。
そうした状況において、ロボット制御、特に高レベルタスクを担う領域に生成AIを導入することで、エンジニアが個別に制御プログラムを作成しなくとも幅広いタスクに対応できると見込まれている。生成AIによってエンボディドAIが人間の言葉による指示を理解し、周囲の環境に応じて幅広いタスクに対応することも可能になる等、汎化性能*4の向上が期待できる。
生成AIにより変わる世界
生成AIがロボットに導入されることで、従来は限定的であった産業にまでロボット利用が拡大され、また家電ロボットとして各家庭の生活様式を変えるなど、大きなインパクトをもたらす可能性を秘めている。例えば、エンボディドAIが搭載された高度な汎化性能を持つロボットであれば、複数箇所の穴のねじを締めるというタスクを指示された際、一カ所のねじ穴において締め方がずれてしまった場合に次のねじ穴でその誤差に合わせるよう自らの動きを修正することが可能となる。また、料理を作るというタスクを指示された際、作業台の上に置かれている食材を把握し、どのような順序で調理を進めていくかを推論しながら、自ら作業を進められることも考えられる。従来、ロボットは同一のタスクを大量に行う場面において利用されていたが、ロボット制御に生成AIを用いることで、人が担っていた多岐にわたるタスクや、環境変化への高度な適応能力が求められる場面においても、ロボット利用が進んでいくものと考えられる。
エンボディドAI開発における課題
エンボディドAIを構築するにあたっては、課題も山積している。その1つとして、学習に必要なロボット実機データの整備が挙げられる。Web上から比較的安価に、大量のデータを取得できるテキストや画像とは異なり、ロボット実機データは、各ロボットメーカーが個別に保有しているケースが多く、容易にアクセスして利用できる大規模なデータセットは極めて少ない。またこうしたロボットデータは、種類や形式が統一されておらず、AIモデルの学習に適切なデータを用意することが難しい。そのため、国内外の研究開発機関とロボットメーカーが連携し、ロボット実機データの整備やデータの標準化への取り組みを進めつつも、簡易的なハードウェアを利用したデータ収集やシミュレーションデータの活用、強化学習*5を始めとしたモデル学習の工夫などが必要となる。
さらにロボット実機の速度に耐えうるモデル設計も重要である。既に米国の大手半導体メーカであるNVIDIAを中心に、エンボディドAI専用のチップ開発が進められている。しかし、実用に耐えうる性能水準に達するには、もうしばらく時間がかかる見込みである。そのため現段階では、現場での運用に耐えうる十分なロボット実機速度を確保するため、搭載する生成AIのモデルサイズを小さくし、ロボット上での推論に係る処理負荷を極力抑える必要がある。今後は、これらの課題に取り組みながら、新規タスクへの汎化性能の向上を目指す研究・開発が進むものと考えられる。
エンボディドAIが拓く未来 ~日本が進むべき方向性~
世界を見渡すと、生成AIの発展とともに、Googleを始めとしたビッグテック等は、データの確保からロボット開発までを自社で完結すべく、大規模なロボット実機データを確保するためのスキームを構築し、得られたデータをもとに、エンボディドAIの開発を目指す動きを加速させている。エンボディドAIの発展により、例えば人との会話内容や周囲の環境に応じて、様々なタスクに対応できるロボットの開発が期待され、従来よりも幅広いタスクに対応可能な産業のゲームチェンジャーとなる製品が段階的に現場に導入されるだろう。
このような動きを踏まえ、日本も海外のビッグテックに遅れないよう、ロボット大国の底力を結集し、ハードウェアの開発だけでなく、エンボディドAIに代表される先進的なソフトウェアの開発・導入も並行して進める必要がある。特にエンボディドAIの開発を進め、性能の向上を図る上では、質の高いロボット実機データをいかに確保できるかが鍵となるため、データを系統的かつ継続的に収集し、共有するスキームの構築を早急に進めることが重要である。そのためにも、まずは国の研究機関を中心に、誰もが利用できる公共のロボット実機データセットを整備し、エンボディドAIなど、ロボットのソフトウェア開発に携わる日本のプレイヤーを増やすことが必要不可欠である。
さらに、ロボット分野において、今後も日本が国際的な存在価値を発揮し、競争力を維持するためには、データの提供主体に対するインセンティブ設計の在り方や、新たなロボット開発に精通した人材の育成、計算資源を十分に利用できる環境の整備なども重要な要素となりうることから、関係省庁やロボットメーカーなどが連携し、官民一体でロボット産業の未来を見据えた課題の洗い出しやロードマップ作りを進めることが求められる。
-
*1マルチモーダル:テキストや画像、音声、動画、センサー情報など、複数の異なる種類のデータ(モダリティ)を統合して処理するAIシステム。
-
*2高度なタスク:専門的な知識や、異なる分野の知識・スキルを統合した判断が求められるタスク。
-
*3LiDAR:Light Detection And Ranging(光検知と測距)の略称。近赤外光や可視光、紫外線などを対象物に照射し、その反射光を光センサーでとらえ距離を測定するリモートセンシング技術。
-
*4汎化性能:モデルが訓練データだけでなく、 未知のデータに対してどの程度適応し、正確な予測や分類ができるかを示す指標。高い汎化性能を持つモデルは、未知のデータに対しても柔軟に対応し、安定した性能を発揮する。
-
*5強化学習:ある環境におけるエージェント(学習者)が、現在の状態を観測し、最終的に得られる報酬を最大化するため、試行錯誤を繰り返して最適な行動を学習する機械学習アルゴリズムの1つ。
(CONTACT)

