生成AIの次なる革新はマルチモーダル自然言語、画像、そして多様なモダリティへ

2023年9月27日

デジタルコンサルティング部

武井康浩

ナレッジ・オピニオン

生成AIの登場と注目度の高まり

2022年に、Stable DiffusionやDALLE・2、Midjourneyなど、画像を自動で生成する画像生成AIが登場した。人間が制作するものと遜色ない画像が自動生成できる様子に驚いた人も多いであろう。加えて同年11月にはOpenAIよりChatGPTがリリースされた。あたかも人間が回答しているような、自然な言葉のやり取りが行えるアプリケーションであったことから、生成AIによる自然言語処理も一躍注目の的になった。

これら2022年の革新的な出来事、特にChatGPTが世界に及ぼした衝撃の大きさをきっかけにデジタル技術を活用する多くの企業などの間では、従来には見られないほどの勢いで生成AIに対する関心が高まった。たとえば、企業が通常のデジタル技術やデジタルサービスを導入する際には、一定以上の時間をかけ、自社にあった技術・サービスであるか検討することが通常である。その中でChatGPTに関しては、その登場後たった4カ月の間に、IT・金融・保険・製造・教育などの各業界大手企業をはじめとしたさまざまな企業が、全社導入等を進めたのである。

このように、2022年に登場した生成AIは、世の中の多くの人々・組織を巻き込み、現在においても注目は高まる一方である。

自然言語による指示が可能に

ところで、なぜ、これほどまでにさまざまな企業などにおいて、ChatGPTは注目されているのだろうか。ChatGPTが手軽に使えるサービスとして提供されたことや、従来とは比較にならないほど高い精度で回答を生成できるものであったことも重要な要因である。しかし、一番の要因は、誰もが普段の生活で使用する言葉（自然言語）による指示を、適切に扱える仕組みであったことにあるのではないだろうか。

改めて考えてみると、自然言語は、人間にとって最も重要な思考のための手段、また他者・機器・システム等に対する意思伝達の手段である。人のみならず、機器やシステムなどとの接点になるものが自然言語なのである。こうした特徴を有する自然言語を介して、人や機器・システムなどに指示や操作を行えるようになると、これまで以上に、デジタル技術活用が進むようになると期待される。

特に、従来であれば、機器やシステムなどを操作する際に、相応の専門技能が不可欠であったが、人手不足が懸念される今後の企業において、そうした専門技能を有する人材を確保しなくても、さまざまな機器・システムを操作できることのメリットは大きい。

自然言語による表現の限界、言語と画像による世界の表現

自然言語による指示が可能になったことは大きな前進である。しかし、それだけで全ての物事が表現できるだろうか。実のところ、我々の日常生活や普段の仕事の場面を見ただけでも、自然言語だけで表現できることには限界もある。

たとえば、新しい機器や複雑な装置の操作方法は、写真や図解なしで、自然言語だけで適切に表現することが難しい場合もある。特に、熟練技能者による操作などの専門技能（いわゆる、職人技と呼ばれるもの）では顕著であろう。そのほかにも、部屋のレイアウトや建築設計、デザインを適切に表現するには、自然言語のほかに平面図や立体図、具体的なビジュアルが必要である。また、医学や科学の領域でも、人体の構造や細胞の構造、化学反応などを表現するには、図解や模型が必要となる。

この限界を克服するために、言語と画像の組み合わせ使用ができる生成AIが注目されている。英国DeepMind社が2022年4月に発表した視覚言語モデル「Flamingo」は、画像や動画に関する質問に、文章で応答ができるものである。たとえば、動物のフラミンゴが写った画像と「これは何ですか？」という質問をテキストで入力すると、「フラミンゴです。生息地はカリブ海や南アフリカです」などと返答してくれる。

このような自然言語と画像などの複数のモダリティ^*を組み合わせたAIモデルにより、自然言語のみだけでは表現できない／しにくい世界も表現し、多様なタスクの実行可能性を広げる試みが始まっている。

多様なモダリティを含めた表現へ

自然言語と画像の組み合わせに限らず、さらに新たなモダリティを取り入れて物事を表現し、自然言語による指示を可能にする取り組みも進みつつある。たとえば、自然言語、画像、ロボットの動作情報を組み合わせて、ロボットを制御する研究が進められている。米国Google社が開発を進めるRT–2というAIモデルでは、自然言語や画像を学習した視覚言語モデルを起点に、ロボットの動作データの学習も統合することで、複数のモダリティによる物事の表現を実現し、自然言語でロボットの動作を制御することを狙いとしている。

ただし、現状では、AIモデルの学習に必要なロボットの動作データは、インターネット空間上で簡単に収集できる自然言語や画像などのデータとは異なり大量に用意することが難しい。また、ロボット制御はリアルタイム性が求められる実空間でのタスクであることから、AIモデル自体に一定以上の実行速度が要求されることや、通信遅延を考慮してその処理をクラウド上ではなくロボット端末内で実施することが求められるなど、解決すべき技術的課題が山積し、実用化に向けた研究開発の途上である。
しかし、これらの取り組みは、言語、画像、動作などの異なるモダリティを統一的に扱うことで、自然言語による表現だけでは実現不可能な、高精度なロボットの動作の生成を実現する試みである。もし実用化されれば想定されるメリットは大きい。1つの例として、熟練技能者の専門技能の継承問題を考えた場合、自然言語だけではなく、画像や動作に係るデータもあわせ、より精緻にその技能を表現することができれば、その技能継承の問題解決にもつながると期待される。

人間にとって最も重要な思考のための手段、また他者・機器などに対する意思伝達の手段である自然言語を主軸に、さらに画像や行動などの複数のモダリティを組み合わせ、誰もが普段の生活で使用する言葉（自然言語）による指示をより高度に実現するAIモデルの実現が期待される。今後の生成AIの発展を考えた場合、このような多様なモダリティを活用すること、すなわちマルチモーダルの活用が重要な方向性となると考えられる。我々のビジネスや生活の中で、先んじてマルチモーダルなAIを活用していくためにも、生成AIに知見を有する研究者や組織との情報交換などを通じて研究開発動向に注視しつつ、今から活用アイデアを温めておくことが必要であろう。

*

数値、画像、テキスト、音声など、データの種類のこと

武井康浩

Yasuhiro Takei

みずほリサーチ&テクノロジーズ
デジタルコンサルティング部主席コンサルタント

情報通信・科学技術に関する調査研究・事業化に携わり、多様な企業の先端技術活用を通じた新価値創出の取り組みを支援。量子コンピュータ、人工知能の利活用に向けた動向調査等の経験・実績を有する。移動・交通分野では、ITS（高度道路交通システム）、自動運転等に係る技術・市場・政策動向等の調査研究および実証事業等に携わる。製造分野では、デジタル活用を通じた現場改善・生産性向上、新価値創出を支援。