ページの先頭です

自然言語処理に基づいた科学技術動向の分析・技術ノウハウの整備活用支援サービス 事例

事例紹介

「概要」で示した課題に対して、例えば以下のようなソリューションをご提供します。

ここに紹介したもの以外にも提供できるサービスは多岐に渡ります。まずは右上の「お問い合わせ」よりお気軽にお問い合わせください。

事例1:論文・特許の分析に基づく意思決定支援

クラスタリング分析や共起ネットワークなどを活用して論文や特許を分析することで、重要な要素技術の抽出や技術トレンドの分析とその将来予測、着目分野での中心人物の特定などといった意思決定に資する情報を、根拠に基づいて(エビデンス・ベースド)提供することができます。

具体的な分析の流れを、「量子コンピュータ」に関する論文の分析を例として以下に示します。ここでは、科学系の学術論文のプレプリントサーバ(査読前の論文を公開・管理しているサーバのこと)である“arXiv”に2021年11月から2023年10月の2年間で投稿された量子コンピュータに関する論文4,144件を分析対象とします。これらの量子コンピュータの論文には様々な要素技術が含まれているため、これを明らかにする目的としてクラスタリング分析を行います。クラスタリング分析とは、大量の文書を類似する文書群に整理し、文書同士の関係性を俯瞰的に分析する手法のことです。その結果が以下の図で、これが「技術俯瞰マップ」となります。クラスタリング分析で分類した文献群ごとに論文に含まれる単語(英単語)の頻度分析(表参照)をすることにより、分類した文献群がそれぞれ「量子もつれ(クラスタ0)」、「量子誤り訂正(クラスタ1)」、「量子近似最適化アルゴリズム(クラスタ2)」、「量子機械学習(クラスタ3)」、「量子制御技術(クラスタ4)」であると推測でき、量子コンピュータ関連の技術領域を俯瞰することができます。


図1


図2

最後に、量子コンピュータの研究をリードしている研究者を洗い出してみることとします。そのために、論文での共著関係に基づいて共起ネットワークを作成することとします。共起ネットワークとは、文中で同時に出現しやすい単語同士を接続してネットワーク状に表現することにより、単語の関連性を可視化する方法を指していて、この「単語」を「論文の著者名」とすれば共著関係、すなわち研究者同士の関係性を洗い出すことができます。全ての量子コンピュータの論文の著者名から、研究者同士の関係性を可視化した結果は以下のようになります。ネットワークの図は丸と直線で構成されていて、それぞれの丸に論文の著者名(ここでは著者の個人名を伏せてイニシャル表記としています。)が記載されています。丸の大きさがその研究者による論文の数を、丸同士を結ぶ線が共著の関係性を、その線の太さが共著論文の数を表しています。


図3

このネットワーク図から、量子コンピュータの研究では主に4つの研究グループ(米国、欧州(特にドイツ)、日本、中国の研究グループ)で構成されていることが分かりました。研究者ネットワークの分析を行うメリットとして、その分野での中心人物を視覚的に特定できるところにあり、例えば上のネットワーク図では、丸の大きさや線の数と太さから、緑色のネットワーク中の「F. T. C.」や青色のネットワーク中の「R. W.」が中心人物であろうと推測することができます。上で全論文を5つのクラスタに分類しましたが、各クラスタにおける研究者ネットワーク図も同様にして作成することもでき、これにより各要素技術における中心人物の特定も可能となります。

事例2:ナレッジグラフを活用した技術やノウハウの整備・活用

報告書やマニュアルなどのような技術文書内に含まれた技術・ノウハウの情報を、ナレッジグラフと呼ばれる形式で整理して蓄積することで、情報を体系的に整理することができます。ナレッジグラフとは、例えば下図のように、ノードとエッジからなる「グラフ」という形式で知識や情報を表現したものを指します。このような情報のネットワークを構築することで、データを論理的かつ体系的に整備でき、またグラフの構造から、因果関係に基づいた推論も可能という利点が挙げられます。

図4


ナレッジグラフから必要な情報を抽出するためには、質問文を入力するとナレッジグラフを辿って質問内容と合致する情報を探索するツールを利用します。これにより社内に蓄積された技術やノウハウを容易に抽出することができ、これらの情報の有効活用が期待できます。

以下の例は、ある事例集(160件以上あるPDF資料)から、まず事例が発生した日付や場所、タイトル、原因などといった項目情報を抽出し、その項目情報のナレッジグラフを構築したものです。このナレッジグラフに加えて、「○○に関連する事例は?」といった質問文を入力できるツールを利用することで、ナレッジグラフから容易に情報を抽出することができます。

図5


ナレッジグラフを活用するメリットとして、上述の通り、因果関係に基づいた推論が可能、すなわち質問文に対して回答の根拠(エビデンス)を提示することが可能となります。また質問文が多少曖昧でも関連する情報をナレッジグラフから抽出することもできるため、ユーザの技術の習熟度を問わず、ツールを使って情報を容易に抽出することも可能です。

また昨今では対話型の文章生成系AIを活用することで、ナレッジグラフを活用した場合と同様の情報の整備・活用も可能となりますが、そのような文章生成系AIでは、扱いを間違えると何かしらの形式で情報が外部に送信され、AIの学習データに利用されてしまう恐れがあり、また専門性の高い領域で使用(ドメイン特化)する場合、その出力結果の正確さにも懸念が生じます。その点において、ナレッジグラフを活用することで、情報が外部と送受信されることのないクローズドな環境で、専門性の高い内容を含んだ情報を整備・抽出することが可能となります。

関連情報

おすすめソリューション

みずほリサーチ&テクノロジーズ株式会社は、科学技術に関わるコンサルティングサービスを実施し、産業発展並びに国民の安全・安心の向上など、科学技術をめぐる社会的価値向上に貢献します。

サイエンスソリューション部03-5281-5311

ページの先頭へ