ページの先頭です

技術動向レポート

「寄り道検索」が導く新発想

関連語辞書の自動生成技術の研究開発(1/3)

情報通信研究部 チーフコンサルタント 山泉 貴之

同義語・類義語よりも緩やかな関係を持つ単語の組の集合である関連語辞書の自動生成手法について検討した。関連語辞書によって「寄り道検索」、すなわちユーザが思いつく範囲を超えた情報へ到達するための検索モデルを実現できる。

1.はじめに

スマートフォンまたはパソコン等でのインターネットの利用が日常的となっている現在では(1)、ユーザがスマートフォンまたはパソコン等の検索画面で単語を入力するといくつかの検索結果が表示され、その検索結果の中から知りたい情報にアクセスすることが日常的に行われている。また、それらの検索結果の中には指定した単語と同じまたは類似の意味を持つ単語が含まれることもある。

しかしながら、既存の情報検索システムにおいてはその検索結果が実際に検索を行ったユーザが知りたい情報と異なる場合には、

  • ユーザ自らが別の単語を指定して検索をやり直す。
  • 情報検索システムが過去の検索履歴(誤入力やスペリングの間違い)をもとに検索語の候補を提示し、その中からユーザ自らが単語を選択して検索するよう促す。

という手段によって再検索する必要があるため、過去の検索履歴から提示された検索語の候補の中に知りたい情報に関係する単語がない場合や、知りたい情報に関係する単語が思い浮かばない場合には、知りたい情報に到達することが難しいことがある。

そこで、ユーザが真に知りたい情報に到達するまで自力で考えた単語を指定して検索を繰り返し実行する情報検索モデル(以下、「調べもの検索」と記す。)とは異なる新しい情報検索モデルとして、最初に指定した単語をもとにして情報検索エンジンが関連する単語をユーザに代わってその候補を広く提示してユーザに選択を促す等の方法でユーザを新しい情報に到達させる情報検索モデル(以下、「寄り道検索」と記す。)を考える。例えば、「調べもの検索」では最初に「キャベツ」で検索を行っても、「夏野菜についての一般的な情報」を得ることは(「夏野菜」という単語を思いつかない限り、)困難であるが、「寄り道検索」の場合は、「キャベツ」の関連語として「ズッキーニ」→「夏野菜」のように検索語の候補をユーザに代わって考えて提示することで、「夏野菜についての一般的な情報」を得ることができる。これは、ユーザが真に必要な情報が最初に思い付いた「キャベツ」ではなく、「夏野菜についての一般的な情報」であった場合にはユーザの真のニーズを満足させることができるものである(図表1)。

本稿では上記の寄り道検索の実現のために必要な技術として同義語及び類義語よりも緩やかな関係を持つ単語の組の集合である関連語辞書に着目し、寄り道検索に利用できる関連語辞書を低コストで生成する手法について検討する。次に、関連語辞書を利用した寄り道検索の実現の可能性、及び寄り道検索によって開拓可能なマーケットについてもあわせて考察する。


図表1 「調べもの検索」及び「寄り道検索」における同義語・類義語辞書並びに関連語辞書の利用イメージ
図表1

  1. (資料)みずほ情報総研作成

2.調べもの検索と同義語・類義語辞書

(1)情報検索システム等における同義語・類義語辞書の役割

最初に、関連語辞書よりも厳しい条件の単語の組の集合から構成されると考えられる同義語・類義語辞書について考察する。

ユーザが情報検索システムなどを利用して必要な情報を得る場合、ユーザが真に求める情報へ誘導するための手段として、検索の結果とともに同義語および類義語(2)を提示する機能を持つ情報検索システムが日常的に利用されている。同義語や類義語の提示は単語間の関係を定義するためのデータを検索システム等が保持することにより実現される。

情報検索システム内においては、同義語・類義語辞書は以下の用途に利用されていて、必要な情報への到達性の向上に寄与している(図表2)。

  • 検索語の送り仮名やかな漢字、外来語などの表記の揺れへの対応(例:「借り入れ」=「借入」、「猫」=「ネコ」、「ベネチア」=「ヴェネチア」)。特に同義語については同義語の集合に対してそれを代表する単語を定義することで、検索エンジン内部における語彙の正規化が可能となる(図表2(a))。
  • 検索語として指定された語に対する検索結果の他に同義語・類義語の検索結果もまとめて取得して、ユーザに提示する(例:「百貨店」=「デパート」)(図表2(b))。
  • 検索語に誤字・脱字が含まれると考えられる場合には、単語として正しいと考えられる検索語を推定またはユーザに提示して選択を促すことで、検索語に対応する情報を得る(例:「パンタ」→「パンダ」)。

同義語・類義語辞書を情報検索システムに組み込むことにより、ユーザにとって必要と思われる同義語・類義語を検索結果とともに提示できるため、最短の検索回数で目的の情報に到達することを可能とする検索、すなわち調べもの検索を行う情報検索システムを構築することができる。

また、同義語・類義語辞書は、情報検索システム以外のコンピュータシステムにおける日本語の自然言語処理においても、以下の用途等に利用されている。

  • コンピュータ上における文書作成の基本となるかな漢字変換の際の変換候補(入力されたかなに対応する漢字かな混じりの語句等)の提示。
  • 上記のかな漢字変換の際の変換候補への類義語の提示(3)。なお、提示される類義語は入力されたかなとは読みが異なっていてもよい(例:「パンタ」→「パンダ」または「パンタグラフ」)。

図表2 情報検索システムにおける同義語・類義語辞書の利用イメージ
図表2

  1. (資料)みずほ情報総研作成

(2)調べもの検索についての課題

調べもの検索モデルの情報検索システムは日常的に利用されている反面、情報検索システム全体としては以下の課題を内包している。

[1] 検索語の再検討に伴うユーザ体験の低下

情報検索システムを利用するユーザの視点から見た場合、ユーザが最初に指定した検索語そのものが適切でなかった場合には、同義語・類義語辞書による検索語の再選択によって検索を繰り返しても目的の情報にたどり着くことが難しい。適切な検索語を用いた検索が実行されるまでの間、検索語そのものの再検討が繰り返し必要になることで引き起こされるユーザ体験の低下への対処が課題となっている。

[2] 同義語・類義語の判定に伴うコスト

情報検索システムを含むコンピュータシステムにおける上記の用途に使用可能な同義語・類義語辞書を構築するためには、2つの異なる単語を同義語・類義語とすべきか否かの判断が必要となる。しかし、その判断を客観的に行い、かつ完成度の高い辞書を作り上げるためには高度な国語学及び言語学の専門的な知識に基づく判断が必要であることが課題である。

(3)情報検索システムそのものの高度化についての研究の動向

同義語・類義語辞書を用いたコンピュータシステムにここまでに概観したユーザ体験及び辞書の構築時についての潜在的な課題がある一方で、情報検索システムの高度化のための研究(4)等を通して、データを組み合わせて新たな価値を創造することの重要性が指摘されている。もっとも単純かつ直観的なデータの組み合わせの方法として、2つの異なる単語を何らかの基準により結びつける方法が考えられるが、これは辞書を作成する作業に他ならないものである。

  • 本レポートは当部の取引先配布資料として作成しております。本稿におけるありうる誤りはすべて筆者個人に属します。
  • レポートに掲載されているあらゆる内容の無断転載・複製を禁じます。全ての内容は日本の著作権法及び国際条約により保護されています。
ページの先頭へ