みずほリサーチ&テクノロジーズ
情報通信研究部 玉垣 勇樹
環境エネルギー第1部 森 涼子、井上 知也
- *本稿は、『産業洗浄』No.28(日本産業洗浄協議会、2021年11月発行)に掲載されたものを、同編集部の承諾のもと掲載しております。
今後のMI活用の展望
MI活用に向けた注目技術であるAIの理解のために、参考としてMIを想定したAIによる予測モデル開発の一般的な流れなどについて概説する。
5.1.AIによる予測モデル開発
MI分野におけるAI、特に機械学習手法を活用した(Q)SURや(Q)SARなどの予測モデル開発の手順と予測精度向上のポイントを紹介する。
(1)予測モデル開発の手順
①データの準備
機械学習のようなデータ駆動型AIでは、データの量と質が予測モデルの性能に大きな影響を与えるため、これに配慮して学習に用いるデータを準備する。
既存のデータベースの情報のみではデータ量が不十分な場合、論文や特許といった非構造化データからデータを収集するなどの手段も考えられる。また、準備したデータについて、化学構造の表記が正しいか、誤った情報が紐づけられていないかなどを専門人材により精査することが望ましい。
②化学構造からの特徴量抽出
SMILES(Simplified Molecular Input Line Entry System)やMOL fileなどの化学構造からモデル化に適した特徴を抽出する。抽出した特徴をベクトル化したものを「特徴量」と呼ぶ。特徴量の例としては、部分化学構造の有無を1、0で表したベクトルや構造記述子と呼ばれる自己相関関数などにより構造をベクトル表現にしたものがある。別の予測モデルにより算出されたパラメータ(例:沸点、融点、logPowの予測値)も特徴量の1つとなり得る。
③予測モデルの構築
「予測モデル」は、抽出した特徴量を入力として、予測対象の予測結果を出力する計算モデルであり、予測対象が数値の場合は回帰モデル、階級や分類などのクラスの場合は判別モデルと呼ばれる。入力となる特徴量、および、出力となる予測結果の正解値の2つをセットにした多数の学習データを予測モデルに与え、予測モデルの内部パラメータを最適化する作業を「学習」と呼ぶ。具体的なアルゴリズムとしては、サポートベクターマシン(Support Vector Machine、SVM)や分類木などが挙げられる。
未知のデータに対する予測性能を表す汎化性能を高めたい場合には、複数の予測モデルを構築し、それぞれの推論結果を多数決や平均などの方法により統合して判断を行う。これは、アンサンブル学習と呼ばれる手法で、中でもRandomForestやLightGBMといったツリー系のアンサンブル学習では、どの特徴量がどの程度予測モデルに寄与していたのかを予測モデル構築後に判別することができるため、構築した予測モデルの説明性や新しい材料の開発に対する考察の一助となる。例えば、溶解度や凝固点などの物理化学パラメータがモデルに対して高い寄与度を示した場合、これらの特徴量の組み合わせが予測結果に強く影響することを表し、材料開発の方向性を決める検討材料となる。
④モデルの適用範囲
現状、あらゆる物質に対して十分な精度の予測結果が得られる予測モデルの構築は困難であり、現実的には特定の構造範囲内で一定程度の予測性能が得られる予測モデルとならざるを得ない。そのため、予測モデルを構築した上で、その予測モデルを適用可能な入力物質の範囲を表す「モデルの適用範囲(Applicability Domain、AD)」を設定する。OECD5原則においても、化学物質の安全性の規制評価に予測モデルを利用する際のAD設定の必要性が記載されている*38。一般的に、ADは予測モデルの構築に利用した学習データの構造範囲よりも狭い。
予測モデルを用いて予測をおこなう場合には、対象の物質がADの範囲内かどうかを確認することが必須であり、特に、化学構造や物理化学的性状が千差万別である一般工業用化学物質では注意を要する。
⑤予測精度の評価
「positive」と「negative」に分類する二値分類問題の場合、予測モデルの予測性能はBalanced Accuracy(BA)やReceiver Operating Characteristic(ROC)曲線のArea Under the Curve(AUC)などの評価指標を活用して計算されることが多いが、十分な予測性能と判断できる閾値についての明確な基準はない。目的にも拠るが、おおよそBAが0.8を超えれば及第点というのが一般的な見方である。
ADとBAはトレードオフの関係にある。ADを縮小するとBAは向上し、ADを拡大するとBAは低下する。モデルの性能向上に際しては、ADとBAの双方の値を確認しつつ、データの質や量の向上、特徴量の最適化などをおこなうことが必要となる。
(2)予測精度向上のポイント
①前処理
機械学習においては、特定の情報(次元)に偏った予測モデルとなってしまうことを防ぐため、学習手法に合わせたデータ加工(前処理)をおこなうケースが多い。前処理が不適切な場合、学習が正常に進まない、学習速度・精度が低下するなどの問題が発生することがある。データや学習手法の特性を深く理解し、適切な前処理を選択することが重要である。
②パラメーターチューニング
多くの学習手法には事前に設定する調整可能なパラメータ(ハイパーパラメータ)が存在し、予測性能に影響を与える。ハイパーパラメータは、ランダムサーチやグリッドサーチ、ベイズ最適化といった方法によって最適な値を探索する必要がある。
③汎化性能
学習に用いたデータに過剰に適合してしまい、学習に用いたデータに対する予測精度は高いものの、それ以外のデータに対しての予測精度が低い、過学習(Overfitting)とよばれる状態に陥ることがある。過学習を避けるためには、学習に用いていない未知のデータに対する予測精度である汎化性能を評価することが必要である。
5.2.入門書の紹介
最後に、AIの変遷や基本的な仕組みについて解説した書籍を紹介する。より詳しくAIについて知りたい読者は、是非ご一読いただきたい。
- Newtonライト2.0「人工知能」*39
AIの歴史、定義、基礎的な仕組み、注目された出来事、様々な分野での活用事例、将来展望について、豊富なイラストを使って視覚的に理解しやすく記述されている。 - 人工知能が変える仕事の未来<新版>*40
AIによって各業種の仕事がどのように変化していくかについて考察している。AIへの期待と課題(限界)の理解の助けとなり、AIとの付き合い方についても触れている。
参考文献
- *1)成長戦略フォローアップ(令和3年6月18日閣議決定)
- *2)内閣府、統合イノベーション戦略(2021)
- *3)統合イノベーション戦略推進会議マテリアル革新力強化戦略(2021)
- *4)化学工業日報(2021年6月8日版)
- *5)Y. Mo, et al., Chem. Mat., 24(1),15-17 (2012).
- *6)J.J. de Pablo, et al., npj Comput. Mater., 5, 41 (2019).
- *7)G. Khaira, et al., Macromolecules, 50(19), 7783-7793 (2017).
- *8)T.H. Kim, et al. Nature, 533, 68-72 (2016).
- *9)R. Gomez-Bombarelli, et al. Nature materials, 15(10), 1120-1127 (2016).
- *10)Corteva Agriscienceプレスリリース(2016年4月6日)
- *11)ダウ・ケミカルプレスリリース(2017年6月21日)
- *12)C. Draxl, et al. J. Phys. Mater., 2(3), 036001 (2019).
- *13)S.P. Huber, et al. Scientific data, 7, 300 (2020).
- *14)BASFプレスリリース(2017年3月17日)
- *15)BASFプレスリリース(2018年6月21日)
- *16)S.U. Yanjing, et al. Acta. Metall. Sin., 56(10), 1313-1323 (2020).
- *17)Z.H. Shen, et al. Nat. Commun., 10(1), 1843 (2019).
- *18)S. O'Meara. Nature, 567, S1-S5 (2019).
- *19)K.A. Phillips, et al., Green Chem., 19, 1063-1074 (2017).
- *20)A.J. Williams, et al. J. Cheminform., (9), 61 (2017).
- *21)T. Yoshida, et al. J. Phys. Chem. C, 123(23), 14126-14131 (2019).
- *22)T. Fukazawa, et al. Phys. Rev. Materials, 3(5), 053807 (2019).
- *23)源聡ら. Materia Japan 58(9), 511-514 (2019).
- *24)三井化学プレスリリース(2021年6月28日)
- *25)刑部好弘, 淺原彰規. DICOMO2021, 540-546.
- *26)日刊工業新聞(2020年10月2日)
- *27)環境省, 令和元年度化学物質のフロー及びストックに関する情報収集・検討業務報告書 (2020).
- *28)環境省, 令和2年度化学物質のフロー及びストックと化審法に基づく環境排出量推計手法検討業務報告書 (2021).
- *29)化学工業日報(2021年3月25日)
- *30)日刊工業新聞(2021年5月7日)
- *31)R. Huang, et al. Front. Environ. Sci., 3, 85 (2016).
- *32)創薬支援インフォマティクスシステム構築事業 研究課題評価委員会「創薬支援推進事業『創薬支援インフォマティクスシステム構築』研究課題評価(令和元年度実施)事後評価報告書」(2020).
- *33)H. Komura, et al. Drug Discov. Today, 26(5), 1275-1283 (2021).
- *34)経済産業省, 平成31年度省エネ型電子デバイス材料の評価技術の開発事業(機能性材料の社会実装を支える高速・高効率な安全性評価技術の開発)調査報告書 (2020).
- *35)河野禎一郎, 化学と工業, 73(11), 845-846 (2020).
- *36)化学工業日報(2020年12月19日)
- *37)日刊工業新聞(2020年1月14日)
- *38)OECD principles for the Varidation, for Regulatory Purpose, of (Q)SAR Models (2004).
- *39)Newtonライト2.0「人工知能」, ニュートンプレス (2020).
- *40)野村直之, 人工知能が変える仕事の未来[新版], 日経ビジネス人文庫 (2020).