情報通信研究部 コンサルタント 加田 匠
深層学習による航空写真の水域分類(続き)
学習用データとして、800枚の航空写真、および、航空写真に対応して水域部分をマスキングした正解画像を使用した。さらに、航空写真と正解画像の双方を90度、180度、270度回転させた画像を学習用データに加え、データ数を4倍に拡張した。
評価用データとして石狩川周辺の147枚の航空写真を用い、学習したモデルに入力して水域分類をおこない、正解画像との比較により性能を評価した。評価用データの航空写真は国土地理院が提供する「電子国土基本図(オルソ画像)(2007年~)」*6を、評価用データの正解画像は「川だけ地形地図」*7を使用した。ともにタイル画像としてデータが公開されており、タイル座標とズームレベルをURLに組み込むことで、指定した領域のデータをダウンロードすることが可能である。本レポートでは、タイル画像の拡大率を表すズームレベルを14に設定(地図を2の14乗四方に分割)し、石狩川周辺の航空写真および正解画像147枚をそれぞれダウンロードした。評価用データの例を図表3に示す。左が航空写真であり、右の正解画像の水色の部分が航空写真に対応した水域を表す。
図表3 評価用データの例

(資料)国土地理院 電子国土基本図、川だけ地形地図
U-Netに評価用データの航空写真を入力し、各ピクセルが水域である確率を出力した後に、確率が0.5以上のものを水域、0.5未満を水域以外と判定した。この判定結果と正解画像とをピクセル単位で比較し、正解・不正解を求め、その正解率を性能評価の指標とした。なお、本レポートでは正解率を指標としたが、評価用データの水域の面積比率が高い(低い)場合に、入力画像に関わらず全ピクセルを水域(水域以外)と予測する誤ったモデルであっても正解率が高くなってしまうため、実際には、再現率、特異度等の指標も考慮する必要がある。
性能評価の結果、147枚の正解率は平均で84.4%を示した。図表4に正解率90%以上の事例を、図表5に正解率90%未満の事例を紹介する。図表4、図表5とも、上段が評価用データの航空写真、中段が正解画像、下段がU-Netによる予測結果と正解率である。
図表4の右2つの事例では、2章の色味による水域自動判読では誤判定となった河川の色味が異なる場合においても、河川の形状が正しく認識され、正解率が90%以上となった。一方、正解率の低い図表5の事例では、評価用データの中で相対的に川幅が狭い航空写真に対して水域を正しく認識できなかった。一般的に、河川の上流・下流では川幅が異なる他、航空写真のズームレベルによっても川幅は異なるため、精度の向上に向けては、このようなスケールの違いに対応することが必要と考えられる。
図表4 U-Netの予測結果(正解率90%以上の事例)

(資料)みずほリサーチ&テクノロジーズ作成
図表5 U-Netの予測結果(正解率90%未満の事例)

(資料)みずほリサーチ&テクノロジーズ作成
本レポートで紹介する事例は一定の時間的制約の中でおこなった試行であり、精度向上に向けての検討が充分とは言えない。実運用に向けては、機械学習や画像処理に関する工夫を加えることにより、精度を向上させる必要があると考えている。機械学習の観点では、
- 河川の様々な形状や色味に対して正しく分類できるよう、学習に用いる航空写真の質と量を増やす。
- 分類精度が川幅の太さに依存しないよう、拡大・縮小に関するデータ拡張を適用する。
- 同じく、分類精度が川幅の太さに依存しないよう、CNNのモデルを検討する。例えば、DeepLabv3+*8、AWMF-CNN*9等のモデルが候補となる。
- 河川特有の時間変化の特性を利用することで精度が向上する可能性があるため、時系列のデータを学習に用いる。その際には、モデルの検討も必要となる。
等が考えられ、古典的な画像処理技術との組み合わせの観点では、
- 時系列の過去の判定結果を参照し、各ピクセルの水域の確率計算に盛り込む。
- エッジや平滑度等の特徴量を機械学習の入力に追加する、または、画像処理と機械学習の判定結果とを組み合わせて判定する。
- 各ピクセルの判定結果に対し、微小領域や孤立領域を削除する。
等が考えられる。
本章では、機械学習を用い航空写真からの水域と水域以外の2分類を試みた。まずは、この2分類の精度向上が前提とはなるが、その先として、①水域(河道内)、②植生、③岩・砂州等、④堤防の4つのクラスター(土地条件)への分類や、河川周辺以外を対象とした汎用的な分類、さらには、時系列のデータ解析による河道変遷の分析をおこなう等、より有用性の高い情報を自動で取得するための技術開発に取り組んでいきたい。衛星画像に対する分類を自動化することができれば、地球規模で有用性の高い情報を得ることも可能となる。
まとめ
本レポートでは、治水対策の前提となる河川周辺の現状把握の効率化を目的として、河川周辺の航空写真から、機械学習による自動での水域分類を試行した事例を紹介した。
第2章では、各ピクセルの色味のみで判定をおこなう手法での判定精度を確認した。第3章では、各ピクセルの色味だけではなく周辺のピクセルの色味も考慮可能な、深層学習モデルであるU-Netを用い、判定精度を確認した。河川の形状や周囲との関係性を含めて学習・推定することで、第2章で誤判定となった河川等の色味の変化に対する頑健性が向上した。
本レポートで紹介した事例は、あくまでも基礎的なものであり、決して高い分類精度とは言えない結果であったが、精度向上に向けて考慮すべき事項のヒントが得られた。また、衛星やドローン等、航空写真以外の様々な種類の画像を利用することで、目的に応じた様々な範囲、様々な分解能での土地分類が可能になっていくものと期待される。
画像認識における深層学習の大きな強みは、学習用データを用意することができれば、水域分類のような特定の目的を意識することなく、学習用データに適応して分類ロジックが自動的に学習される点にある。実際、防犯、医療、商業、観光など、様々な分野において深層学習を用いての画像からの自動分類に関する研究や実用化が進んでいる。ただし、いずれの分野においても、実用に耐えうる高い分類精度を得るためには、一般的に充分な質と量の学習データが必要である。また、適切な前処理やネットワーク構造を選択し、パラメータチューニングが必要となることも多い。
当社では、人の助けとなるべく、画像処理や深層学習等のAI技術の研究・開発に、引き続き取り組んでいきたい。
謝辞
2章で紹介した事例は、国立研究開発法人土木研究所寒地土木研究所から提供されたデータを使用しております。同研究所に深い謝意を表します。
注
- *1)https://www.mlit.go.jp/river/pamphlet_jirei/kasen/gaiyou/panf/gaiyou2007/pdf/c1-1.pdf(PDF/623KB)
- *2)https://www.jma.go.jp/jma/kishou/books/hakusho/2020/index1.html
- *3)https://www.data.jma.go.jp/obd/stats/data/bosai/report/2020/20200811/20200811.html
- *4)https://www.gsi.go.jp/common/000228103.pdf(PDF/239KB)
- *5)Ronneberger, Olaf, Philipp Fischer, and ThomasBrox.“U-net: Convolutional networks for biomedicalimage segmentation.” International Conferenceon Medical image computing and computerassistedintervention. Springer, Cham, 2015.
- *6)https://maps.gsi.go.jp/development/ichiran.html#ort
- *7)https://www.gridscapes.net/
- *8)Chen, Liang-Chieh, et al. "Encoder-decoder with atrous separable convolution for semantic image segmentation." Proceedings of the European conference on computer vision (ECCV). 2018.
- *9)Tokunaga, Hiroki, et al. “ Adaptive weighting multi-field-of-view CNN for semantic segmentation in pathology.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019.
本レポートは当部の取引先配布資料として作成しております。本稿におけるありうる誤りはすべて筆者個人に属します。
レポートに掲載されているあらゆる内容の無断転載・複製を禁じます。全ての内容は日本の著作権法及び国際条約により保護されています。