Swin Transformerの手法概要紹介（1）―TransformerとVision Transformer―

情報通信研究部　小永吉健太

はじめに

Swin Transformerによる物体検出（左：対象画像、右：物体検出結果）

上図はSwin Transformer^[1]というディープラーニングの手法によって物体検出を行った対象画像（左）とその物体検出結果（右）である^*1。手前にいる馬から、奥にいる馬まで、様々な大きさの物体の検出に成功している。

Swin Transformerは、自然言語処理の分野で機械翻訳や文章生成などのタスクにおいて有用性が示されていたTransformer^[2]という手法を、画像認識の分野に応用した手法である。2021年にLiuら^[1]によって提案され、画像内にある物体の位置とクラスを検出する物体検出タスクや、画像をピクセル単位でクラス分類し画像全体をクラス毎の領域に分割するセマンティックセグメンテーションタスクにおいて、既存の画像認識手法を上回る認識精度を達成し、同年、コンピュータビジョン分野で権威のある国際会議の1つであるICCV(International Conference on Computer Vision)でBest Paperにも選出されている。

文章を対象とする自然言語処理分野の技術を、画像を対象とする画像認識分野に適用した成功例として、非常に興味深い技術であると筆者は考えている。本コラムでは、2回に分けてSwin Transformerの概要を紹介する。第1回はSwin TransformerのベースとなったTransformerとVision Transformer^[3]という2つの手法について紹介する。第2回はSwin Transformerの特徴と、Vision Transformerからの改良点について紹介する。

*本コラムでは、読みやすさの観点から「ニューラルネットワーク構造」を単に「ネットワーク構造」と表記する。

Swin Transformerのベースとなった手法

Swin Transformerのベースとなった手法として、TransformerとVision Transformerの2つが挙げられる。Transformerは自然言語処理分野で提案された手法であり、これを画像認識分野に応用したものがVision Transformerである。この2つの手法について紹介する。

Transformer

Transformerが提案される前の2010年、Mikolovら^[4]により、時系列データの予測を目的とするネットワーク構造であるRNN（Recurrent Neural Network、再帰型ニューラルネットワーク）が提案された。文章中の単語の並びを時系列のデータの並びと捉え、自然言語処理にRNNを適用する試みがされる中、以下の課題が指摘された。

1)ある単語の処理を終えるまで、次の単語の処理を開始できないため、並列化が困難
2)単語の並びを逐次的に処理するにしたがい、以前に入力した単語の情報が失われていくため、位置が離れているほど単語間の依存関係の重みが小さくなる

Transformerは自然言語処理を対象とし、上記の課題の解決を図る手法として、2017年にVaswaniら^[2]によって提案された。ネットワークの先頭部に単語の位置情報を埋め込む層を持ち、予め文章中のすべての単語を入力すれば、以降は複数の単語を同時に処理できるため並列化が容易である。また、入力された文章中のすべての単語間の依存関係を獲得する層をネットワーク構造に取り入れ、RNNと比較して離れた位置にある単語間の依存関係が考慮される。

近年、自然言語処理分野の発展は著しく、人間と自然な対話を行うAIチャットボットの登場や翻訳精度の向上がみられる。これらの技術革新には、Transformerのネットワーク構造を応用したBERT（Bidirectional Encoder Representations from Transformers）^[5]やGPT-3（Generative Pre-trained Transformer - 3）^[6]といった、汎用性の高い手法が大きく寄与している。これらの手法では、並列化が容易であるというTransformerの利点を活かし、ネットワークの大規模化による予測精度の向上を実現している。自然言語処理分野では現在も盛んに研究が行われ、次々に最新の手法が提案されていることから、前述のようなAIチャットボットや翻訳技術は今後も発展し続け、一層身近になってくるであろう。

Vision Transformer

Vision Transformerは、入力画像の特徴量を得る手法であり、2021年にDosovitskiyら^[3]によって提案された。画像の特徴抽出のネットワーク構造としてはCNN（Convolutional Neural Network、畳み込みニューラルネットワーク）が良く知られているが、Vision TransformerはCNNを用いずに、自然言語処理を対象としたTransformerのネットワーク構造を応用して特徴抽出を行う。Transformerが単語間の依存関係を学習することと対比し、Vision Transformerでは画像を複数のパッチに分割し、パッチ間の関連度を計算した上で、パッチ毎の特徴量を得る。

Vision Transformerの論文^[3]によると、CNNを用いた既存手法と比べ、学習にかかる時間を75～80%削減しつつ、画像分類のタスクにおいて既存手法と同等以上の分類精度を達成した。また、論文の著者らは、今後の展望として物体検出やセグメンテーションといったタスクにも適用したいと述べている。

おわりに

今回はSwin Transformerのベースとなった手法であるTransformerとVision Transformerという2つの手法について紹介した。Vision Transformerは異分野間での技術の応用によってブレイクスルーを達成している。このような新しい手法の発見のためには、1つの分野に固執するのではなく未知の分野・技術に触れ、その根底にあるロジックを理解しようとする知的好奇心が重要であると筆者は考えている。

今回紹介したVision Transformerは画像分類のタスクにおいて既存手法と同等以上の分類精度を達成していた。Swin Transformerではさらに、Vision Transformerにいくつかの工夫を施すことで、計算量を抑えつつVision Transformerと同等以上の分類精度を達成している^[1]。また、Swin Transformerでは画像分類タスクだけでなく物体検出タスクやセグメンテーションタスクにおいても性能検証が行われている ^[1]。第2回ではSwin Transformerの特徴とVision Transformerからの改良点について紹介する。

*1)物体検出にはSwin Transformerの著者らによって公開されているPython実装を用いている。

参考文献

[1]Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin and Baining Guo. Swin Transformer: Hierarchical Vision Transformer Using Shifted Windows. Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), pages 10012-10022, 2021.
[2]Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser and Illia Polosukhin. Attention Is All You Need. In Advances in Neural Information Processing Systems, pages 5998-6008, 2017.
[3]Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit and Neil Houlsby. An image is worth 16x16 words: Transformers for image recognition at scale. In International Conference on Learning Representations, 2021.
[4]Tomas Mikolov, Martin Karafiat, Lukas Burget, Jan "Honza" Cernocky and Sanjeev Khudanpur. Recurrent neural network based language model. In Interspeech, pages 1045-1048, 2010.
[5]Jacob Devlin, Ming-Wei Chang, Kenton Lee and Kristina Toutanova. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv preprint arXiv:1810.04805, 2019.
[6]Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever and Dario Amodei. Language Models are Few-Shot Learners. Advances in Neural Information Processing Systems, volume 33, pages 1877-1901, 2020.