https://arxiv.org/pdf/1907.11394.pdf
分類
Semantic Segmentation
関連研究
・従来のreal-time SSは、軽量base-net+Encoder-Decoderが主流で、精度はDecoderに主に依存していた。
・画素ごとの難易度の違いが課題。Focal lossが1つの解。合成画像を使った学習も主流だが、実写画像でのdomain gapによる精度低下が課題。
・参考として、real-time SSのSOTAはこちら。
・2位(real-timeという点で実質1位)が本論文のベースとなったSwiftNet。
https://paperswithcode.com/sota/real-time-semantic-segmentation-on-cityscapes
特徴
・recall rate(取りこぼし)向上のために、以下3つの改良を行った。
1. Loss Function
2. Classifier
3. Decision Rules
1. IAL(importance-aware loss)の適用
・クラスによってlossへの寄与を変える。
2. Graph convolution networkの適用
・グラフ構造でクラス間の相関を表現。
・参考:https://qiita.com/tktktks10/items/98d21133cf3e121676c3
3. 最尤推定の適用
・最終層のsoftmaxを最尤推定にし、学習データから算出した検出位置のprior(確率分布)を加える。
図:prior;p(x)の可視化
ネットワーク構造
・Swift Factorized Network (SFN):U-Net構造で、Decorderに工夫。
上図の'UP'(Upsampling Decoder Block)の詳細
実験結果の通り、early mergingの方が精度が高い。
実験
・NVDIA GeForce GTX 1080Ti
・'768×768 crops for Cityscapes, and 448×448 crops for CamVid'
実装
・著者tensorflow実装
https://github.com/Katexiang/swiftnet/tree/master/Swift_Factorized_Network(SFN)