A Comparative Study of High-Recall Real-Time Semantic Segmentation Based on Swift Factorized Network (2019)

https://arxiv.org/pdf/1907.11394.pdf

分類

 Semantic Segmentation

関連研究

・従来のreal-time SSは、軽量base-net+Encoder-Decoderが主流で、精度はDecoderに主に依存していた。

・画素ごとの難易度の違いが課題。Focal lossが1つの解。合成画像を使った学習も主流だが、実写画像でのdomain gapによる精度低下が課題。

・参考として、real-time SSのSOTAはこちら。

 ・2位(real-timeという点で実質1位)が本論文のベースとなったSwiftNet。

https://paperswithcode.com/sota/real-time-semantic-segmentation-on-cityscapes

特徴

・recall rate(取りこぼし)向上のために、以下3つの改良を行った。

1. Loss Function

2. Classifier

3. Decision Rules

 

1. IAL(importance-aware loss)の適用

 ・クラスによってlossへの寄与を変える。

f:id:deconvo:20190804101729p:plain

f:id:deconvo:20190804101907p:plain

f:id:deconvo:20190804101835p:plain

 

2. Graph convolution networkの適用

・グラフ構造でクラス間の相関を表現。

・参考:https://qiita.com/tktktks10/items/98d21133cf3e121676c3

f:id:deconvo:20190804104830p:plain

f:id:deconvo:20190804104949p:plain

 

3. 最尤推定の適用

・最終層のsoftmaxを最尤推定にし、学習データから算出した検出位置のprior(確率分布)を加える。

f:id:deconvo:20190804102631p:plain

図:prior;p(x)の可視化

f:id:deconvo:20190804102737p:plain

ネットワーク構造

・Swift Factorized Network (SFN):U-Net構造で、Decorderに工夫。

f:id:deconvo:20190804101231p:plain

上図の'UP'(Upsampling Decoder Block)の詳細

 実験結果の通り、early mergingの方が精度が高い。

f:id:deconvo:20190804101429p:plain

 

実験

・NVDIA GeForce GTX 1080Ti

・'768×768 crops for Cityscapes, and 448×448 crops for CamVid'

f:id:deconvo:20190804102255p:plain

実装

・著者tensorflow実装

https://github.com/Katexiang/swiftnet/tree/master/Swift_Factorized_Network(SFN)