Using Self-Supervised Learning Can Improve Model Robustness and Uncertainty (2019)

https://arxiv.org/pdf/1906.12340.pdf

分類

 Adversarial Defences

特徴

教師なし学習による、adversarial examples, label corruptionへのロバスト性改善。

アルゴリズム

・PGD training[1]の改良。

f:id:deconvo:20190706110235p:plain

f:id:deconvo:20190706110444p:plain

 

f:id:deconvo:20190706110542p:plain

・ 入力画像に0°, 90°,180°, and 270の回転を与える。

・分類用NNの最後から二番目を分岐し4出力soft-maxとし、上記回転を推定する。

・これを self-supervised lossと呼び、教師データを増やさないロバスト性改善を行う。

・回転を採用したのは、先行例[2]による。

[1]Aleksander Madry, Aleksandar Makelov, Ludwig Schmidt, Dimitris Tsipras, and Adrian Vladu. Towards deep learning models resistant to adversarial attacks. ICLR, 2018.

[2]Spyros Gidaris, Praveer Singh, and Nikos Komodakis. Unsupervised representation learning by predicting image rotations. In International Conference on Learning Representations, 2018.

ネットワーク構造

 掲載されていない。

実験

1. Adversarial Perturbations

・CIFAR-10-C validation dataset

・40-2 Wide Residual Networks

・SPSA[3]によるadversarial attack。

f:id:deconvo:20190706112547p:plain

[3]Jonathan Uesato, Brendan O’Donoghue, Aaron van den Oord, and Pushmeet Kohli. Adversarial risk and the dangers of evaluating against weak attacks. arXiv preprint arXiv:1802.05666, 2018.

2. Common Corruptions

・15shot noise, zoom blur, snow, and JPEG compression, etc.

f:id:deconvo:20190706112830p:plain

3. Label Corruptions

・Gold Loss Correction[4]との比較。

f:id:deconvo:20190706113205p:plain

[4]Dan Hendrycks, Mantas Mazeika, Duncan Wilson, and Kevin Gimpel. Using trusted data to train deep networks on labels corrupted by severe noise. NeurIPS, 2018.

実装

・著者PyTorch実装

https://github.com/hendrycks/ss-ood