https://arxiv.org/pdf/1906.12340.pdf
分類
Adversarial Defences
特徴
・教師なし学習による、adversarial examples, label corruptionへのロバスト性改善。
アルゴリズム
・PGD training[1]の改良。
↓
・ 入力画像に0°, 90°,180°, and 270の回転を与える。
・分類用NNの最後から二番目を分岐し4出力soft-maxとし、上記回転を推定する。
・これを self-supervised lossと呼び、教師データを増やさないロバスト性改善を行う。
・回転を採用したのは、先行例[2]による。
[1]Aleksander Madry, Aleksandar Makelov, Ludwig Schmidt, Dimitris Tsipras, and Adrian Vladu. Towards deep learning models resistant to adversarial attacks. ICLR, 2018.
[2]Spyros Gidaris, Praveer Singh, and Nikos Komodakis. Unsupervised representation learning by predicting image rotations. In International Conference on Learning Representations, 2018.
ネットワーク構造
掲載されていない。
実験
1. Adversarial Perturbations
・CIFAR-10-C validation dataset
・40-2 Wide Residual Networks
・SPSA[3]によるadversarial attack。
[3]Jonathan Uesato, Brendan O’Donoghue, Aaron van den Oord, and Pushmeet Kohli. Adversarial risk and the dangers of evaluating against weak attacks. arXiv preprint arXiv:1802.05666, 2018.
2. Common Corruptions
・15shot noise, zoom blur, snow, and JPEG compression, etc.
・
3. Label Corruptions
・Gold Loss Correction[4]との比較。
[4]Dan Hendrycks, Mantas Mazeika, Duncan Wilson, and Kevin Gimpel. Using trusted data to train deep networks on labels corrupted by severe noise. NeurIPS, 2018.
実装
・著者PyTorch実装