CS5720 - Adversarial Training and Defense

Adversarial Attack Types

Adversarial attacks are carefully crafted inputs designed to fool neural networks into making incorrect predictions, often imperceptible to humans.

⚡

FGSM Attack

Fast Gradient Sign Method - single-step attacks using gradients
🎯

PGD Attack

Projected Gradient Descent - iterative optimization attacks
🔧

C&W Attack

Carlini & Wagner - sophisticated optimization-based attacks

⚠️ Attack Impact:

Even tiny perturbations can cause 99%+ accurate models to fail catastrophically on adversarial examples.

Defense Strategies

🛡️

Adversarial Training

Train on both clean and adversarial examples
🔍

Attack Detection

Identify adversarial inputs before processing
✅

Certified Defense

Mathematical guarantees against certain attacks
🔄

Input Preprocessing

Transform inputs to remove adversarial perturbations

Adversarial Training Process

Generate Attacks

Create adversarial examples using attack algorithms

Augment Dataset

Mix clean and adversarial examples in training data

Robust Training

Train model to handle both types of inputs

Robustness Testing

Evaluate against various attack methods

Adversarial Training and Defense

Adversarial Attack Types

Defense Strategies

Adversarial Training Process

Modal Title