CS5720 - Xavier/Glorot Initialization

The Mathematical Foundation

Xavier Normal:

W ~ N(0, σ²) where σ = √(2/(n_in + n_out))

Core Principle:

Xavier initialization maintains the variance of activations and gradients approximately equal across all layers. This prevents signal degradation in deep networks.

Key Assumptions:

Activations are linear around zero
Weights and inputs are independent
Inputs have zero mean
Network uses tanh or sigmoid activation

Variance Flow Visualization

Input Var = 1.00

→ → →

Output Var = 1.00

Fan In: 256

Fan Out: 128

Xavier Initialization Methods

Xavier Normal

W ~ N(0, 2/(n_in + n_out))

✓ Gaussian distribution
✓ Most common choice
✓ Smooth weight values
✓ No hard boundaries

Xavier Uniform

W ~ U[-√(6/(n_in+n_out)), √(6/(n_in+n_out))]

✓ Uniform distribution
✓ Bounded values
✓ Equal probability
✓ Original paper method

Modal Title

Xavier/Glorot Initialization

The Mathematical Foundation

Core Principle:

Key Assumptions:

Variance Flow Visualization

Xavier Initialization Methods