EVAL.

12 model evaluations across fairness, robustness, calibration axes. 4 fail at least one demographic parity threshold. 1 has accuracy drift over 8% from launch baseline.

A model that passed at launch is a model that's never been re-tested.

EV-006 · fraud-scoring v2.1 DRIFT 8%

Launch AUC 0.84. Current 0.76. Drift onset Aug 2025.

Re-train on recent data, hold v2.1 until baseline restored.