Walk-forward、OOS、Deflated Sharpe 与 PBO:真正有用的过拟合控制

在这里真正干活的控制是:窗口内选择的 walk-forward 门槛、自助法置信区间、集中度检查与参数稳定性证据。Deflated Sharpe 与 PBO 在规格里被列为验收标准但刻意推迟实现——把这一点说清楚,本身就是方法论的一部分。

一份诚实的清单

Deflated Sharpe Ratio 与 PBO 在本档案的规格中以 required_if_feasible 的身份出现。截至撰写本文,它们已写入规格、尚未实现——真正运行过、也真正抓住过问题的,是更朴素的几样:

控制起作用的两个实例

**抓住一次失败。**日频统计套利管线跑了 3 年训练 / 1 年验证 / 1 年测试、每 6 个月滚动一次的 walk-forward——共 10 个窗口。结论:FAIL。OOS 夏普 −1.67(门槛 1.2)、OOS 年化 −5.6%、最大回撤 −30.5%、10 个窗口 0 个为正。同一配置的单次全样本回测看起来是可行的;暴露问题的正是 walk-forward 结构本身。

**一次赢得信任的通过。**宏观衰退叠加在 2006–2026 共 21 个扩张窗口的样本外年份里逐年重新校准阈值,选出的参数几乎不动:防御阈值 21 年中 14 年取 0.6、其余取 0.5;进攻阈值 21 年完全一致。样本内到样本外的夏普衰减为 −0.006(0.593 → 0.586)。同样重要的是:搜索空间只有 20 个组合,不是 20,000 个。一个小而预先承诺的网格本身就是过拟合控制——可供过拟合的自由度更少。

为什么著名统计量被推迟

DSR 与 PBO 修正的是搜索广度——当搜索巨大且选择自动化时最重要。这些项目目前的设计在更上游攻击同一风险:网格保持小、在窗口内选择、要求自助法置信区间与集中度检查双双过关、把参数漂移当作红旗。计划仍然是把 DSR/PBO 作为最后一层验收加上——但在它们真正跑起来之前就声称拥有它们,恰恰是这套方法论其余部分要防止的那种夸大。

教训

过拟合控制是预算,不是清单。先把钱花在结构性的控制上——样本外纪律与诚实的搜索空间——因为没有任何在无约束搜索之后计算的统计量,能把已经摇过的铃完全摇回去。