Walk-forward、OOS、Deflated Sharpe 与 PBO:真正有用的过拟合控制
在这里真正干活的控制是:窗口内选择的 walk-forward 门槛、自助法置信区间、集中度检查与参数稳定性证据。Deflated Sharpe 与 PBO 在规格里被列为验收标准但刻意推迟实现——把这一点说清楚,本身就是方法论的一部分。
一份诚实的清单
Deflated Sharpe Ratio 与 PBO 在本档案的规格中以 required_if_feasible 的身份出现。截至撰写本文,它们已写入规格、尚未实现——真正运行过、也真正抓住过问题的,是更朴素的几样:
- **窗口内选择的 walk-forward。**候选筛选必须发生在每个 walk-forward 窗口内部;先在全样本上排名再切窗口是被禁止的(只允许作为明确标注的探索)。门槛要求 ≥60% 窗口为正、OOS 期望中位数大于零。
- **自助法置信区间。**1,000 次交易级重抽样(另有按月分块的变体以尊重聚集性);验收门槛设在置信区间的下界上,而不是均值上。
- **集中度检查。**单笔交易对总盈亏的贡献 ≤30%,且剔除前 1% 交易后结果仍须为正。靠两个幸运日撑起来的策略过不了这关。
- **参数稳定性证据。**跨窗口重新估计的参数保持稳定,被视为反过拟合的正面证据,而不仅仅是“没有失败”。
控制起作用的两个实例
**抓住一次失败。**日频统计套利管线跑了 3 年训练 / 1 年验证 / 1 年测试、每 6 个月滚动一次的 walk-forward——共 10 个窗口。结论:FAIL。OOS 夏普 −1.67(门槛 1.2)、OOS 年化 −5.6%、最大回撤 −30.5%、10 个窗口 0 个为正。同一配置的单次全样本回测看起来是可行的;暴露问题的正是 walk-forward 结构本身。
**一次赢得信任的通过。**宏观衰退叠加在 2006–2026 共 21 个扩张窗口的样本外年份里逐年重新校准阈值,选出的参数几乎不动:防御阈值 21 年中 14 年取 0.6、其余取 0.5;进攻阈值 21 年完全一致。样本内到样本外的夏普衰减为 −0.006(0.593 → 0.586)。同样重要的是:搜索空间只有 20 个组合,不是 20,000 个。一个小而预先承诺的网格本身就是过拟合控制——可供过拟合的自由度更少。
为什么著名统计量被推迟
DSR 与 PBO 修正的是搜索广度——当搜索巨大且选择自动化时最重要。这些项目目前的设计在更上游攻击同一风险:网格保持小、在窗口内选择、要求自助法置信区间与集中度检查双双过关、把参数漂移当作红旗。计划仍然是把 DSR/PBO 作为最后一层验收加上——但在它们真正跑起来之前就声称拥有它们,恰恰是这套方法论其余部分要防止的那种夸大。
教训
过拟合控制是预算,不是清单。先把钱花在结构性的控制上——样本外纪律与诚实的搜索空间——因为没有任何在无约束搜索之后计算的统计量,能把已经摇过的铃完全摇回去。