Walk-forward、OOS、Deflated Sharpe 与 PBO：真正有用的过拟合控制

在这里真正干活的控制是：窗口内选择的 walk-forward 门槛、自助法置信区间、集中度检查与参数稳定性证据。Deflated Sharpe 与 PBO 在规格里被列为验收标准但刻意推迟实现——把这一点说清楚，本身就是方法论的一部分。

一份诚实的清单

Deflated Sharpe Ratio 与 PBO 在本档案的规格中以 required_if_feasible 的身份出现。截至撰写本文，它们已写入规格、尚未实现——真正运行过、也真正抓住过问题的，是更朴素的几样：

**窗口内选择的 walk-forward。**候选筛选必须发生在每个 walk-forward 窗口内部；先在全样本上排名再切窗口是被禁止的（只允许作为明确标注的探索）。门槛要求 ≥60% 窗口为正、OOS 期望中位数大于零。
**自助法置信区间。**1,000 次交易级重抽样（另有按月分块的变体以尊重聚集性）；验收门槛设在置信区间的下界上，而不是均值上。
**集中度检查。**单笔交易对总盈亏的贡献 ≤30%，且剔除前 1% 交易后结果仍须为正。靠两个幸运日撑起来的策略过不了这关。
**参数稳定性证据。**跨窗口重新估计的参数保持稳定，被视为反过拟合的正面证据，而不仅仅是“没有失败”。

控制起作用的两个实例

**抓住一次失败。**日频统计套利管线跑了 3 年训练 / 1 年验证 / 1 年测试、每 6 个月滚动一次的 walk-forward——共 10 个窗口。结论：FAIL。OOS 夏普 −1.67（门槛 1.2）、OOS 年化 −5.6%、最大回撤 −30.5%、10 个窗口 0 个为正。同一配置的单次全样本回测看起来是可行的；暴露问题的正是 walk-forward 结构本身。

**一次赢得信任的通过。**宏观衰退叠加在 2006–2026 共 21 个扩张窗口的样本外年份里逐年重新校准阈值，选出的参数几乎不动：防御阈值 21 年中 14 年取 0.6、其余取 0.5；进攻阈值 21 年完全一致。样本内到样本外的夏普衰减为 −0.006（0.593 → 0.586）。同样重要的是：搜索空间只有 20 个组合，不是 20,000 个。一个小而预先承诺的网格本身就是过拟合控制——可供过拟合的自由度更少。

为什么著名统计量被推迟

DSR 与 PBO 修正的是搜索广度——当搜索巨大且选择自动化时最重要。这些项目目前的设计在更上游攻击同一风险：网格保持小、在窗口内选择、要求自助法置信区间与集中度检查双双过关、把参数漂移当作红旗。计划仍然是把 DSR/PBO 作为最后一层验收加上——但在它们真正跑起来之前就声称拥有它们，恰恰是这套方法论其余部分要防止的那种夸大。

教训

过拟合控制是预算，不是清单。先把钱花在结构性的控制上——样本外纪律与诚实的搜索空间——因为没有任何在无约束搜索之后计算的统计量，能把已经摇过的铃完全摇回去。