行为
Sprint3规划会议¶
会议目标:锁定 M3a(特征基建)交付标准,对齐 CR-002/CR-003 变更落地方案,确立 38 维特征工程防线与标准化纯函数的强卡控边界。
预计时长:40 分钟
议题 1:CR 回溯与 38 维特征字典红线冻结(5 分钟)¶
-
述职内容:宣读 CR-002(特征原始值化)与 CR-003(
_w{N}后缀命名)的核心约束。 -
红线宣贯:基于《特征字典基线文档.md (V1.0 Frozen)》,明确 38 维特征名为架构级唯一刚性补充附件。代码实现、单测、标准化参数输出的
feature_name字段必须与此文档严格一字不差,严禁擅自增删改。 -
架构决策说明:简述为何主动摒弃
nav_ma_26w等绝对值指标(捍卫规约 4.3 截面标准化的普适性,防止量纲污染)。
议题 2:S3-01/02 核心特征引擎工程边界锁定(15 分钟)¶
-
段隔离强制约束:确立所有滚动计算必须按
group_by(['fund_id', 'segment_id'])隔离,严禁跨段计算。 -
工程复用设计确认:确认采纳
with_validity_check高阶函数包装方案,统一拦截 38 维特征的min_valid_ratio=0.20逻辑,消除代码冗余。 -
底层计算引擎决策(已授权闭环):基于性能最优原则与依赖管控,正式确立 OLS 回归(
trend_slope与trend_r_squared)的底层引擎纯采用np.linalg.lstsq,不引入 SciPy 依赖;通过 Polarsmap_elements提取极小矩阵进行批量求解。 -
无风险利率公式卡控:确认
weekly_rf强制锁定公式(1 + 0.02)^(1/52) - 1,严禁在代码中出现魔法数字0.02或预计算浮点数。
议题 3:S3-03 标准化与共线性纯函数交付契约(10 分钟)¶
-
接口契约:锁定
calculate_stats(),apply_standardization(),remove_collinear_features()三个公开函数的入参出参边界。 - 单测强卡控策略(已授权闭环):确认采用38 维全量特征覆盖策略。单测必须为每个特征构造特定 Mock 数据并独立断言滚动值精确度。
-
T-1 标准化首日 NULL 测试:确认构造 2 天数据的 DataFrame,调用
apply_standardization(),断言第 1 天所有特征输出 NULL 的具体实现机制。
议题 4:S3-04 落盘、数据契约与 CI 集成(10 分钟)¶
-
物理目录结构变更确认:确认批准新建
data/models/目录用于存放standardization_params.parquet等预览产物,后续需同步更新project-structure.md。 -
存储形态红线重申:确认
features_YYYY.parquet必须为长表形态,严禁 Pivot 成宽表。显式指定row_group_size=100000。 -
文档双轨制对齐:确认
docs/data_contract.md中新增的《特征矩阵接口契约单》将严格引用《特征字典基线文档》中的 38 个特征名及计算公式。
议题 5:M3a 里程碑红线与风险拉起(0 分钟 - 会后归档)¶
- 汇总本次会议形成的 CONF 确认项与 TODO 待办项(由会后纪要承载)。
- 确认 M3a 交付物清单并指派 Redmine 录入责任。
由 Huarui Lin 更新于 大约 8 小时 之前 · 2 修订