项目

一般

简介

行为

Story #184

已关闭

S2-01-配置扩展与 DuckDB 粗筛降维

Huarui Lin5 天 之前添加. 更新于 一天 之前.

状态:
Completed
优先级:
Normal
指派给:
目标版本:
开始日期:
2026-04-20
计划完成日期:
2026-04-21
% 完成:

100%

预期时间:
16:00 小时

描述

在 config.yaml 新增数据源路径配置;实现 DuckDB 读取 CSV、显式列投影(丢弃 id+4列冗余)、周频聚合、白名单 JOIN,输出精简 Arrow。


① config.yaml 新增 data.raw_paths(字典结构)与 duckdb.memory_limit(默认 "40GB")节点;
② DuckDB SQL 绝对禁止 SELECT *,对 fund_basic_info 必须硬编码 SELECT fund_id, fund_name, fund_type, create_date,对净值表仅取核心 3 列;
③ Arrow Schema 包含上述 4 列 + 净值 3 列(fund_type 仅作临时审计流转,严禁带入最终落盘);
④ S1 遗留核销:首个 PR 必须物理删除 S1 阶段的占位 Mock 测试代码,CI 全绿;
⑤ 单测:Mock 小 CSV 验证列裁剪与 JOIN 正确性。


规约 1.2 (周聚合/类型过滤);章程 R-5 (显式丢弃4列);FW-1/FW-2

行为

导出 Atom PDF