项目

一般

简介

Story #184

Huarui Lin 更新于 2 天 之前

**在 config.yaml 新增数据源路径配置;实现 DuckDB 读取 CSV、显式列投影(丢弃 id+4列冗余)、周频聚合、白名单 JOIN,输出精简 Arrow。** 

 --- 
 ① config.yaml 新增 data.raw_paths(字典结构)与 duckdb.memory_limit(默认 "40GB")节点; data.raw_paths 节点,data_loader.py 从配置读取路径; 
 ② DuckDB SQL 绝对禁止 禁止 SELECT *,对 fund_basic_info 必须硬编码 SELECT *,必须显式列出 fund_id, fund_name, fund_type, create_date,对净值表仅取核心 3 列; net_value_date, cumulative_net_value;Arrow JOIN fund_basic_info 后,Arrow Schema 包含上述 4 仅含上述 3 列 + 净值 3 列(fund_type 仅作临时审计流转,严禁带入最终落盘); fund_type(临时审计用,最终落盘前丢弃);S1 遗留核销:首个 PR 必须物理删除 S1 阶段的占位 Mock 测试代码,CI 全绿; 
 ⑤ 单测:Mock 小 CSV 验证列裁剪与 JOIN 正确性。 验证列裁剪正确。 

 --- 
 *规约 1.2 (周聚合/类型过滤);章程 R-5 (显式丢弃4列);FW-1/FW-2*

返回