数据中台标准字典实验 · SCHEMA-MINERpro 思路移植
标准字典让检索更稳,复核也更可见
本页汇总 full-dictionary-eval.latest.json 的 100 条评测结果,并给出一份可直接用于人工抽样复核的入口。
这套实验把原系统迁移到新目录后做,不改原项目。
一眼看结果
100评测问题总数
488全量候选字典概念数
577唯一优先表
1661唯一字段关键词
怎么读这组结果:
基线主要靠关键词碰撞;标准字典加入后,概念覆盖更完整,但检索排序不一定同步变好;
关系增强模式把相邻概念也拉进来,所以
relationAccuracy 会更高。
这类自动指标适合做筛查,不适合直接当语义真值。
指标是什么意思
| 指标 | 意思 | 看什么 |
|---|---|---|
| Precision@K | Top K 里有多少是对的。 | 越高,说明前 K 条越“准”。 |
| Recall@K | 真正该命中的表,有多少被 Top K 找到了。 | 越高,说明覆盖更全。 |
| MRR | 第一个正确结果排第几,越靠前越高。 | 适合看“首个命中”位置。 |
| conceptRecall | 预期的直接概念,有多少被字典正确对齐。 | 看字典有没有“认出问题本体”。 |
| relationAccuracy | 预期的相关概念,有多少被关系扩展找出来。 | 更像关系覆盖率,不是人工语义准确率。 |
三种模式对比
| 指标 | 无字典 | 标准字典 | 关系增强字典 |
|---|---|---|---|
| P@1 | 80.0% | 79.0% | 79.0% |
| P@3 | 39.7% | 33.3% | 33.3% |
| P@5 | 26.4% | 21.0% | 21.0% |
| P@10 | 14.3% | 12.7% | 12.7% |
| R@1 | 65.2% | 65.2% | 65.2% |
| R@3 | 80.4% | 73.3% | 73.3% |
| R@5 | 84.9% | 74.6% | 74.6% |
| R@10 | 87.8% | 78.9% | 78.9% |
| MRR | 0.848 | 0.822 | 0.822 |
| Concept Recall | — | 88.0% | 88.0% |
| Relation Accuracy | — | 12.0% | 86.0% |
来源:full-dictionary-eval.latest.json。这里的数值是 100 条任务的平均结果。
字典长什么样
标准字典不只是一个词表,而是把业务名、别名、优先表、字段关键词和关系连在一起。
这次全量字典保存在 standard-dictionary.full.json,
精简版保存在 standard-dictionary.json。
{
"id": "campus_card.transaction_flow",
"label": "一卡通交易流水",
"domain": "一卡通",
"description": "校园一卡通消费、交易流水和交易金额相关数据。",
"aliases": [
"一卡通",
"校园卡",
"一卡通交易",
"一卡通流水",
"交易流水",
"消费流水",
"刷卡流水",
"交易金额",
"消费金额",
"ykt",
"ylkt",
"jyls",
"jylsxx"
],
"preferredTables": [
"dwd_ylkt_jylsxx",
"dwd_ykt_jylsxx",
"ods_ykt_jylsxx",
"ods_ylkt_yls",
"dwd_zyys_ylkt_jyls"
],
"businessNames": [
"审计上报",
"一卡通系统",
"数据中台"
],
"relations": [
{
"type": "related",
"target": "finance.fee",
"label": "交易金额与收费缴费场景都属于资金流水类问题"
},
{
"type": "uses_entity",
"target": "student.basic_info",
"label": "一卡通交易常需要关联学生身份"
}
],
"fieldKeywords": [
"交易金额",
"交易时间",
"单据号",
"卡户",
"卡号",
"商户",
"jyje",
"jysj",
"djh",
"khxm",
"kh",
"shmc"
]
}
抽样复核建议
建议先看 25 条分层抽样样本,再决定要不要扩大到全量 100 条。
复核时重点看三件事:问题是否被正确对齐到概念、候选表是否合理、关系是否真成立。
评论
