标准字典让检索更稳，复核也更可见

本页汇总 full-dictionary-eval.latest.json 的 100 条评测结果，并给出一份可直接用于人工抽样复核的入口。这套实验把原系统迁移到新目录后做，不改原项目。

一眼看结果

100评测问题总数

488全量候选字典概念数

577唯一优先表

1661唯一字段关键词

怎么读这组结果： 基线主要靠关键词碰撞；标准字典加入后，概念覆盖更完整，但检索排序不一定同步变好；关系增强模式把相邻概念也拉进来，所以 relationAccuracy 会更高。这类自动指标适合做筛查，不适合直接当语义真值。

指标是什么意思

指标	意思	看什么
Precision@K	Top K 里有多少是对的。	越高，说明前 K 条越“准”。
Recall@K	真正该命中的表，有多少被 Top K 找到了。	越高，说明覆盖更全。
MRR	第一个正确结果排第几，越靠前越高。	适合看“首个命中”位置。
conceptRecall	预期的直接概念，有多少被字典正确对齐。	看字典有没有“认出问题本体”。
relationAccuracy	预期的相关概念，有多少被关系扩展找出来。	更像关系覆盖率，不是人工语义准确率。

三种模式对比

指标	无字典	标准字典	关系增强字典
P@1	80.0%	79.0%	79.0%
P@3	39.7%	33.3%	33.3%
P@5	26.4%	21.0%	21.0%
P@10	14.3%	12.7%	12.7%
R@1	65.2%	65.2%	65.2%
R@3	80.4%	73.3%	73.3%
R@5	84.9%	74.6%	74.6%
R@10	87.8%	78.9%	78.9%
MRR	0.848	0.822	0.822
Concept Recall	—	88.0%	88.0%
Relation Accuracy	—	12.0%	86.0%

来源：full-dictionary-eval.latest.json。这里的数值是 100 条任务的平均结果。

字典长什么样

标准字典不只是一个词表，而是把业务名、别名、优先表、字段关键词和关系连在一起。这次全量字典保存在 standard-dictionary.full.json，精简版保存在 standard-dictionary.json。

{
  "id": "campus_card.transaction_flow",
  "label": "一卡通交易流水",
  "domain": "一卡通",
  "description": "校园一卡通消费、交易流水和交易金额相关数据。",
  "aliases": [
    "一卡通",
    "校园卡",
    "一卡通交易",
    "一卡通流水",
    "交易流水",
    "消费流水",
    "刷卡流水",
    "交易金额",
    "消费金额",
    "ykt",
    "ylkt",
    "jyls",
    "jylsxx"
  ],
  "preferredTables": [
    "dwd_ylkt_jylsxx",
    "dwd_ykt_jylsxx",
    "ods_ykt_jylsxx",
    "ods_ylkt_yls",
    "dwd_zyys_ylkt_jyls"
  ],
  "businessNames": [
    "审计上报",
    "一卡通系统",
    "数据中台"
  ],
  "relations": [
    {
      "type": "related",
      "target": "finance.fee",
      "label": "交易金额与收费缴费场景都属于资金流水类问题"
    },
    {
      "type": "uses_entity",
      "target": "student.basic_info",
      "label": "一卡通交易常需要关联学生身份"
    }
  ],
  "fieldKeywords": [
    "交易金额",
    "交易时间",
    "单据号",
    "卡户",
    "卡号",
    "商户",
    "jyje",
    "jysj",
    "djh",
    "khxm",
    "kh",
    "shmc"
  ]
}

覆盖范围

595 条目录资源 488 个概念 475 个生成概念 4583 条别名引用 624 条优先表引用 4550 条字段关键词

文件位置

任务集：full-dictionary-tasks.json 评测结果：full-dictionary-eval.latest.json 抽样复核页：打开复核页复核样本 JSON：打开样本数据

抽样复核建议

建议先看 25 条分层抽样样本，再决定要不要扩大到全量 100 条。复核时重点看三件事：问题是否被正确对齐到概念、候选表是否合理、关系是否真成立。

进入人工抽样复核页下载抽样 JSON