灯推的恬静小屋

发表于2026-07-09|更新于2026-07-09|论文解读|DataEngine•论文解读•智能问数•ContextCache•缓存•PVLDB 2025

ContextCache 解读核心结论问题方法实现实验项目落地 PVLDB 2025 · Semantic Cache · Multi-Turn LLM Queries ContextCache：智能问数缓存不能只看“当前问题”，还要看“上下文” 这篇论文研究 LLM 多轮对话里的语义缓存。它的核心提醒很适合智能问数：两个问题字面很像，不代表可以复用同一个答案；缓存命中必须同时匹配当前问题和历史对话上下文。论文：ContextCache · PVLDB 18(12), 2025 主题：上下文感知语义缓存核心结论做了什么 ContextCache 做了一个多轮 LLM ...

智能问数产品现况、优缺点与项目启示

发表于2026-07-01|更新于2026-07-01|数据工程|数据工程•DataEngine•Text-to-SQL•智能问数•BI

智能问数产品现况、优缺点与项目启示更新时间：2026-06-26 1. 结论先行智能问数正在从早期的“自然语言转 SQL”进入“语义层 + 数据治理 + Agent 工作流”的阶段。2023 年前后的多数产品强调“问一句、出一张图”；2025-2026 年主流方向已经明显变成：围绕可信语义、权限、指标口径、可解释查询、多轮分析、自动报告、嵌入式数据智能体来做完整闭环。当前市面产品大致分为四类：传统 BI 厂商的 AI 化：Power BI Copilot、Tableau Agent、ThoughtSpot Spotter、Qlik、FineBI/FineChatBI、Quick BI 小Q、Smartbi AIChat、观远问数 Agent 等。优势是 BI 底座、权限、图表和企业交付成熟；短板是价格、绑定生态、二开受限。云数仓/数据平台原生智能问数：Snowflake Cortex Analyst、Databricks Genie、Looker Conversational Analytics、Amazon QuickSight Q 等。优势是和底层数 ...

智能问数产品现况与选型观察

发表于2026-07-01|更新于2026-07-02|数据工程|数据工程•DataEngine•Text-to-SQL•智能问数•BI

智能问数观察 2026-06-26 · 产品现况与项目启示现况判断市场地图海外产品国内产品开源方案横向对比落地难点项目路线智能问数产品现况与选型观察从“AI 写 SQL”到“语义层驱动的可信数据智能体”，主流产品正在把问数、图表、权限、指标口径、洞察报告和 Agent 工作流接到一起。 ChatBI Text-to-SQL Semantic Layer Agentic BI 4 类商业 BI、云数据平台、国内厂商、开源自建 1 条主线从自然语言转 SQL 走向可信语义与治理 30-50建议 MVP 先用高频问题集验证准确率不是模型成败核心是指标口径、权限和持续运营一眼看清：产品正在往哪里走智能问数已经不再只是把一句中文翻译成 SQL。越成熟的产品，越强调语义模型、指标治理、权限、安全执行、可解释回答和反馈评测。商业 BI AI 化从看板到对话 Power BI、Tableau、ThoughtSpot、FineBI 等把自然语言入口放进已有 BI 体系，优势是权限、报表、图表和交付成熟。云平台原生从数据 ...

LinkAlign 论文解读：大规模多库 Text-to-SQL 的 Schema Linking

发表于2026-06-12|更新于2026-06-12|论文解读|DataEngine•Schema Linking•LinkAlign•论文解读•Text-to-SQL•EMNLP 2025

LinkAlign 解读核心结论问题方法实验项目落地评价 EMNLP 2025 Main · Schema Linking · Multi-Database Text-to-SQL LinkAlign：让 LLM 在海量数据库里先找对库，再找对表字段这篇论文不是又做一个 SQL 生成器，而是专门解决真实企业场景里的前置难题：用户一句自然语言进来，系统面对很多库、几千个字段，怎么把问题精确对齐到正确数据库、表和列。论文：Wang, Liu, Yang · EMNLP 2025 ACL Anthology ID: 2025.emnlp-main.51 核心任务：schema linking 官方 PDF 已本地保存核心结 ...

LinkAlign Lite 数据中台 Schema Linking 实验报告

发表于2026-06-11|更新于2026-06-11|实验|数据中台•DataEngine•数据治理•实验•Schema Linking•LinkAlign

LinkAlign Lite 数据中台 Schema Linking 实验报告生成日期：2026-06-11项目目录：D:\AGENT\data-skill-schema-minerpro实验主题：把 D:\AGENT\DataEngine\LinkAlign 论文解读中的 schema linking 思想，应用到浙江音乐学院数据中台 skill/MCP 项目中，并用全量字典任务与 doops 在线元数据验证做对比评估。 1. 实验结论这次实验已经从“只看几个例子”升级成了两层评测：全量字典离线评测：覆盖 100 条由全量标准字典生成的任务，包含 business、table、relation、field、alias 五类问题，各 20 条。 LinkAlign Lite 在线评测：覆盖 104 条问题，其中包含上述 100 条全量字典任务，以及 4 条真实业务问题；每条都通过 doops 在线读取 Hive Metastore 元数据确认候选表字段。总体结论：结论说明 LinkAlign Lite 能显著减少候选噪声平均候选表从 7.97 张降到 ...

TAG：SQL 查数之后，还要会解释

发表于2026-06-03|更新于2026-06-04|数据工程|DataEngine•论文解读•Text-to-SQL•TAG•数据库

CIDR 2025 · Table-Augmented Generation · AI + Databases TAG：SQL 查数之后，还要会解释这篇论文的核心观点很简单：真实用户问数据库，不只是想要 SQL 执行结果。他们还会问“为什么销售下降”“哪些评论是正面的”“Bay Area 学校有哪些”。这些问题需要数据库的精确计算，也需要 LLM 的语义理解和世界知识。论文：Text2SQL is Not Enough 出处：CIDR 2025 提出：Table-Augmented Generation 代码：TAG-Research/TAG-Bench 做了什么为什么不够 TAG 三步设计空间 Benchmark 实验结果项目落地评价 ...

CHASE-SQL：别只生成一个 SQL

发表于2026-06-03|更新于2026-06-04|数据工程|DataEngine•LLM•论文解读•Text-to-SQL•SQL

ICLR 2025 · Text-to-SQL · Test-time compute CHASE-SQL：别只生成一个 SQL 这篇论文的核心很直观：复杂数据库问题里，LLM 第一次写出的 SQL 不一定最好。CHASE-SQL 让模型从多条思路生成候选 SQL，再用训练过的选择器两两比较，挑出最可能正确的一条。论文：CHASE-SQL 出处：ICLR 2025 关键词：multi-path reasoning 关键词：preference optimized selection 做了什么为什么有效框架流程三条生成路径选择器实验结果项目落地评价 What it does CHASE-S ...

data-platform-investigator Skill 讲解

发表于2026-05-28|更新于2026-05-28|数据工程|数据工程•数据中台•Skill•元数据•DataEngine

data-platform-investigator Skill 讲解1. 这个 Skill 是什么data-platform-investigator 是一个专门用于调查数据中台资源的 Codex Skill。简单说，它的作用是：当用户用自然语言问“某个业务数据在哪里”“应该用哪些表”“字段是什么意思”“这张表是不是物理表/逻辑表/血缘过程”时，指导 Codex 按固定流程去查业务目录、标准字典、Hive 元数据和 DataRiver 血缘，并给出有证据的答案。它不是一个普通脚本，也不是一个单独服务。它更像是一份“调查手册 + 工具清单 + 安全边界”。 Codex 看到类似问题时，会先读这个 Skill，然后按里面的流程做事。例如用户问： 1帮我查一下学生期末评价完成状态应该用哪些表，字段大概是什么含义这个 Skill 会指导 Codex：先从业务目录和标准字典里找候选资源。再确认这些候选资源是不是真实 Hive 表。再查字段、字段注释、存储位置。再看 DataRiver 里有没有血缘或加工过程。最后把“应该用哪张表、字段是什么意思、 ...

头条文章《企业数据资产管理核心框架：L1-L5分层架构解析》阅读汇报

发表于2026-05-28|更新于2026-05-28|数据工程|数据工程•DataEngine•数据治理•数据资产•L1-L5

头条文章《企业数据资产管理核心框架：L1-L5分层架构解析》阅读汇报来源：今日头条文章标题：企业数据资产管理核心框架：L1-L5分层架构解析发布时间：2026-05-27 11:02作者：星语拾闻整理时间：2026-05-28 一、文章核心内容这篇文章讲的是企业如何用 L1-L5 五层结构管理数据资产。它的核心思想不是“多建几层目录”，而是把一个模糊的业务问题，逐步翻译成技术系统里可以查到的表和字段。最简单的理解方式是：L1-L5 是一个从业务到数据的放大镜。 12345L1 业务域：公司在做哪一大块事L2 主题域：这块业务里有哪些主题L3 业务对象：这个主题里管理的核心东西是什么L4 逻辑实体：这个东西在数据模型里拆成哪些表/实体L5 属性：每张表/实体里有哪些字段文章认为，这套分层结构来自数据仓库和企业架构实践，主要受维度建模、范式建模和企业架构框架影响。它要解决的是企业数据管理中常见的几个问题：数据孤岛、口径不一、业务人员看不懂、技术人员难复用、同名不同义、同义不同名。二、L1-L5 到底是什么关系L1-L5 不是五个并列分类，而是一条逐层变具体的链路： 1大业务 -&g ...

In-depth Analysis of LLM-based Schema Linking

发表于2026-05-27|更新于2026-05-28|数据工程|DataEngine•LLM•Schema Linking•论文解读•Text-to-SQL

EDBT 2026 · Experiments & Analyses · Schema Linking 让 LLM 先找对表和字段这篇论文回答的是一个很工程的问题：用户问完一句话后，LLM 到底能不能先判断需要哪些表、哪些字段，再交给 Text-to-SQL 写 SQL？作者没有发明一个花哨大模型，而是把 few-shot、问题拆解、微调、规则修正、schema enrichment 逐项实验，告诉我们哪些做法真的有用。论文：In-depth Analysis of LLM-based Schema Linking 出处：EDBT 2026 数据集：Spider + BIRD 代码：IBM/few-shot-schema-linking 做了什么怎么做规则修正实验结果创新点项目落地 ...