avatar
文章
16
标签
21
分类
2

灯推的恬静小屋
搜索

灯推的恬静小屋

数据中台架构与标准字典实验说明
发表于2026-05-20|更新于2026-05-20|数据工程|数据中台•元数据•标准字典•数据治理•DataEngine
本文整理了两个部分: 数据中台当前的元数据架构与只读检索链路。 在隔离实验副本中进行的标准字典迁移实验与评测结果。 原始项目保持不动,所有实验都在复制出来的新目录里完成。 一、数据中台架构1.1 总体链路 flowchart LR Q[自然语言问题] --> S[Codex / Skill] S --> M[MCP 服务] M --> C[业务目录 catalog.json] M --> H[Hive Metastore] M --> D[DataRiver 元数据图谱] M --> R[别名归一 / 资源解析 / 血缘解释] R --> O[候选表 / 字段语义 / 关系说明] 这套架构的核心不是“直接写 SQL”,而是把问题拆成可解释的元数据检索步骤: 先把用户的自然语言问题转成业务概念。 再从业务目录、Hive Metastore 和 DataRiver 图谱里找证据。 最后输出候选表、字段语义、别名、血缘和解释。 1.2 关键组件 组件 ...
SCHEMA-MINERpro: 让机器读懂科学实验流程
发表于2026-05-13|更新于2026-05-20|论文解读|DataEngine•论文解读•结构化数据
这篇论文想让机器真正读懂科学实验流程。论文里的实验步骤原本是一段段自然语言。SCHEMA-MINERpro 做的事,是把它们整理成标准化 schema,再把温度、压力、时间、能量这些字段连到 QUDT 本体,让它们可以被搜索、比较和复用。一句话它把“论文里写的实验描述”变成“机器能懂的实验卡片”。LLM 读论文专家纠错Agent 对齐本体QUDT 统一单位最核心的价值以后你可以问机器:“找出所有低于 (200^\circ C)、使用 TMA precursor 的 ALD 实验”,而不是人工一篇篇翻论文。 先看一个例子假设一篇 ALD 论文里有一句话:论文原文The Al₂O₃ film was deposited at 200 °C using trimethylaluminum and H₂O. The TMA pulse time was 0.1 s, followed by a 5 s N₂ purge. The growth per cycle was 1.1 Å/cycle.→机器真正需要的结构process: Atomic Layer Deposition materi ...
Docs2Table: 从多文档到结构化表格
发表于2026-05-13|更新于2026-05-20|论文解读|DataEngine•论文解读•结构化数据
ICLR 2026 under review · Docs2Table / FGLM / DDST 把 10 篇长文档,压成一张可比较、可约束、可复现的结构化表 这篇论文真正要解决的,不是“让 LLM 再抽点信息”,而是把多文档比较分析这件事, 从单文生成升级成 schema-first 的结构化流程: 先决定表该长什么样,再决定每个格子该填什么。 先看结果与结论 直接看 DDST 流水线 任务:Docs2Table 数据:FGLM,1,802 条样本,每条 10 篇文档 领域:Finance / Government / Law / Medicine ...
CONSTRUCT: 结构化输出的实时可信度评分
发表于2026-05-07|更新于2026-05-20|论文解读|DataEngine•论文解读•结构化数据
论文精读 · arXiv:2603.18014v2 · 2026-03-31 实时判断结构化输出,哪里值得信。 这篇论文提出 CONSTRUCT:一个不训练 detector、不依赖 logprobs、可用于黑盒 LLM API 的实时 trustworthiness scoring 方法。核心目标不是让 LLM 少犯错,而是在企业文档处理里把错误输出和错误字段更早、更准地暴露出来。 看方法 看复现细节 5 次并行 verifier calls per-document + per-field 4 个高质量 benchmark GPT-5 / Gemini 3 Pro 等模型 prompt = ...
LLMStructBench: 结构化数据抽取基准
发表于2026-05-07|更新于2026-05-20|论文解读|DataEngine•论文解读•结构化数据
Benchmarking LLM Structured Data Extraction 把一封邮件,变成一个可信的 JSON。 这篇论文提出 LLMStructBench:一个用于评估 LLM 从自然语言文本抽取结构化字段、并一次性生成合法 JSON 的 benchmark。最关键的发现是: 模型大小不是决定性因素,prompt 与 schema 约束如何配合,往往更重要。 开始阅读 复现实验设置 995 tests 22 open-weight models 5 prompting strategies 0.74Gemma3-27B 与 GPT-4o 并列最高 P-score ...
Human-LLM Collaborative Feature Engineering for Tabular Learning
发表于2026-05-02|更新于2026-05-20|论文解读|DataEngine•论文解读•结构化数据
ICLR 2026 Conference Paper · Tabular Learning · Feature Engineering 让 LLM 生成,让不确定性选择。 论文《Human-LLM Collaborative Feature Engineering for Tabular Learning》的核心思想很干脆: LLM 不再扮演黑箱优化器,而只负责提出候选特征;真正的选择由显式效用模型、UCB 探索和选择性人类偏好反馈来完成。 18个 Kaggle/UCI/公司数据集,含 13 个分类、5 个回归任务。 50主实验中 LLM 特征工程最大迭代预算。 15每轮由 LLM 生成的候选 feature transformation operations。 31真实用户研究中的 ML 工程师、 ...
Leveraging LLMs for Cloud Incident Extraction
发表于2026-05-02|更新于2026-05-20|论文解读|DataEngine•论文解读•结构化数据•AIOps
ICPE Companion 2026 · Work in Progress Paper 用 LLM 把云故障报告变成可分析数据。 论文《Leveraging LLMs for Structured Information Extraction and Analysis from Cloud Incident Reports》试图解决一个很实在的问题:AWS、Azure、GCP 的公开 incident reports 很长、结构不一、难以长期统计。作者构建数据集、标注 460 条样本、比较 6 个模型和 6 种 prompt 策略,给出准确率、延迟和成本的系统评估。 3,087来自 AWS、Azure、GCP 的公开故障报告 460人工标注样本,用作 ground truth 6 × 66 个 LLM × 6 种 prompt 策略 75–95%metadata extraction 的主要准确率区间 ...
ScheMatiQ: 从研究问题到可验证数据表
发表于2026-05-02|更新于2026-05-20|论文解读|DataEngine•论文解读•结构化数据
arXiv:2604.09237 · 2026-04-10 · Document AI / Data Mining从一个研究问题,到一张可验证的数据表。ScheMatiQ 解决的是一个很现实的问题:研究者面对一堆长文档时,真正想要的往往不是一段摘要,而是一张能分析、能检查、能追溯证据的数据表。arXiv 论文项目网站法律 + 计算生物学双用例Gemini-2.5 系列89法律领域:美国移民 injunction court decisions96 / 110计算生物学语料数量在正文与 Appendix 中存在口径差异$1 / 100 docs作者报告两个用例的大致处理成本87% / 74%protein / judge observation-unit recall,测试样例 precision 为 100%1. Observation Unit Discoveryquery + documents → {"type":"Judge", "row":"one judge in one case"}2. Schema Discoveryiterative batches → field ...
DocumentConvert
发表于2025-08-15|更新于2025-08-17
文档转换服务 - 技术架构文档项目概述本项目是一个企业级文档转换服务,基于FastAPI框架构建,复刻了MediaConvert的架构设计理念。系统支持多种文档格式转换,包括Office文档转PDF、PDF转Markdown等,并提供完整的任务管理、云存储集成和监控功能。 核心特性 🚀 高性能异步处理: 基于FastAPI和asyncio的异步架构 📊 企业级任务管理: 支持任务队列、优先级调度和状态跟踪 ☁️ 云存储集成: 完整的S3/MinIO存储支持 🔄 多格式转换: Office转PDF、PDF转Markdown、图片转Markdown 📈 实时监控: 完整的日志记录和任务统计 🛡️ 容错机制: 自动重试、错误恢复和资源清理 系统架构设计整体架构图12345678910┌─────────────────┐ ┌─────────────────┐ ┌─────────────────┐│ API Gateway │────│ Task Processor │────│ Document Service││ (FastAPI) ...
Docker
发表于2025-07-06|更新于2025-08-13|docker
教程来源:《Docker入门到项目实战》 1. 基础概念1.1 为什么有Docker?传统部署的痛点 环境不一致:”在我机器上能跑”的经典问题 依赖管理复杂:版本冲突和依赖地狱 资源利用率低:虚拟机资源开销大 部署流程繁琐:手动配置容易出错 Docker的核心优势 特性 说明 对比传统方式 轻量级虚拟化 共享宿主机内核,启动速度快 比虚拟机节省90%资源 环境一致性 开发、测试、生产环境完全统一 消除环境差异问题 快速部署 秒级启动,支持水平扩展 部署时间从分钟级降到秒级 资源高效 容器间共享操作系统 单机可运行更多应用实例 1.2 Docker架构与容器化系统架构图12345678910111213┌─────────────────────────────────────────────────────────┐│ Docker架构 │├─────────────────────────────────────────────────────────┤│ Do ...
12
avatar
Akari
暂无
文章
16
标签
21
分类
2
我的BiliBili账号
公告
This is Akari's BLOG
最新文章
数据中台架构与标准字典实验说明2026-05-20
SCHEMA-MINERpro: 让机器读懂科学实验流程2026-05-13
Docs2Table: 从多文档到结构化表格2026-05-13
CONSTRUCT: 结构化输出的实时可信度评分2026-05-07
LLMStructBench: 结构化数据抽取基准2026-05-07
最新评论
正在加载中...
分类
  • 数据工程1
  • 论文解读7
标签
大模型智能体LLMCoze报错解决方案数据中台元数据标准字典数据治理DataEngine提示词Prompt Engineeringdocker论文解读结构化数据AIOpsQQ机器人bot部署教程
归档
  • 五月 20268
  • 八月 20251
  • 七月 20251
  • 六月 20253
  • 七月 20233
网站资讯
文章数目 :
16
已运行时间 :
本站总字数 :
49.6k
本站访客数 :
本站总访问量 :
最后更新时间 :
訪客地圖
©2023 - 2026 By Akari
框架 Hexo|主题 Butterfly
Hi, welcome to Akari's BLOG!
搜索
数据库加载中