ICLR 2026 Conference Paper · Tabular Learning · Feature Engineering

让 LLM 生成,让不确定性选择。

论文《Human-LLM Collaborative Feature Engineering for Tabular Learning》的核心思想很干脆: LLM 不再扮演黑箱优化器,而只负责提出候选特征;真正的选择由显式效用模型、UCB 探索和选择性人类偏好反馈来完成。

Quick Read

先用一分钟看懂:这篇论文到底在干嘛?

它研究的是:表格任务里,怎样让 LLM 更靠谱地帮我们做特征工程。核心不是让 LLM 自己全权决定,而是把工作拆开。

LLM 很会“想特征”,但不一定会“判断哪个特征真有用”。所以本文让 LLM 负责生成候选特征,再用一个会估计收益和不确定性的模型来挑选,必要时才问人类专家二选一。

原来的做法

LLM 既生成特征,也自己决定用哪个。问题是它的判断可能只是“听起来合理”,不一定真的能提高模型效果。

本文的做法

LLM 只负责提出一批候选。系统用 BNN 预测每个候选可能带来的收益,再用 UCB 选择最值得试的那个。

人类怎么参与

人类不用写特征,也不用每轮审核。只有当系统拿不准两个候选哪个更好时,才让人类做一次简单的二选一。

特征工程把原始列变成更有用的新列,例如贷款金额除以收入。
BNN会表达“不确定”的神经网络。它不仅预测收益,也说自己有多没把握。
UCB一种选择策略:优先试“看起来好”或“虽然不确定但有潜力”的候选。
Pairwise preference成对偏好比较。给 A/B 两个候选,让人判断哪个更值得试。
Background

背景:表格学习里的老问题,被 LLM 重新点燃。

表格数据仍然是风控、推荐、医疗、用户转化等场景的主力数据形态。模型性能很大程度上取决于特征工程: 原始列 \(x_i \in \mathbb{R}^d\) 是否能被转换为更贴近任务机制的新表示。

传统 AutoML

OpenFE、AutoGluon 等方法通常在预定义算子空间里搜索组合。优点是工程稳定,缺点是缺乏任务语义,容易制造重复或低价值特征。

它像一个勤快的“公式试验机”,会机械地试加减乘除、分箱、交叉等组合,但不太懂列名背后的业务含义。

LLM 特征工程

CAAFE、OCTree 等工作利用任务描述、列名和历史反馈,让 LLM 生成新特征。它们能利用语义知识,但经常让 LLM 同时负责“提出”和“选择”。

LLM 更像有业务常识的助手,能想到“数字体验”“健康风险组合”这类有意义的特征,但它不一定知道这些特征是否真能涨分。

本文切入点

作者质疑:LLM 的内部启发式并没有校准的效用和不确定性估计。有限迭代预算下,黑箱选择会浪费评估机会。

所以本文关注的不是“怎么让 LLM 多生成”,而是“生成之后怎么更聪明地选”。

Problem

解决什么问题:不是缺少候选,而是缺少可信的选择机制。

当前 LLM-powered feature engineering 的隐含假设是:LLM 既会想特征,也会知道哪些特征值得评估。本文认为这个假设太强。

黑箱优化的三个症状

无校准效用无不确定性重复低收益探索

LLM 可能反复提出看起来合理但边际收益很低的 transformation;当迭代预算 \(T\) 很小,错误选择的代价很高。

人类专家的价值

人类未必能直接给每个特征打分,但擅长 pairwise preference:在两个候选操作 \(e_a,e_b\) 之间判断哪个更有希望。

关键是不能每轮都问人,否则认知成本爆炸;必须“值得问时才问”。

例如:预测贷款批准时,让专家在“贷款额/收入”和“年龄平方”之间选一个,通常比让专家估计“能提升多少 AUROC”容易得多。

Existing Methods

目前的方法:AutoML 靠算子搜索,LLM 方法靠语义启发式。

本文的位置很清晰:它不是替换 LLM,也不是替换 AutoML,而是把 LLM 生成能力接到一个更有原则的选择层上。

非 LLM baseline

OpenFE:自动构造并筛选特征,依赖预定义 transformation operators。

AutoGluon:端到端 AutoML 系统,包含自动预处理、模型选择与集成能力,但不是专门利用任务语义生成新特征。

LLM baseline

CAAFE:用任务描述和列语义 prompt LLM,迭代生成 semantically meaningful features。

OCTree:把 LLM 作为黑箱优化器,结合验证分数和决策树蒸馏出的 verbalized reasoning 来提出与改进 feature generation rules。

Method

本文方法:LLM 只提案,BNN+UCB 做选择,人类只在高价值不确定时介入。

整体流程可以顺着“候选生成 → 表示编码 → 代理建模 → UCB 选择 → 选择性偏好反馈 → 评估并更新数据集”理解。

可以把系统想成一个招聘流程:LLM 像猎头,负责推荐很多候选人;BNN 像评估官,预测每个人可能表现如何以及评估有多不确定;UCB 像面试策略,既看当前评分,也给潜力股机会;人类专家只在两个候选很难分出高下时参与面试。

1. LLM 生成给定列描述、任务信息和历史反馈,LLM 采样候选集合 \(S_t\)。
2. 操作编码拼接语义 embedding 与列使用二进制向量 \(\phi(e)\)。
3. BNN 代理拟合 \(\tilde g(\phi(e);\theta)\),输出 \(\mu_t(e)\) 与 \(\sigma_t(e)\)。
4. UCB 选择最大化 \(\mu_t(e)+\sqrt{\beta_t}\sigma_t(e)\),兼顾利用与探索。
5. 人类偏好当 overlap 与 uncertainty 条件同时满足时,查询偏好并更新 posterior。

创新点 1:解耦 proposal 与 selection

LLM 的强项是语义联想和候选生成;选择则交给显式的 utility/uncertainty model。这是本文最重要的工程和建模判断。

创新点 2:把人类反馈变成“预算化观测”

人类反馈不是无条件加入,而是有两个触发条件:候选置信区间必须重叠,且潜在收益上界必须超过反馈成本 \(\gamma_\kappa\)。

Mathematical Modeling

数学表示与建模:从 feature operation 到带偏好反馈的 Bayesian selection。

1. 任务与效用函数

数据集 \(D=\{(x_i,y_i)\}_{i=1}^{n}\),其中 \(x_i \in \mathbb{R}^d\),列集合 \(C=\{c_1,\ldots,c_d\}\)。每个 feature transformation operation \(e \in \mathcal{E}\) 将原数据矩阵 \(X\in\mathbb{R}^{n\times d}\) 映射为新列 \(z_e\in\mathbb{R}^n\)。

\[ g(e)=J(f_{\mathrm{tabular}};D_{\mathrm{val}}\oplus e), \quad f_{\mathrm{tabular}}=\arg\min_f L(f;D_{\mathrm{train}}\oplus e) \]

把候选特征 \(e\) 加进数据表,重新训练一次模型,再看验证集分数。这个分数就是该特征的真实价值 \(g(e)\)。问题是,每测一次都要训练模型,所以很贵。

每轮目标是 \(e_t^\star=\arg\max_{e\in\mathcal{E}}g(e)\)。但 \(g(e)\) 只有在训练下游模型并验证后才能观测,因此是昂贵黑箱。

2. LLM 候选生成

\[ S_t \sim P_M(\cdot \mid H_t,C,\mathrm{Meta}), \quad H_t=\{(e_i,g(e_i))\}_{i=1}^{t-1} \]

第 \(t\) 轮时,LLM 会根据历史上试过哪些特征、效果如何、当前数据列是什么、任务目标是什么,生成一批候选特征 \(S_t\)。

区别于 CAAFE/OCTree,本文不让 \(M\) 直接选择最终 \(e_t\),而是只把 \(M\) 当作 proposal distribution。

3. 操作表示 \(\phi(e)\)

\[ \phi(e)=\left[\phi_{\mathrm{embedding}}(e),\phi_{\mathrm{column}}(e)\right], \quad \phi_{\mathrm{column}}(e)=\big[\mathbb{I}[c_i\text{ is used in }e]\big]_{i=1}^{d} \]

系统要先把“一个特征操作”变成模型能读的向量。这个向量由两部分组成:一部分表示这段操作的语义,另一部分明确标记它用了哪些原始列。

\(\phi_{\mathrm{embedding}}\) 使用 OpenAI text-embedding-3-small;\(\phi_{\mathrm{column}}\) 显式告诉代理模型这个候选特征用到了哪些原始列,弥补自然语言 embedding 对相似列名的混淆。

4. BNN surrogate 与变分后验

作者选择 Bayesian Neural Network 而非 Gaussian Process,因为候选操作是高维语言派生表示,且非平稳性强。后验 \(P(\theta\mid H_t)\) 不可直接求,使用 \(q_t(\theta)=\mathcal{N}(\theta;M_t,\Sigma_t)\) 做变分近似:

\[ \mathrm{KL}\big(q_t(\theta)\|P(\theta\mid H_t)\big) =\mathrm{KL}\big(q_t(\theta)\|P(\theta)\big) -\mathbb{E}_{q_t(\theta)}[\log P(H_t\mid\theta)] +\mathrm{const} \]

实验中先验设为 \(P(\theta)=\mathcal{N}(0,I)\)。预测均值与不确定性为:

\[ \mu_t(e)=\mathbb{E}_{q_t(\theta)}[\tilde g(\phi(e);\theta)], \quad \sigma_t^2(e)=\mathbb{E}_{q_t(\theta)}[\tilde g(\phi(e);\theta)^2]-\mu_t(e)^2 \]

BNN 对每个候选特征输出两个数:\(\mu_t(e)\) 是“我预测它有多好”,\(\sigma_t(e)\) 是“我对这个预测有多没把握”。本文后面的选择策略就靠这两个数。

5. UCB 选择

在置信事件下,\(|g(e)-\mu_t(e)|\le \sqrt{\beta_t}\sigma_t(e)\)。其中 \(\delta=0.1\),\(\beta_t=2\log\left(\frac{|S_t|\pi^2t^2}{3\delta}\right)\)。

\[ \mathrm{UCB}_t(e)=\mu_t(e)+\sqrt{\beta_t}\sigma_t(e), \quad \mathrm{LCB}_t(e)=\mu_t(e)-\sqrt{\beta_t}\sigma_t(e) \]

UCB 分数 = 预测收益 + 不确定性奖励。一个特征如果预测收益高,会被选;如果预测收益一般但模型很不确定,也可能因为“潜在惊喜”被选。LCB 则是比较保守的下界估计。

无人在环时,直接选择 \(e_t^a=\arg\max_{e\in S_t}\mathrm{UCB}_t(e)\)。

6. 选择性人类偏好反馈

人类专家是随机 oracle \(\kappa\),对候选对 \((e_t^a,e_t^b)\) 给出 \(Z_t\in\{+1,-1\}\)。论文先选 \(e_t^a\) 为 UCB 最优,再选 \(e_t^b=\arg\max_{e\in S_t\setminus\{e_t^a\}}\mathrm{UCB}_t(e)\)。

\[ U(e_t^a,e_t^b;\kappa) =\mathbb{E}_{Z_t}\left[g(e'_t)-g(e_t^a)\right] \le \max\{\mathrm{UCB}_t(e_t^b)-\mathrm{LCB}_t(e_t^a),0\} \]

问人类有没有价值,取决于人类反馈是否可能让系统从当前选择 \(e_t^a\) 切换到更好的 \(e_t^b\)。如果 \(e_t^b\) 的最好情况都比不过 \(e_t^a\) 的保守情况,那就没必要问人。

触发人类查询必须同时满足:

\[ \mathrm{UCB}_t(e_t^b)>\mathrm{LCB}_t(e_t^a) \quad\text{and}\quad \sqrt{\beta_t}\big(\sigma_t(e_t^a)+\sigma_t(e_t^b)\big)\ge \gamma_\kappa \]

第一,两个候选的可能表现范围要有重叠,说明确实难分胜负;第二,不确定性要足够大,说明问人类可能带来足够收益,值得付出认知成本。

实验中 \(\gamma_\kappa=4\),偏好置信度超参数 \(\eta=1\)。偏好似然采用 probit:

\[ P(Z_t\mid\theta,e_t^a,e_t^b)= \Phi\left(\eta Z_t\left[\tilde g(\phi(e_t^a);\theta)-\tilde g(\phi(e_t^b);\theta)\right]\right) \]

偏好反馈被视为关于两个候选相对效用的概率观测,而不是硬规则。这一点很关键:人类可能错,模型也可能错,posterior fusion 才是协作。

Experiments

实验方法与设计:主实验、可扩展性、真实用户研究三条线。

主实验设置

数据:18 个表格数据集,其中 13 个分类、5 个回归;每个数据集随机 80%/20% 划分 train/validation,结果平均 5 次运行。

LLM:GPT-4o 主实验,temperature \(=1\),每轮生成 15 个候选,最大迭代 \(T=50\)。额外比较 DeepSeek-V3、GPT-3.5-Turbo、GPT-4o、GPT-5。

下游模型:MLP 与 XGBoost。分类指标为 AUROC,回归指标为 normalized RMSE。

怎么看:作者不是只在一个模型上试,而是用 MLP 和 XGBoost 两种不同下游模型,检查生成的特征是否普遍有帮助。

Baseline

OpenFEAutoGluonCAAFEOCTree

OpenFE/AutoGluon 代表非 LLM AutoML 特征工程;CAAFE/OCTree 代表 LLM-based feature engineering。非 LLM 方法跑到收敛,LLM 方法统一迭代预算。

怎么看:如果本文方法超过 CAAFE/OCTree,说明收益不只是来自“用了 LLM”,而是来自“更会选择 LLM 候选”。

算法 1:Iterative Selection of LLM-Proposed Feature Transformation Operations
Input: D_train, D_eval, LLM M, tabular learner f, budget T
Initialize H_1 = empty, feature operation pool S_0 = empty
for t = 1 ... T:
  S_t = {operations proposed by M in round t} union S_{t-1} minus {previously selected}
  Fit surrogate q_t(theta) using history H_t
  e_a = argmax_e UCB_t(e)
  if human expertise is unavailable:
    e_selected = e_a
  else:
    e_b = argmax_{e in S_t \ {e_a}} UCB_t(e)
    if overlap and uncertainty trigger conditions hold:
      Z_t = kappa(e_a, e_b)
      update posterior q'_t(theta) using preference likelihood
      e_selected = argmax_{e in {e_a,e_b}} UCB_t(e)
    else:
      e_selected = e_a
  Fit f on D_train plus e_selected; evaluate g(e_selected) on D_val plus e_selected
  H_{t+1} = H_t union {(e_selected, g(e_selected))}
  if g(e_selected) > 0:
    append the new feature column to D_train and D_val
return selected operations and updated datasets
LLM 生成候选的 prompt 模板
You are an expert data scientist with deep expertise in feature engineering.
Dataset Context:
- Task type: [CLASSIFICATION_OR_REGRESSION]
- Metric: [ROC_AUC_OR_OTHER]
- Columns (name:type): [COLS_WITH_TYPES]
- Target: <TARGET_NAME>
- Notes (missingness, skew, constraints): <DATA_NOTES>
Recent performance feedback: [PERFORMANCE HISTORY]
Remaining iteration budget: [BUDGET]

Suggest up to K complementary NEW features as a JSON list.
Each item includes:
{
  "name": "snake_case_identifier",
  "explanation": "why this feature helps",
  "reasoning": "what history pattern informs this choice",
  "code": "feature = <python expression using df[...] + helper ops>",
  "expected_benefit": "specific hypothesis"
}

Rules: no label leakage; avoid rejected patterns; build on successful features;
combine multiple columns when useful; keep candidates diverse; return JSON only.
模拟人类专家偏好的 prompt 模板
You are a senior ML scientist specializing in tabular feature engineering.
Use dataset context and SHAP-based feature importances to judge which of
two candidate feature operations is more likely to improve the downstream metric.

Prefer: high-SHAP columns, useful transformations, interactions, ratios,
bins, complementary and robust features.
Penalize: duplicated, noisy, fragile, or label-leaking features.

Output JSON only:
{ "choice": "A" | "B" }

数据集清单

Dataset描述#Features#InstancesTask
flight基于航班计划与航空属性预测延误/满意度相关分类任务2225,976Classification
wine基于理化测试结果分类葡萄酒质量11945Classification
loan基于人口统计和财务属性预测贷款批准1345,000Classification
diabetes基于女性患者医疗测量诊断糖尿病2140,000Classification
titanic基于人口统计和票务信息预测 Titanic 生还8891Classification
travel预测客户是否购买旅游保险或提出 claim863,326Classification
ai usage预测受访者是否报告使用 AI 工具810,000Classification
water基于理化指标判断水是否可饮用93,276Classification
heart基于临床测量诊断心脏病11918Classification
adult基于人口普查属性预测收入是否超过 $50K1432,561Classification
customer基于电信使用统计预测客户流失207,043Classification
personality基于问卷回答预测 Big Five 人格类型72,900Classification
conversion预测在线购物者是否转化购买,私有公司数据17815,000Classification
housing基于房屋信息预测房价920,640Regression
forest基于地理信息预测森林火灾 burned area12517Regression
bike基于天气与日历信息预测每日自行车租赁数917,414Regression
crab基于生物测量预测螃蟹年龄83,893Regression
insurance预测保险费用61,339Regression
Results

实验结果:主要收益来自“会选”,人类反馈进一步推高上限。

先看结论:Ours w/o human 已经普遍超过 baseline,说明 BNN+UCB 的选择机制本身有效;Ours w/ human 通常更高,说明在关键不确定时加入人类偏好还能继续提升。

分类主结果:Table 1,AUROC (%)

下表保留论文 Table 1 的具体数值。蓝色为该行最佳本文方法;绿色为最佳 baseline。括号为相对最佳 baseline 的 error reduction。

表格怎么看:AUROC 越高越好。你可以横着看每个数据集:如果 Ours w/o 或 Ours w/ 比 OpenFE、AutoGluon、CAAFE、OCTree 更高,就说明本文方法造出的特征让模型区分正负样本的能力更强。

DatasetMLP OpenFEMLP AutoGluonMLP CAAFEMLP OCTreeMLP Ours w/oMLP Ours w/XGB OpenFEXGB AutoGluonXGB CAAFEXGB OCTreeXGB Ours w/oXGB Ours w/
flight93.392.692.994.896.9 (+40.4%)97.3 (+48.1%)95.795.495.296.497.6 (+33.3%)98.0 (+44.4%)
wine77.277.277.678.278.5 (+1.4%)78.7 (+2.3%)81.381.080.982.182.9 (+4.5%)83.3 (+6.7%)
loan95.395.495.795.996.0 (+2.4%)96.1 (+4.9%)96.296.096.196.596.9 (+11.4%)97.1 (+17.1%)
diabetes81.182.482.882.883.0 (+1.2%)83.0 (+1.2%)84.183.983.984.485.2 (+5.1%)84.8 (+2.6%)
titanic84.184.386.386.586.8 (+2.2%)87.0 (+3.7%)85.084.887.087.487.9 (+4.0%)88.3 (+7.1%)
travel80.480.381.181.782.0 (+1.6%)82.3 (+3.3%)83.683.283.684.685.3 (+4.5%)85.7 (+7.1%)
aiusage67.867.568.268.068.5 (+0.9%)68.3 (+0.3%)71.871.571.372.473.3 (+3.3%)73.8 (+5.1%)
water53.753.256.757.958.7 (+1.9%)59.3 (+3.3%)56.756.159.861.763.2 (+3.9%)64.1 (+6.3%)
heart92.292.392.693.193.4 (+4.3%)93.6 (+7.2%)93.693.593.694.395.1 (+14.0%)94.8 (+8.8%)
adult90.590.490.890.991.3 (+4.4%)91.4 (+5.5%)91.691.391.592.092.4 (+5.0%)92.8 (+10.0%)
customer84.684.584.984.885.1 (+1.3%)85.1 (+1.3%)85.385.085.385.285.8 (+3.4%)86.3 (+6.8%)
personality94.494.195.095.496.1 (+15.2%)96.1 (+15.2%)96.496.296.697.197.4 (+10.3%)97.6 (+17.2%)
conversion90.790.690.991.192.6 (+16.9%)92.9 (+20.2%)91.291.992.192.493.5 (+5.7%)93.9 (+11.5%)

平均分类收益

MLP 下,Ours w/o human 对最佳 baseline 的平均 error reduction 为 7.24%,w/ human 为 8.96%

XGBoost 更明显

XGBoost 下,Ours w/o human 为 9.02%,w/ human 为 11.23%

私有数据验证

conversion 数据集不可被 LLM 训练语料直接记忆。MLP 下 OCTree 91.1,Ours w/ human 92.9。

不同 LLM backbone:Table 2,平均 AUROC (%)

BackboneMLP OpenFEMLP AutoGluonMLP CAAFEMLP OCTreeMLP Ours w/oMLP Ours w/XGB OpenFEXGB AutoGluonXGB CAAFEXGB OCTreeXGB Ours w/oXGB Ours w/
DeepSeek-V383.583.584.985.586.186.485.685.486.687.388.288.6
GPT-3.5-Turbo83.583.583.284.284.685.185.685.485.286.086.587.1
GPT-4o83.583.584.384.785.385.585.685.485.986.787.487.4
GPT-583.583.585.585.885.986.585.685.487.187.788.088.7

迭代轨迹与用户研究

Figure 1 cropped charts

Figure 1:每条线表示一种方法随迭代轮数增加的 AUROC。黄色/红色是本文方法,整体比 CAAFE/OCTree 更快上升、更少停滞,说明它更会把有限迭代花在有价值的特征上。

Figure 2 cropped charts

Figure 2:真实用户研究。左图看最终 AUROC,ALG 更高;中图看完成时间,ALG 更短;右图看用户体验,ALG 的认知负荷更低、满意度更高。意思是本文方法不仅效果好,也让人更省力。

可扩展性:Table 3/4

FeaturesLLM(s)Surrogate(s)UCB(s)Eval(s)
101.820.170.0061.79
501.820.160.0051.24
1001.820.190.0051.78
1,0001.820.200.0098.40
10,0001.820.570.01823.40
SamplesLLM(s)Surrogate(s)UCB(s)Eval(s)
1,0001.820.170.0050.28
5,0001.820.180.0050.89
10,0001.820.230.0061.47
50,0001.820.180.0065.22
100,0001.820.180.00510.65

作者结论:BNN surrogate 与 UCB 计算主要在 feature-operation 层面工作,对样本数几乎不敏感;瓶颈仍是 LLM 调用和下游模型评估。

回归任务补充:Table C.2,normalized RMSE,越低越好

DatasetMLP OpenFEMLP AutoGluonMLP CAAFEMLP OCTreeMLP Ours w/oMLP Ours w/XGB OpenFEXGB AutoGluonXGB CAAFEXGB OCTreeXGB Ours w/oXGB Ours w/
housing0.3160.3190.2920.2830.2700.2660.2280.2310.2240.2210.2160.214
forest1.8511.8511.7501.7241.6551.6211.4481.4691.4211.4181.4021.398
bike0.2950.3020.2820.2740.2620.2610.2160.2190.2110.2080.2030.201
crab0.2860.2880.2580.2520.2420.2390.2260.2300.2240.2220.2190.217
insurance0.5110.5120.4730.4620.4670.4620.3840.3850.3820.3810.3790.378
Reproducibility

复现路线:照这个 checklist 基本能搭出论文系统。

实现组件

1. 数据读取与 80/20 随机划分;2. 下游 MLP/XGBoost 训练评估;3. LLM JSON 候选生成器;4. 特征代码安全执行器;5. operation embedding;6. column usage encoder;7. BNN surrogate;8. UCB selector;9. preference oracle;10. 历史 \(H_t\) 与 accepted feature 管理。

关键超参数

\(T=50\),每轮候选 \(K=15\),temperature \(=1\),\(\delta=0.1\),\(\gamma_\kappa=4\),\(\eta=1\),embedding model 为 text-embedding-3-small,BNN prior 为 \(P(\theta)=\mathcal{N}(0,I)\)。

论文给出的候选特征示例
digital_experience_tensor:
gmean = (df['Inflight wifi service'] * df['Ease of Online booking'] * df['Online boarding']) ** (1/3)
comfort = np.tanh((df['Seat comfort'] + df['Leg room service']) / 2.0)
feature = (gmean * (df['Cleanliness'] ** 0.5)) * comfort

age_weighted_health_interaction:
feature = (df['Age'] * (df['HighBP'] + df['HighChol'] + df['HeartDiseaseorAttack'])) \
          / (1 + df['Smoker'] * df['BMI'])

lifestyle_risk_balance_enhanced:
feature = (df['Fruits'] + df['Veggies'] + df['PhysActivity']) / \
          (df['Smoker'] + df['HvyAlcoholConsump'] + df['NoDocbcCost'] + 1)
Reviewer Comments

我的评论:想法漂亮,但证据链还有几处会被认真追问。

优势

第一,问题定义非常到位:LLM 最大价值是 proposal,不是 calibrated optimizer。把选择权交给显式 surrogate,是很符合系统设计直觉的。

第二,选择性人类反馈不是装饰,而是嵌进 regret/uncertainty 框架里,有明确触发条件,避免“人在环”沦为口号。

第三,真实用户研究补上了只用 GPT-4o 模拟专家的缺口,显示 ALG 不只提高 AUROC,还降低时间和认知负荷。

不足

最尖锐的问题:主实验的 w/ human 用 GPT-4o+SHAP prompt 模拟人类专家,严格说这不是 human expertise,而是另一个 LLM oracle。它证明了 preference signal 有用,但没有完全证明真实专家在多数据集上同样有用。

第二,\(g(e)>0\) 才接受新特征的规则依赖“utility 是否相对基线定义为增益”。论文公式写的是验证得分 \(J\),这里存在表述不够严谨的问题。

第三,BNN 的结构、训练细节、优化轮数、MC 采样数没有在抽取到的正文中充分展开;若要完全复现,仍需作者代码或更详细 appendix。

可能改进

可以加入 ablation:只用 embedding、不用 column encoder;GP/随机森林/深度 ensemble 作为 surrogate;不同 \(\gamma_\kappa\) 下的人类查询次数与收益曲线。

还应报告 feature execution failure rate、重复特征率、候选合法性,以及每轮实际触发人类反馈的比例。否则很难判断 gains 来自 selection、filtering 还是代码执行策略。

我会怎么打分

作为 ICLR 论文,我会倾向 weak accept 到 accept:核心 framing 很强,实验覆盖面不错,用户研究加分;但模拟人类反馈和复现细节不足会压低置信度。

One More Thing

这篇论文真正有意思的地方,是它把“LLM agent”重新拆回了可控系统。

它没有继续堆更强 prompt 或更强模型,而是问:LLM 哪部分能力可靠,哪部分不可靠? 答案是:生成候选可靠一些,评估与选择不可靠。于是系统把 LLM 放在高召回的生成位置,把选择交给 uncertainty-aware optimization,把人类放在低频但高杠杆的 pairwise 判断位置。 这比“让 LLM 端到端自治”更像一个能进生产环境的研究方向。