TopBench: A Benchmark for Implicit Prediction and Reasoning over Tabular Question Answering

基本信息

arXiv ID: 2604.28076v1
作者: An-Yang Ji, Jun-Peng Jiang, De-Chuan Zhan et al.
发布日期: 2026-04-30
分类: cs.CL, cs.AI, cs.LG

摘要

English

Large Language Models (LLMs) have advanced Table Question Answering, where most queries can be answered by extracting information or simple aggregation. However, a common class of real-world queries is implicitly predictive, requiring the inference of unobserved answers from historical patterns rather than mere retrieval. These queries introduce two challenges: recognizing latent intent and reliable predictive reasoning over massive tables. To assess LLMs in such Tabular questioning answering with implicit prediction tasks, we introduce TopBench, a benchmark composed of 779 samples across four subtasks ranging from point prediction to decision making, treatment effect analysis, and complex filtering, requiring models to generate outputs covering reasoning text and structured tables. We evaluate different models under text-based and agent-based workflows. Experiments show that current models frequently struggle to identify intent and default to mere lookup. Deeper analysis reveals that accurate intent disambiguation is a prerequisite for guiding these predictive behaviors. Additionally, improving the upper bound of prediction accuracy requires integrating more complex modeling or reasoning capabilities.

中文

大型语言模型（LLM）在表格问答方面取得了进展，大多数查询可以通过提取信息或简单聚合来回答。然而，一类常见的现实世界查询是隐式预测的，需要从历史模式中推断出未观察到的答案，而不仅仅是检索。这些查询带来了两个挑战：识别潜在意图和对大量表进行可靠的预测推理。为了评估LLM在此类隐式预测任务中回答表格问题的情况，我们引入了TopBench，这是一个由四个子任务的779个样本组成的基准，范围从单点预测到决策、治疗效果分析和复杂过滤，要求模型生成涵盖推理文本和结构化表格的输出。我们在基于文本和基于代理的工作流程下评估不同的模型。实验表明，当前的模型经常难以识别意图，默认只进行查找。更深入的分析表明，准确的意图消歧是引导这些预测行为的先决条件。此外，提高预测精度的上限需要集成更复杂的建模或推理能力。

核心贡献

提出TopBench基准：创建了首个专注于表格问答中隐式预测任务的基准测试集，包含779个样本，涵盖四个子任务：单点预测、决策、治疗效果分析和复杂过滤。
定义隐式预测挑战：明确区分了表格问答中的信息检索型查询和隐式预测型查询，指出后者需要从历史模式中推断未观察到的答案，而非简单的信息提取。
识别两大核心挑战：揭示了隐式预测任务中的两个关键挑战——意图识别（recognizing latent intent）和可靠的预测推理（reliable predictive reasoning），为后续研究指明了方向。
评估文本和代理两种工作流：在基于文本和基于代理（agent-based）的两种工作流程下对多种模型进行了系统评估，提供了全面的性能对比。
揭示当前模型的局限性：实验发现当前模型在识别预测意图方面存在严重不足，默认退化为简单的查找操作，指出了意图消歧作为预测行为先决条件的重要性。

方法概述

TopBench是一个针对表格问答中隐式预测任务设计的综合基准。与传统的表格问答基准不同，TopBench关注的是需要模型进行隐式预测的查询——即那些不能仅通过检索或简单聚合来回答，而需要从历史数据模式中推断未观察答案的问题。

该基准包含四个精心设计的子任务：（1）单点预测——基于历史数据预测某个具体数值；（2）决策——根据表格信息做出选择性判断；（3）治疗效果分析——分析干预措施的因果效果；（4）复杂过滤——在复杂条件组合下进行数据筛选和推理。共计779个样本，每个样本要求模型生成包含推理文本和结构化表格的输出，全面评估模型的理解、推理和生成能力。

在评估方法上，TopBench采用了两种互补的工作流程：基于文本的端到端推理和基于代理（agent）的工具增强推理。前者评估LLM直接处理表格的能力，后者则结合外部工具和代码执行能力，模拟实际应用中的复杂推理场景。这种双轨评估设计能够全面揭示模型在不同场景下的能力边界。

实验结果

模型普遍退化为查找：当前LLM在面对隐式预测查询时，经常无法正确识别预测意图，默认退化为简单的信息查找操作，未能执行所需的推理步骤。
意图消歧是关键瓶颈：深入分析表明，准确的意图消歧（intent disambiguation）是引导预测行为的先决条件；如果模型无法正确理解查询的隐式预测意图，则无法启动正确的推理流程。
预测精度有待提升：提高预测精度的上限需要集成更复杂的建模或推理能力，当前模型在复杂预测任务上的表现仍有较大提升空间。
代理工作流的潜力：基于代理的工作流程在某些任务上展现出潜力，表明工具增强的推理方式可能更适合处理复杂的隐式预测任务。

分析信息

分析来源: pdf_analysis
分析置信度: high
分析时间: 2026-05-01 21:13
关键词: LLM, table QA, benchmark, implicit prediction, reasoning, intent disambiguation
PDF 路径: /root/wiki/raw/papers/2604-28076v1.pdf

导入时间: 2026-05-01 19:53 来源: arXiv Daily Digest 2026-05-01