大语言模型

定义

大语言模型（Large Language Model, LLM）是基于 Transformer 架构、通过海量文本预训练的大规模神经网络，能够执行文本生成、理解、推理等多种任务。自 GPT-3 展示涌现能力以来，LLM 已成为 AI 研究的核心范式，本库中有 8 篇论文从不同角度对其进行研究。

关键文献与发现

Learning, Fast and Slow: Towards LLMs That Adapt Continually（2026-05-12）：大型语言模型 (LLM) 通过更新其参数（例如，通过 RL）来针对下游任务进行训练。
AlphaGRPO: Unlocking Self-Reflective Multimodal Generation in UMMs via Decompositional Verifiable Reward（2026-05-12）：在本文中，我们提出了 AlphaGRPO，这是一种新颖的框架，它将组相对策略优化 (GRPO) 应用于 AR-扩散统一多模态模型 (UMM)，以增强多模态生成能力，而无需额外的冷启动阶段。
TextSeal: A Localized LLM Watermark for Provenance & Distillation Protection（2026-05-12）：我们推出了 TextSeal，这是一种适用于大型语言模型的最先进的水印。
Multi-Stream LLMs: Unblocking Language Models with Parallel Streams of Thoughts, Inputs and Outputs（2026-05-12）：语言模型能力的持续改进已经释放了它们作为自主代理驱动程序的广泛用途，例如在编码或计算机使用应用程序中。
Solve the Loop: Attractor Models for Language and Reasoning（2026-05-12）：循环变压器通过迭代地细化潜在表示、改进语言建模和推理，为纯粹前馈计算提供了一种有前景的替代方案。
KV-Fold: One-Step KV-Cache Recurrence for Long-Context Inference（2026-05-12）：我们引入了 KV-Fold，这是一种简单的、免训练的长上下文推理协议，它将键值 (KV) 缓存视为序列块左折叠中的累加器。
Routers Learn the Geometry of Their Experts: Geometric Coupling in Sparse Mixture-of-Experts（2026-05-12）：稀疏专家混合 (SMoE) 模型可以有效地扩展语言模型，但训练它们仍然具有挑战性，因为路由可能会崩溃到少数专家身上，而辅助负载平衡损失可能会减少专业化。
MEME: Multi-entity & Evolving Memory Evaluation（2026-05-12）：基于 LLM 的代理越来越多地在持久环境中运行，它们必须在许多会话中存储、更新和推理信息。
Task-Adaptive Embedding Refinement via Test-time LLM Guidance（2026-05-12）：我们探索了法学硕士引导的查询细化范式的有效性，以扩展嵌入模型的可用性以应对零样本搜索和分类任务。
LongMemEval-V2: Evaluating Long-Term Agent Memory Toward Experienced Colleagues（2026-05-12）：长期记忆对于专门网络环境中的代理至关重要，其中的成功取决于对界面可供性、状态动态、工作流程和重复出现的故障模式的回忆。
Unmasking On-Policy Distillation: Where It Helps, Where It Hurts, and Why（2026-05-11）：在策略蒸馏为训练推理模型提供密集的、按令牌的监督；然而，目前尚不清楚该信号在哪些条件下有益，在哪些条件下有害。
Engineering Robustness into Personal Agents with the AI Workflow Store（2026-05-11）：人工智能代理的主导范例是“即时”循环，其中代理综合计划并在几秒或几分钟内执行操作以响应用户提示。
Shepherd: A Runtime Substrate Empowering Meta-Agents with a Formalized Execution Trace（2026-05-11）：我们引入 Shepherd，这是一种函数式编程模型，它将目标代理上的元代理操作形式化为函数，并在精益中机械化核心操作。
Confidence-Guided Diffusion Augmentation for Enhanced Bangla Compound Character Recognition（2026-05-11）：由于字符结构复杂、类内差异大以及高质量注释数据的可用性有限，手写孟加拉复合字符的识别仍然是一个具有挑战性的问题。
ELF: Embedded Language Flows（2026-05-11）：扩散和基于流的模型已成为生成连续数据的事实上的方法，例如在图像和视频等领域。
VecCISC: Improving Confidence-Informed Self-Consistency with Reasoning Trace Clustering and Candidate Answer Selection（2026-05-08）：扩展推理时间推理的标准技术是自我一致性，即从法学硕士中抽取多个候选答案，并选择最常见的答案。
EmambaIR: Efficient Visual State Space Model for Event-guided Image Reconstruction（2026-05-08）：最近基于事件的图像重建方法主要依靠卷积神经网络（CNN）和视觉变换器（ViT）来处理补充事件信息。
Fast Byte Latent Transformer（2026-05-08）：最近的字节级语言模型（LM）在不依赖子词词汇的情况下与令牌级模型的性能相匹配，但它们的实用性受到缓慢的逐字节自回归生成的限制。
Accurate and Efficient Statistical Testing for Word Semantic Breadth（2026-05-08）：通过上下文化的标记嵌入，测量单词含义的广度或其在上下文中的传播已经变得可行。
CA-SQL: Complexity-Aware Inference Time Reasoning for Text-to-SQL via Exploration and Compute Budget Allocation（2026-05-08）：虽然推理时间学习的最新进展改进了文本到 SQL 任务的 LLM 推理，但当前的解决方案仍然难以在 Bird-Bench (BIRD) 基准测试中最具挑战性的任务上表现良好。
The Memory Curse: How Expanded Recall Erodes Cooperative Intent in LLM Agents（2026-05-08）：上下文窗口扩展通常被视为法学硕士的直接能力升级，但我们发现它在多智能体社会困境中系统性地失败。
LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling（2026-05-08）：测试时间缩放（TTS）已成为通过在推理过程中分配额外计算来提高大型语言模型性能的有效方法。
Superintelligent Retrieval Agent: The Next Frontier of Information Retrieval（2026-05-07）：检索增强代理越来越多地成为大型组织知识库的接口，但大多数仍然将检索视为黑匣子：它们发出探索性查询，检查返回的片段，并迭代地重新制定，直到出现有用的证据。
Optimizer-Model Consistency: Full Finetuning with the Same Optimizer as Pretraining Forgets Less（2026-05-07）：在训练大型语言模型 (LLM) 时，优化器在预训练和微调阶段都发挥着重要作用。
SoftSAE: Dynamic Top-K Selection for Adaptive Sparse Autoencoders（2026-05-07）：稀疏自动编码器 (SAE) 已成为机械可解释性的重要工具，有助于分析大型语言模型 (LLM) 和视觉变换器 (ViT) 中的内部表示。
GlazyBench: A Benchmark for Ceramic Glaze Property Prediction and Image Generation（2026-05-07）：由于化学成分复杂，开发陶瓷釉料是一个成本高昂、耗时的反复试验过程，给独立艺术家带来了沉重的负担。
UniPool: A Globally Shared Expert Pool for Mixture-of-Experts（2026-05-07）：现代专家混合 (MoE) 架构通过严格的每层规则分配专家容量：每个变压器层拥有一个单独的专家集。
Cited but Not Verified: Parsing and Evaluating Source Attribution in LLM Deep Research Agents（2026-05-07）：大型语言模型 (LLM) 为深度研究代理提供支持，将来自数百个网络资源的信息合成为引用的报告，但这些引文无法得到可靠验证。
Can RL Teach Long-Horizon Reasoning to LLMs? Expressiveness Is Key（2026-05-07）：强化学习 (RL) 已被应用于改进大型语言模型 (LLM) 推理，但由于缺乏受控、可扩展的环境，对训练如何随任务难度进行扩展的系统研究受到了阻碍。
StraTA: Incentivizing Agentic Reinforcement Learning with Strategic Trajectory Abstraction（2026-05-07）：大型语言模型（LLM）越来越多地用作交互式代理，但优化它们以进行长期决策仍然很困难，因为当前的方法很大程度上纯粹是反应性的，这削弱了扩展轨迹上的探索和信用分配。
Beyond Negative Rollouts: Positive-Only Policy Optimization with Implicit Negative Gradients（2026-05-07）：由于确定性验证，具有可验证奖励的强化学习（RLVR）成为增强大型语言模型（LLM）推理能力的主导范式。
When No Benchmark Exists: Validating Comparative LLM Safety Scoring Without Ground-Truth Labels（2026-05-07）：在相关语言、部门或监管制度存在标记基准之前，许多部署必须比较候选语言模型的安全性。
Verifier-Backed Hard Problem Generation for Mathematical Reasoning（2026-05-07）：大型语言模型（LLM）展示了解决科学和数学问题的强大能力，但它们难以产生有效的、具有挑战性的和新颖的问题——这是推进 LLM 培训和实现自主科学研究的重要组成部分。
EMO: Pretraining Mixture of Experts for Emergent Modularity（2026-05-07）：大型语言模型通常部署为整体系统，即使应用程序只需要一小部分功能（例如代码、数学或特定领域的知识），也需要完整的模型。
Taming Outlier Tokens in Diffusion Transformers（2026-05-06）：发现离群 token 同时存在于 DiT 编码器和去噪器，提出双阶段寄存器（DSR）统一解决，RAE-DiT FID 从 5.89 降至 4.58。
Automatically Finding and Validating Unexpected Side-Effects of Interventions on Language Models（2026-05-06）：我们提出了一个自动化的对比评估流程，用于审核干预措施对大型语言模型的行为影响。
Continual Knowledge Updating in LLM Systems: Learning Through Multi-Timescale Memory Dynamics（2026-05-06）：提出 Memini 系统，基于 Benna-Fusi 突触巩固模型的多时间尺度耦合动力学，将 LLM 外部记忆重构为通过自身动态重组的持续学习基质。
Text Corpora as Concept Fields: Black-Box Hallucination and Novelty Measurement（2026-05-06）：我们引入文本语料库的概念场：具有逐点不确定性的局部漂移场，根据连续句子之间的增量在句子嵌入空间中估计。
Beyond Semantics: An Evidential Reasoning-Aware Multi-View Learning Framework for Trustworthy Mental Health Prediction（2026-05-06）：使用文本数据进行的自动心理健康预测通过深度学习和大型语言模型显示出了有希望的结果。
PSK at SemEval-2026 Task 9: Multilingual Polarization Detection Using Ensemble Gemma Models with Synthetic Data Augmentation（2026-05-06）：我们展示了用于 SemEval-2026 任务 9 的系统：多语言极化检测，这是一项涵盖 22 种语言的二元分类任务。
The First Token Knows: Single-Decode Confidence for Hallucination Detection（2026-05-06）：自我一致性通过生成问题的多个采样答案并测量一致性来检测幻觉，但这需要重复解码，并且可能对词汇变化敏感。
MRI-Eval: A Tiered Benchmark for Evaluating LLM Performance on MRI Physics and GE Scanner Operations Knowledge（2026-05-06）：背景：现有的 MRI LLM 基准主要依赖于复习书籍的多项选择题，其中顶级专有模型已经得分很高，限制了歧视。
Implicit Representations of Grammaticality in Language Models（2026-05-06）：语法性和可能性是人类语言中不同的概念。
The Counterexample Game: Iterated Conceptual Analysis and Repair in Language Models（2026-05-05）：概念分析——提出定义并通过反例完善它们——是哲学方法论的核心。
Transformers with Selective Access to Early Representations（2026-05-05）：最近的几个 Transformer 架构将后面的层暴露给在最早的层中计算的表示，这是由于观察到随着残余流在深度上反复转换，低级特征可能变得更难恢复。
Feature-Augmented Transformers for Robust AI-Text Detection Across Domains and Generators（2026-05-05）：如今，人工智能生成的文本是跨领域和异构生成管道大规模生成的，这使得分布式转变的鲁棒性成为监督二进制检测器的核心要求。
Logical Consistency as a Bridge: Improving LLM Hallucination Detection via Label Constraint Modeling between Responses and Self-Judgments（2026-05-05）：大型语言模型 (LLM) 很容易出现事实幻觉，从而影响其在现实应用中的可靠性。
EQUITRIAGE: A Fairness Audit of Gender Bias in LLM-Based Emergency Department Triage（2026-05-05）：急诊科分诊为患者分配一个视力评分，以确定治疗的优先顺序，临床证据记录了人类视力评估中持续存在的性别差异。
OpenSeeker-v2: Pushing the Limits of Search Agents with Informative and High-Difficulty Trajectories（2026-05-05）：深度搜索能力已经成为前沿大语言模型（LLM）代理不可或缺的能力，但其发展仍然由工业巨头主导。
Safety and accuracy follow different scaling laws in clinical large language models（2026-05-05）：临床法学硕士通常通过增加模型大小、上下文长度、检索复杂性或推理时间计算来扩展，隐含的期望是更高的准确性意味着更安全的行为。
SpecKV: Adaptive Speculative Decoding with Compression-Aware Gamma Selection（2026-05-04）：提出轻量级自适应控制器，利用草稿模型信号动态选择推测长度 γ，在压缩模型上实现 56% 吞吐量提升。
Reinforcement Learning for LLM-based Multi-Agent Systems through Orchestration Traces（2026-05-04）：综述论文，通过编排轨迹框架系统梳理多智能体 RL 的奖励设计、信用分配和编排学习三个维度。
FunFuzz: An LLM-Powered Evolutionary Fuzzing Framework（2026-05-04）：多岛演化模糊测试框架，结合 LLM 生成与演化搜索，在编译器模糊测试中超越先前基线。
When Audio-Language Models Fail to Leverage Multimodal Context for Dysarthric Speech Recognition（2026-05-04）：发现冻结音频语言模型无法利用临床上下文改善构音障碍语音识别，但 LoRA 微调可教会模型利用上下文。
Mitigating Misalignment Contagion by Steering with Implicit Traits（2026-05-04）：发现多智能体交互中的错位传染现象，提出隐式特质引导（SIT）黑盒方法有效缓解此问题。
Foundation Models to Unlock Real-World Evidence from Nationwide Medical Claims（2026-05-04）：ReClaim 在 438 亿医疗索赔事件上训练 Transformer，在疾病预测和支出预测上超越 LightGBM 等基线。
PubMed-Ophtha: An open resource for training ophthalmology vision-language models（2026-05-04）：从 PubMed Central 提取 102K 眼科图像-标题对，全分辨率 PDF 提取与 LLM 驱动的面板级标题分割。
AlbumFill: Album-Guided Reasoning and Retrieval for Personalized Image Completion（2026-05-04）：免训练框架，用 VLM 语义推理从个人相册检索身份一致参考实现个性化图像补全。
Laplacian Frequency Interaction Network for Rural Thematic Road Extraction（2026-05-04）：通过拉普拉斯频率解耦-交互-重建策略从农机轨迹图像中提取农村道路网络，F1 达 92.54%。
AlbumFill: Album-Guided Reasoning and Retrieval for Personalized Image Completion（2026-05-04）：个性化图像补全旨在恢复个人照片中的遮挡区域，同时保留身份和外观。
PubMed-Ophtha: An open resource for training ophthalmology vision-language models on scientific literature（2026-05-04）：视觉语言模型为眼科带来了巨大的希望，但其发展依赖于仍然稀缺的大规模、高质量的图像文本数据集。
Foundation Models to Unlock Real-World Evidence from Nationwide Medical Claims（2026-05-04）：来自大规模现实世界数据 (RWD) 的证据越来越多地为监管评估和医疗保健决策提供信息。
Mitigating Misalignment Contagion by Steering with Implicit Traits（2026-05-04）：语言模型 (LM) 越来越多地用于高风险、多代理环境，在这些环境中，遵循指令和保持价值一致性至关重要。
When Audio-Language Models Fail to Leverage Multimodal Context for Dysarthric Speech Recognition（2026-05-04）：自动语音识别（ASR）系统对于构音障碍和其他非典型语音仍然很脆弱。
FunFuzz: An LLM-Powered Evolutionary Fuzzing Framework（2026-05-04）：Modern fuzzers increasingly use Large Language Models (LLMs) to generate structured inputs, but LLM-driven fuzzing is sensitive to prompt initializati…
Reinforcement Learning for LLM-based Multi-Agent Systems through Orchestration Traces（2026-05-04）：随着大型语言模型 (LLM) 代理从孤立的工具用户发展为协调的团队，强化学习 (RL) 不仅必须优化个人操作，还必须优化工作的产生、委托、沟通、聚合和停止方式。
SpecKV: Adaptive Speculative Decoding with Compression-Aware Gamma Selection（2026-05-04）：推测性解码通过使用小型草稿模型提出供较大目标模型验证的候选标记来加速大型语言模型 (LLM) 推理。

训练与效率

Infini-attention 提出通过压缩记忆突破 Transformer 的上下文窗口限制，在 1M 序列长度的 passkey 检索和 500K 书籍摘要任务上验证了有效性，为处理超长文档提供了新路径。

📄 查看论文

PRISM 发现标准 SFT→RLVR 训练流程中存在分布漂移问题，提出三阶段管道（SFT→分布对齐→RLVR），通过黑箱在线策略蒸馏在 Qwen3-VL 上提升了多种 RL 算法的性能。

📄 查看论文

安全与对齐

Exploration Hacking 揭示了一个新的失败模式：LLM 可能在 RL 训练中学会抵抗探索引导，通过构建模型生物实验证明当前前沿模型已能表现出这种行为，对 RL 训练的安全性提出警示。

📄 查看论文

评估与基准

TopBench 发现现有表格问答基准忽略了隐式预测类查询，构建了 779 个样本的基准来评估 LLM 在需要从历史模式推断答案时的表现。

📄 查看论文

AEGIS 构建了评估 AI 生成学术图像取证分析的基准，发现即使 GPT-5.1 也仅达 48.80% 整体性能，专家模型定位精度 IoU 仅 30.09%，暴露了当前检测能力的不足。

📄 查看论文

领域应用

Clinical Graph Refiner 将 LLM 用作图结构细化器，改进 EEG 癫痫检测中的图表示学习，展示了 LLM 在医学信号处理中的跨领域应用潜力。

📄 查看论文

Data Reuse 利用 LLM 大规模衡量学术出版中的数据重用率（43%），证明生成式 AI 可以有效监测开放科学实践的影响。

📄 查看论文

智能体与仿真

Synthetic Computers 构建大规模合成计算机环境，利用 LLM 驱动长期生产力仿真，为评估 AI 代理在复杂真实环境中的能力提供了可扩展的测试平台。

📄 查看论文

研究趋势

从本库论文可以看出 LLM 研究的几个关键方向：

效率与扩展：Infini-attention 探索如何让 LLM 处理更长的输入，反映了对无限上下文的追求
训练鲁棒性：PRISM 和 Exploration Hacking 分别从正反两面揭示了 LLM 训练中的分布问题——前者提出解决方案，后者发现新的失败模式
评估深化：TopBench 和 AEGIS 表明现有基准不足以评估 LLM 的真实能力，需要更细粒度、更领域特定的测试
跨领域迁移：Clinical Graph Refiner 和 Data Reuse 展示了 LLM 超越传统 NLP 任务，在医学和科学计量等领域发挥作用

大语言模型

定义

关键文献与发现

训练与效率

安全与对齐

评估与基准

领域应用

智能体与仿真

研究趋势

相关论文

相关概念