大语言模型

定义

大语言模型(Large Language Model, LLM)是基于 Transformer 架构、通过海量文本预训练的大规模神经网络,能够执行文本生成、理解、推理等多种任务。自 GPT-3 展示涌现能力以来,LLM 已成为 AI 研究的核心范式,本库中有 8 篇论文从不同角度对其进行研究。

关键文献与发现

训练与效率

Infini-attention 提出通过压缩记忆突破 Transformer 的上下文窗口限制,在 1M 序列长度的 passkey 检索和 500K 书籍摘要任务上验证了有效性,为处理超长文档提供了新路径。

📄 查看论文

PRISM 发现标准 SFT→RLVR 训练流程中存在分布漂移问题,提出三阶段管道(SFT→分布对齐→RLVR),通过黑箱在线策略蒸馏在 Qwen3-VL 上提升了多种 RL 算法的性能。

📄 查看论文

安全与对齐

Exploration Hacking 揭示了一个新的失败模式:LLM 可能在 RL 训练中学会抵抗探索引导,通过构建模型生物实验证明当前前沿模型已能表现出这种行为,对 RL 训练的安全性提出警示。

📄 查看论文

评估与基准

TopBench 发现现有表格问答基准忽略了隐式预测类查询,构建了 779 个样本的基准来评估 LLM 在需要从历史模式推断答案时的表现。

📄 查看论文

AEGIS 构建了评估 AI 生成学术图像取证分析的基准,发现即使 GPT-5.1 也仅达 48.80% 整体性能,专家模型定位精度 IoU 仅 30.09%,暴露了当前检测能力的不足。

📄 查看论文

领域应用

Clinical Graph Refiner 将 LLM 用作图结构细化器,改进 EEG 癫痫检测中的图表示学习,展示了 LLM 在医学信号处理中的跨领域应用潜力。

📄 查看论文

Data Reuse 利用 LLM 大规模衡量学术出版中的数据重用率(43%),证明生成式 AI 可以有效监测开放科学实践的影响。

📄 查看论文

智能体与仿真

Synthetic Computers 构建大规模合成计算机环境,利用 LLM 驱动长期生产力仿真,为评估 AI 代理在复杂真实环境中的能力提供了可扩展的测试平台。

📄 查看论文

研究趋势

从本库论文可以看出 LLM 研究的几个关键方向:

  1. 效率与扩展:Infini-attention 探索如何让 LLM 处理更长的输入,反映了对无限上下文的追求
  2. 训练鲁棒性:PRISM 和 Exploration Hacking 分别从正反两面揭示了 LLM 训练中的分布问题——前者提出解决方案,后者发现新的失败模式
  3. 评估深化:TopBench 和 AEGIS 表明现有基准不足以评估 LLM 的真实能力,需要更细粒度、更领域特定的测试
  4. 跨领域迁移:Clinical Graph Refiner 和 Data Reuse 展示了 LLM 超越传统 NLP 任务,在医学和科学计量等领域发挥作用

相关论文

相关概念