多模态学习是让模型同时处理和理解多种数据类型(如文本、图像、3D 点云)的 AI 研究方向。在 LLM 时代,多模态学习的核心挑战是如何将视觉感知与语言推理有效融合。本库中有 2 篇论文从训练方法和应用场景两个角度研究了这一问题。
AlphaGRPO: Unlocking Self-Reflective Multimodal Generation in UMMs via Decompositional Verifiable Reward(2026-05-12):在本文中,我们提出了 AlphaGRPO,这是一种新颖的框架,它将组相对策略优化 (GRPO) 应用于 AR-扩散统一多模态模型 (UMM),以增强多模态生成能力,而无需额外的冷启动阶段。
Confidence-Guided Diffusion Augmentation for Enhanced Bangla Compound Character Recognition(2026-05-11):由于字符结构复杂、类内差异大以及高质量注释数据的可用性有限,手写孟加拉复合字符的识别仍然是一个具有挑战性的问题。
ELF: Embedded Language Flows(2026-05-11):扩散和基于流的模型已成为生成连续数据的事实上的方法,例如在图像和视频等领域。
EmambaIR: Efficient Visual State Space Model for Event-guided Image Reconstruction(2026-05-08):最近基于事件的图像重建方法主要依靠卷积神经网络(CNN)和视觉变换器(ViT)来处理补充事件信息。
DINORANKCLIP: DINOv3 Distillation and Injection for Vision-Language Pretraining with High-Order Ranking Consistency(2026-05-07):对比语言图像预训练(CLIP)存在两个结构性弱点:对称的 InfoNCE 损失丢弃了不匹配的批内对之间的相对顺序,全局池化将视觉表示折叠成对细粒度局部结构不敏感的语义瓶颈。
GlazyBench: A Benchmark for Ceramic Glaze Property Prediction and Image Generation(2026-05-07):由于化学成分复杂,开发陶瓷釉料是一个成本高昂、耗时的反复试验过程,给独立艺术家带来了沉重的负担。
Are We Making Progress in Multimodal Domain Generalization? A Comprehensive Benchmark Study(2026-05-07):尽管用于增强模型鲁棒性的多模态域泛化(MMDG)越来越受欢迎,但仍不清楚报告的性能增益是否反映了真正的算法进展,还是不一致的评估协议的产物。
Relit-LiVE: Relight Video by Jointly Learning Environment Video(2026-05-07):最近的进展表明,大规模视频扩散模型可以重新用作神经渲染器,首先将视频分解为内在场景表示,然后在新颖的照明下执行前向渲染。
BAMI: Training-Free Bias Mitigation in GUI Grounding(2026-05-07):GUI 接地是使 GUI 代理能够执行单击和拖动等任务的关键功能。
ActCam: Zero-Shot Joint Camera and 3D Motion Control for Video Generation(2026-05-07):对于艺术应用,视频生成需要对表演和摄影进行精细控制,即演员的动作和摄像机轨迹。
Taming Outlier Tokens in Diffusion Transformers(2026-05-06):研究 DiT 中离群 token 的扩散特性(中间层集中、随噪声水平增大),提出双阶段寄存器统一解决编码器和去噪器两端的离群问题。
Laplacian Frequency Interaction Network for Rural Thematic Road Extraction(2026-05-04):农村专题路网建设旨在从农机运动轨迹图像中提取拓扑道路结构。
AlbumFill: Album-Guided Reasoning and Retrieval for Personalized Image Completion(2026-05-04):个性化图像补全旨在恢复个人照片中的遮挡区域,同时保留身份和外观。
PubMed-Ophtha: An open resource for training ophthalmology vision-language models on scientific literature(2026-05-04):视觉语言模型为眼科带来了巨大的希望,但其发展依赖于仍然稀缺的大规模、高质量的图像文本数据集。
When Audio-Language Models Fail to Leverage Multimodal Context for Dysarthric Speech Recognition(2026-05-04):自动语音识别(ASR)系统对于构音障碍和其他非典型语音仍然很脆弱。
PRISM 发现多模态 LLM 训练中一个被忽视的问题:感知错误和推理失败遵循不同的漂移模式。标准 SFT→RLVR 流程中,这两类错误在 RL 阶段复合放大。
技术方案:设计 MoE 判别器,包含专门的感知专家和推理专家,从两个维度独立评估策略输出。这种解耦设计使纠正信号更精准——感知问题由感知专家反馈,推理问题由推理专家反馈。
数据支撑:从 Gemini 3 Flash 策划 11.3 万条高保真演示,包含密集视觉标注和逐步推理,聚焦最难问题。
📄 查看论文
HERMES++ 解决了多模态学习中的一个核心矛盾:语义理解与物理预测的割裂。现有驾驶世界模型要么侧重场景生成(忽略理解),要么侧重语义推理(无法预测几何演化)。
统一框架:通过 BEV 表示整合多视角信息,LLM 增强的世界查询促进理解分支的知识迁移,当前到未来的链接机制弥合时间差距。联合几何优化策略将显式几何约束与隐式正则化结合。
关键结果:在多个基准上同时实现强大的未来点云预测和 3D 场景理解,优于各自领域的专用方法。
📄 查看论文
两篇论文揭示了多模态学习的两个核心挑战:
开放问题:如何在保持感知准确性的同时提升推理深度?理解与生成的统一是否适用于更多场景?