图神经网络(Graph Neural Network, GNN)是一类专门处理图结构数据的深度学习模型。与传统的网格数据不同,图数据由节点和边组成,能够自然地表示实体间的关系和交互。GNN 通过消息传递(message passing)机制让每个节点聚合邻居信息来更新自身表示。近年来,LLM 与 GNN 的融合正在开辟新的研究方向。
LLM as Clinical Graph Structure Refiner: Enhancing Representation Learning in EEG Seizure Diagnosis(Li et al., 2026)首次将 LLM 用作图结构细化器,探索了 LLM 在图学习中的新角色。该工作针对 EEG 信号的噪声问题——现有图构建方法(无论基于相关性还是学习)都会生成冗余或不相关的边,严重影响图表示质量和下游任务性能。
研究者提出了两阶段框架:(1)使用 Transformer 边缘预测器和 MLP 构建初始图,为每个潜在边分配概率分数;(2)LLM 作为边缘集细化器,综合节点对的文本特征和统计特征做出边缘存在性判断。在 TUSZ 数据集上的实验表明,LLM 细化后的图结构更清晰、更具可解释性,且癫痫检测准确性显著提升。这项工作的核心创新在于:LLM 能够综合理解 EEG 通道间的语义关系和统计模式,做出超越纯数值相关性的边缘判断。
GNN 的发展经历了从谱域到空间域的演进。2005 年 Gori 等人提出递归图神经网络(RecGNN),2009 年 Scarselli 等人系统定义了 GNN 理论框架。2014 年 Bruna 等人提出谱图卷积神经网络,2017 年 Kipf & Welling 提出简化的 GCN 成为最广泛使用的架构。2018 年 GraphSAGE 和 GAT 分别引入了采样归纳学习和注意力机制,2019 年 MPNN 统一了多种 GNN 架构。2021 年后,图 Transformer 将 Transformer 架构引入图数据处理。
Clinical Graph Refiner 展示了一种新的融合范式:LLM 不直接处理图数据,而是作为图结构的优化器。这种”LLM 增强图构建”的方式利用了 LLM 的推理和上下文理解能力,弥补了纯数值方法在语义理解上的不足。
该工作揭示了一个被忽视的问题:图构建质量对下游任务的影响可能超过 GNN 架构本身。冗余边和噪声边会显著降低表示学习效果,而 LLM 的介入能够有效筛选出有意义的结构关系。
LLM 细化后的图结构更清晰、更具可解释性,这对生物医学等需要临床理解的应用场景尤为重要。可解释的图结构有助于医生理解模型的诊断依据。
从节点嵌入、图嵌入到边预测和子图提取,图表示学习方法不断丰富。显式图(分子结构)、隐式图(从非图数据学习)、动态图和异构图等不同的图构建方式扩展了 GNN 的应用范围。
DataMaster: Towards Autonomous Data Engineering for Machine Learning(2026-05-11):随着模型系列、训练方法和计算预算变得越来越标准化,机器学习系统的进一步收益越来越依赖于数据。
Conformal Path Reasoning: Trustworthy Knowledge Graph Question Answering via Path-Level Calibration(2026-05-08):知识图问答(KGQA)已显示出有基础且可解释的推理的前景,但现有方法往往无法对检索到的答案提供可靠的覆盖保证。
A $μ$-distance for semidirected orchard phylogenetic networks(2026-05-07):在进化生物学中,系统发育网络现在被广泛用于表示物种和种群之间的历史关系,其中这种历史包括网状事件,例如种群之间的杂交、基因流动和混合。
DINORANKCLIP: DINOv3 Distillation and Injection for Vision-Language Pretraining with High-Order Ranking Consistency(2026-05-07):对比语言图像预训练(CLIP)存在两个结构性弱点:对称的 InfoNCE 损失丢弃了不匹配的批内对之间的相对顺序,全局池化将视觉表示折叠成对细粒度局部结构不敏感的语义瓶颈。
ActCam: Zero-Shot Joint Camera and 3D Motion Control for Video Generation(2026-05-07):对于艺术应用,视频生成需要对表演和摄影进行精细控制,即演员的动作和摄像机轨迹。
Continual Knowledge Updating in LLM Systems: Learning Through Multi-Timescale Memory Dynamics(2026-05-06):法学硕士接受一次培训,然后部署到一个永不停息变化的世界。
EQUITRIAGE: A Fairness Audit of Gender Bias in LLM-Based Emergency Department Triage(2026-05-05):急诊科分诊为患者分配一个视力评分,以确定治疗的优先顺序,临床证据记录了人类视力评估中持续存在的性别差异。
OpenSeeker-v2: Pushing the Limits of Search Agents with Informative and High-Difficulty Trajectories(2026-05-05):深度搜索能力已经成为前沿大语言模型(LLM)代理不可或缺的能力,但其发展仍然由工业巨头主导。
PubMed-Ophtha: An open resource for training ophthalmology vision-language models on scientific literature(2026-05-04):视觉语言模型为眼科带来了巨大的希望,但其发展依赖于仍然稀缺的大规模、高质量的图像文本数据集。