AEGIS: A Holistic Benchmark for Evaluating Forensic Analysis of AI-Generated Academic Images

基本信息

摘要

English

We introduce AEGIS, A holistic benchmark for Evaluating forensic analysis of AI-Generated academic ImageS. Compared to existing benchmarks, AEGIS features three key advances: (1) Domain-Specific Complexity: covering seven academic categories with 39 fine-grained subtypes, exposing intrinsic forensic difficulty, where even GPT-5.1 reaches only 48.80% overall performance and expert models achieve only limited localization accuracy (IoU 30.09%); (2) Diverse Forgery Simulations: modeling four prevalent academic forgery strategies across 25 generative models, where 11 of which yield mean forensic accuracy below 50%, indicating forensics lags behind generation progress; (3) Multi-dimensional Forensic Evaluation: jointly evaluating detection, reasoning, and localization, revealing complementary strengths across model families—multimodal large language models (MLLMs) achieve 84.74% accuracy on textual artifact identification while expert detectors peak at 79.54% on binary authenticity detection. By evaluating 25 leading MLLMs, 9 expert models, and one unified multimodal understanding-and-generation model, AEGIS serves as a diagnostic testbed exposing fundamental limitations in academic image forensics.

中文

我们推出 AEGIS,这是一个评估人工智能生成的学术图像取证分析的整体基准。与现有基准相比,AEGIS 具有三个关键优势:(1)领域特定复杂性:涵盖 7 个学术类别,39 个细粒度子类型,暴露了固有的取证难度,即使 GPT-5.1 也能达到 48.80% 的整体性能,而专家模型仅实现有限的定位精度(IoU 30.09%);(2) 多样化的伪造模拟:在 25 个生成模型中对四种流行的学术伪造策略进行建模,其中 11 个生成的平均取证准确度低于 50%,表明取证学落后于生成的进步;(3) 多维取证评估:联合评估检测、推理和定位,揭示模型家族之间的互补优势,多模态大语言模型 (MLLM) 在文本工件识别方面的准确率达到 84.74%,而专家检测器在二进制真实性检测方面的准确率峰值达到 79.54%。通过评估 25 个领先的 MLLM、9 个专家模型以及一个统一的多模态理解和生成模型,AEGIS 作为一个诊断测试台,暴露了学术图像取证的基本局限性。

核心贡献

方法概述

AEGIS 基准的设计围绕三个核心维度展开。首先是领域特定复杂性:选取学术场景中的 7 个类别(如实验图表、医学影像等),细分为 39 个子类型,模拟真实学术出版中可能出现的 AI 生成或篡改图像场景。这些图像具有领域特有的复杂结构(如科学图表、专业影像),比通用图像更难进行取证分析。

其次是多样化的伪造模拟:设计 4 种常见的学术伪造策略(如图像生成、局部篡改、数据伪造等),并使用 25 个不同的生成模型来创建伪造样本。这一设计确保了基准能覆盖不同生成技术和伪造手段,使得评测结果更具代表性和挑战性。

最后是多维取证评估:不同于以往仅关注二分类检测的基准,AEGIS 同时评估三个维度——检测(图像是否为 AI 生成)、推理(识别具体的伪造类型和手段)、定位(标注篡改或生成的区域),通过多维度联合评测揭示不同模型在各维度上的优势和不足。

实验结果

相关概念


导入时间: 2026-05-01 19:53 来源: arXiv Daily Digest 2026-05-01