Synthetic Computers at Scale for Long-Horizon Productivity Simulation

基本信息

摘要

English

Realistic long-horizon productivity work is strongly conditioned on user-specific computer environments, where much of the work context is stored and organized through directory structures and content-rich artifacts. To scale synthetic data creation for such productivity scenarios, we introduce Synthetic Computers at Scale, a scalable methodology for creating such environments with realistic folder hierarchies and content-rich artifacts (e.g., documents, spreadsheets, and presentations). Conditioned on each synthetic computer, we run long-horizon simulations: one agent creates computer-user-specific productivity goals requiring multiple specialized deliverables and approximately one month of human work; then, another agent acts as that user and continues working on the computer — e.g., navigating the filesystem for grounding, coordinating with simulated collaborators, and generating professional artifacts — until those goals are completed. In preliminary experiments, we create 1,000 synthetic computers and run long-horizon simulations on them; each run requires over 8 hours of agent wall-clock time and spans an average of over 2,000 turns. These simulations produce rich experiential learning signals, whose effectiveness is validated by significant improvements in agent performance on both in-domain and out-of-domain productivity evaluations. Given that personas are rich on the scale of billions, this approach can in principle scale to millions or even billions of synthetic user worlds with sufficient compute, enabling broader coverage across diverse occupations, roles, backgrounds, environments, and productivity needs.

中文

现实的长期生产力工作很大程度上取决于特定于用户的计算机环境,其中大部分工作上下文是通过目录结构和内容丰富的工件来存储和组织的。为了扩展此类生产力场景的合成数据创建,我们引入了大规模合成计算机,这是一种可扩展的方法,用于创建具有真实文件夹层次结构和内容丰富的工件(例如文档、电子表格和演示文稿)的此类环境。以每台合成计算机为条件,我们运行长期模拟:一个代理创建特定于计算机用户的生产力目标,需要多个专业交付成果和大约一个月的人工工作;然后,另一个代理充当该用户并继续在计算机上工作——例如,导航文件系统以进行接地、与模拟协作者协调以及生成专业工件——直到完成这些目标。在初步实验中,我们创建了 1,000 台合成计算机并对它们进行长期模拟;每次运行需要超过 8 个小时的代理运行时间,平均跨越 2,000 多个回合。这些模拟产生了丰富的体验式学习信号,其有效性通过域内和域外生产力评估的代理性能的显着改进得到了验证。鉴于人物角色在数十亿规模上非常丰富,这种方法原则上可以扩展到数百万甚至数十亿个具有足够计算能力的合成用户世界,从而更广泛地覆盖不同的职业、角色、背景、环境和生产力需求。我们认为,可扩展的合成计算机是通向真正有能力的生产力代理的有前途的路径。

核心贡献

方法概述

本文提出了一种名为 Synthetic Computers at Scale 的可扩展方法论,核心思路是在计算机中构建模拟的用户工作环境。每台合成计算机都包含逼真的文件夹层次结构和多样化的内容丰富工件,如文档、电子表格和演示文稿等,从而还原真实用户的生产力工作场景。

在此基础上,研究者设计了一个双代理长期模拟框架。第一个代理负责根据合成计算机的特征,创建需要多个专业交付成果的生产力目标,这些目标模拟大约一个月的人工工作量。第二个代理则扮演该计算机用户的角色,在环境中持续工作——包括浏览文件系统获取上下文、与模拟协作者协调沟通、以及生成专业工件——直到完成所有设定的目标。

该方法的关键优势在于其可扩展性。由于人物角色数据在互联网上极为丰富(数十亿规模),合成计算机可以通过丰富的人物角色来大规模生成,从而实现对不同职业、角色、背景和工作环境的广泛覆盖。每次模拟运行需要超过8小时的代理运行时间,产生丰富的体验式学习信号用于训练。

实验结果

分析信息

分析信息


导入时间: 2026-05-01 19:53 来源: arXiv Daily Digest 2026-05-01

相关概念