- 成为会员
-
X
日期:2025 年 5 月 21 日,太平洋时间上午 11 点 / 东部时间下午 2 点
演讲者:Ofir Press
语言模型 (LM) 越来越多地用于协助用户完成日常任务,例如编程 (Github Copilot) 或搜索 (Google 的 AI Overviews)。但我们能否构建能够端到端自主完成整个任务的语言模型系统?
在本次演讲中,Ofir Press 将讨论构建自主 LM 系统的努力,重点关注软件工程领域。Ofir 将介绍 SWE-bench,这是一种衡量 AI 系统修复流行软件库中实际问题的能力的新方法。Ofir 接下来将讨论 SWE-agent,这是一个用于解决 SWE-bench 任务的系统。
SWE-bench 和 SWE-agent 被许多领先的学术界和工业界人工智能组织使用,包括 OpenAI、Anthropic、Meta 和 Google,并且 SWE-bench 的下载量已超过 200 万次。这些项目表明,预算紧张的学者可以在引导研究界构建能够完成挑战性任务的自主系统方面产生重大影响。
Ofir 是普林斯顿大学的博士后,主要在 Karthik Narasimhan 的实验室工作。Ofir 之前在西雅图华盛顿大学获得博士学位,导师是 Noah Smith。在攻读博士学位期间,Ofir 在 Facebook AI Research Labs 的 Luke Zettlemoyer 团队工作了两年。