2025 年 10 月 21 日,人工智能测量峰会将在旧金山与 PyTorch 大会 2025 同时举行,届时将汇集人工智能评估领域的专家,共同探讨一个关键问题:我们如何有效地衡量基础模型和代理系统中的智能?
随着人工智能系统变得越来越强大并得到越来越广泛的部署,评估方法也必须同样迅速地发展。这个为期半天的峰会将涵盖评估推理模型、超智能和人工智能基准的演变等关键主题。与会者将深入了解最先进的评估方法,探索评估人工智能能力的挑战,并参与由该领域专家主导的讨论,这些讨论将塑造人工智能评估的未来。
参加峰会的 3 大理由
- 与人工智能评估领域的领军人物互动 – 直接听取 OpenAI、斯坦福、Meta 等研究人员的分享,了解他们关于评估高级人工智能系统中推理、智能和代理行为的最新方法。
- 参与塑造基准的未来 – 从关于基准是否真正捕捉智能的辩论到关于实用、真实世界评估的讨论,您将坐在前排观看这些对话,这些对话将指导我们社区如何衡量人工智能的进展。
- 与推动创新的领导者建立联系 – 峰会提供了一个独特的机会,可以结识在研究和应用交叉领域工作的其他人,建立超越会议并扩展到更广泛人工智能生态系统的网络。
项目亮点
主旨演讲
- 构建机器智能前沿 – Joe Spisak,Meta
- 讨论推理、规划和推理时间扩展领域的最新技术,以及我们如何在这个新体系中衡量智能的新方法 – Noam Brown,OpenAI 与 Joe Spisak,Meta 对谈
专题会议
- Weaver:用弱验证器缩小生成-验证差距 – Jon Saad-Falcon,斯坦福大学
- 语言模型的整体评估 (HELM) – Yifan Mai,斯坦福大学
- 从预训练到强化学习的代理智能扩展 – Aakanksha Chowdery,Reflection AI & 斯坦福大学
- LMArena:人工智能的可靠性标准 – Anastasios Angelopolous,LMArena
专题讨论
我们正在衡量智能还是仅仅是基准?
- Sara Hooker
- Vivienne Zhang,NVIDIA
- Baber Abbasi,Eleuther AI
- Nathan Habib,HuggingFace
- Carlos Jimenez,普林斯顿大学 / SWE Bench
超越排行榜:野外实用智能
- Shishir Patil,Meta
- Haifeng Xu,ProphetArena / 芝加哥大学
- Tatiana Shavrina,Meta
- Lisa Dunlap,UCB / LMSys
- Rebecca Qian,Patronus AI
通过将人工智能测量峰会添加到您的PyTorch 大会注册来注册。