博客社区

推理的未来:PyTorch ATX 活动

2025年9月17日,PyTorch ATX 与 vLLM 社区及红帽(Red Hat)合作,在奥斯汀市中心的 Capital Factory Voltron 会议室举办了“推理的未来”(The Future of Inferencing)活动。此次聚会汇集了 vLLM 领域的顶尖专家——包括核心提交者、项目创建者和部署专家——旨在共同探讨推动现代 LLM 大规模推理的前沿技术,并加强奥斯汀不断壮大的推理优化社区。

90多名与会者挤满了 Voltron 会议室,深入探讨了高吞吐量 LLM 服务。议题涵盖了 INT4/INT8 量化、剪枝策略、PagedAttention 内存管理、连续批处理(continuous batching)、推测解码(speculative decoding)以及多节点部署架构。

Jason Meaux 以 PyTorch ATX 成员项目的最新进展开启了当晚的活动,重点介绍了在扩散模型、使用 muon 优化器进行的 Nano-GPT 速度测试、状态空间模型、BERT 分类以及机器人技术论文俱乐部的本地研究成果。

PyTorch 大使 Steve Watt 对 vLLM 进行了介绍,并进行了两场实操演示,展示了如何在 AWS(基于 Nvidia 硬件)以及 AMD 开发者云上部署 vLLM。

vLLM 核心提交者 Luka Govedič 带来了一场进阶课程,讲解了 PagedAttention、量化方法、推测解码和连续批处理。他还预告了自己近期在 torch.compile 与 vLLM 集成方面的工作。

vLLM Semantic Router 的创建者 Huamin Chen(该项目在 GitHub 上拥有超过 1,700 颗星)解释了他基于意图感知的“模型混合”(mixture-of-models)路由器。该系统使用 ModernBERT 对请求进行语义分类,并将其引导至适当的模型或推理路径,从而实现更具成本效益和更准确的推理服务。

llm-d 的维护者 Greg Pereira 通过 llm-d 架构及其调度程序探讨了分布式推理的挑战。他在结束时的演示展示了 KV 缓存管理以及预填充(pre-fill)与解码(decode)分离的实际应用。

所有会议的 视频可以在这里找到。与会者不仅获得了概念框架,还掌握了构建生产级推理系统的实战策略。

展望未来,我们正在筹备下一场在奥斯汀举办的重大会议——2026年2月的“机器人与边缘推理大会”(Robotics & Edge Inference Conference)!届时我们将涵盖从微控制器到 Jetson 模块的整个技术栈,包括编译器与运行时、ROS 2、3D 感知、导航和扩散策略,并将展示来自奥斯汀领先机器人公司的现场演示。点击此处报名