2024 年 10 月 15 日

在 Windows CPU 上实现 PyTorch 性能提升的路径

与 Linux 相比,PyTorch 在 Windows 上的 CPU 性能较低,这是一个重大问题。导致这种性能差异的因素有很多。通过我们的调查,我们确定了导致 Windows 上 CPU 性能不佳的几个原因,其中两个主要问题是:Windows 默认 malloc 内存分配器的效率低下以及 Windows 平台上缺少用于矢量化优化的 SIMD。在本文中,我们将展示 PyTorch CPU...

阅读更多

2024 年 10 月 8 日

PyTorch 基金会技术顾问委员会选举新领导层

我们很高兴地宣布 PyTorch 基金会技术顾问委员会 (TAC) 首任主席和副主席:Luca Antiga 担任主席,Jiong Gong 担任副主席。两位领导者都拥有丰富的经验,并对 PyTorch 社区有着深厚的承诺,他们将指导 TAC 完成其促进开放、多元和创新 PyTorch 技术社区的使命。认识新领导层 Luca Antiga 自 2022 年起担任 Lightning AI 的首席技术官。他是 P...

阅读更多

2024 年 10 月 2 日

2024 年 PyTorch 大会回顾:火爆🔥

2024 年在旧金山举行的 PyTorch 大会吸引了近 1500 名 AI 研究人员、开发者和爱好者。为期两天的活动包括引人入胜的讨论、富有洞察力的主题演讲以及专注于人工智能 (AI) 和领先的开源机器学习框架 PyTorch 进展的动手实践环节。与会者深入探讨了生成式 AI、大型语言模型 (LLM) 的未来以及开源技术在推动 AI 创新方面发挥的关键作用。以下是...

阅读更多

2024 年 9 月 26 日

PyTorch 原生架构优化:torchao

我们很高兴正式推出 torchao,这是一个 PyTorch 原生库,它通过利用低位数据类型、量化和稀疏性使模型更快、更小。torchao 是一个易于访问的工具包,其中包含用易于阅读的 PyTorch 代码编写的技术(大部分),涵盖推理和训练。此博客将帮助您选择哪些技术对您的工作负载很重要。我们在流行的 GenAI 模型(如 LLama 3 和 Diffusion 模型)上对我们的技术进行了基准测试,并且发现准确性下降最小。除非 o...

阅读更多

2024 年 9 月 12 日

Arm 作为高级会员加入 PyTorch 基金会

PyTorch 基金会是深度学习社区中立的合作场所,用于协作开发开源 PyTorch 框架和生态系统,今天宣布 Arm 已加入成为高级会员。

阅读更多

2024 年 9 月 4 日

LLM 的无 CUDA 推理

在本博文中,我们讨论了用于实现流行 LLM 模型(如 Meta 的 Llama3-8B 和 IBM 的 Granite-8B Code)的 FP16 推理的方法,其中 100% 的计算使用 OpenAI 的 Triton 语言执行。对于使用基于 Triton 内核的模型的单个标记生成时间,我们能够相对于 Llama 和 Granite 在 Nvidia H100 GPU 上的 CUDA 内核主导工作流程获得接近 0.76-0.78x 的性能,在 Nvidia A100 GPU 上获得 0.62-0.82x 的性能。为什么要探索使用 100%...

阅读更多