2025 年 1 月 14 日
在英特尔®至强®处理器上加速 PyTorch 2.5 的生成式 AI
本博客是专注于使用纯原生 PyTorch 加速生成式 AI 模型系列文章中的第五篇。我们展示了在英特尔®至强®处理器上对 GPTFast、Segment Anything Fast 和 Diffusion Fast 进行生成式 AI 加速。
2025 年 1 月 9 日
通过 PyTorch 多设备支持集成 Ascend 后端与 Torchtune
在本博客中,我们将简要介绍 torchtune、Ascend 后端,并演示如何使用 torchtune 和 Ascend 来微调模型。
2025 年 1 月 6 日
PyTorch 的高性能低比特运算符
我们很高兴地宣布,TorchAO(PyTorch 的原生低精度库)已为 Arm CPU 添加了具有低比特权重(1-8 比特)的 embedding 运算符以及具有 8 比特动态量化激活和低比特权重(1-8 比特)的线性运算符。这些运算符可在所有 PyTorch 界面上无缝工作,包括 eager、torch.compile、AOTI 和 ExecuTorch,并可在 torchchat 中使用。
2024 年 12 月 23 日
PyTorch 成长为 AI 和 ML 领域的首要开源框架:2024 年度回顾
过去一年对 PyTorch 来说是里程碑式的一年,从重大版本发布到旗舰 PyTorch 大会。我们看到了来自 3500 多名个人和 3000 多个组织的贡献实现了令人难以置信的增长。可以说,PyTorch 现已成为 AI/ML 领域占主导地位的深度学习框架。根据 Linux Foundation 近期发布的《塑造生成式 AI 的未来》报告,PyTorch 在模型训练领域的采用率高达 63%。
2024 年 12 月 20 日
在 AWS Graviton 处理器上使用 torch.compile 提升 RAG 性能
大型语言模型 (LLM) 经过海量数据训练,使用数十亿参数来支持回答问题、翻译语言和完成句子等任务。使用 LLM 存在一些挑战,例如领域知识差距、事实性问题和幻觉,这些会影响其可靠性,特别是在需要高精度水平的领域,如医疗保健、法律或工程。检索增强生成 (RAG) 提供了一种解决方案...
2024 年 12 月 11 日
torchcodec:PyTorch 简单高效的视频解码库
我们很高兴正式宣布 torchcodec,这是一个用于将视频解码为 PyTorch tensor 的库。它快速、准确且易于使用。在视频上运行 PyTorch 模型时,torchcodec 是我们将这些视频转换为模型可用数据的推荐方式。
2024 年 12 月 6 日
在 Triton 中加速二维动态块量化 Float8 GEMM
Float8 (FP8) 的二维块量化有望提高 Float8 量化精度,同时加速推理和训练的 GEMM。在本博客中,我们将展示使用 Triton 在进行块量化 Float8 GEMM 所涉及的两个主要阶段的进展。