通过 torch.compile 将 NumPy 代码编译成 C++ 或 CUDA 博客 通过 torch.compile 将 NumPy 代码编译成 C++ 或 CUDA Quansight 工程师已在 PyTorch 2.1 中通过 torch.compile 实现了对 NumPy 代码的跟踪支持。此功能……Evgeni Burovski, Ralf Gommers 和 Mario Lezcano2023年10月17日
用于长上下文推理的 Flash-Decoding 博客 用于长上下文推理的 Flash-Decoding 动机 像 ChatGPT 或 Llama 这样的大型语言模型 (LLM) 最近受到了前所未有的关注……Tri Dao, Daniel Haziza, Francisco Massa, Grigory Sizov2023年10月13日
ML 模型服务器资源节约 – 从高成本 GPU 过渡到 Intel CPU 和由 oneAPI 提供支持的软件,并实现高性能 博客 ML 模型服务器资源节省——从高成本 GPU 到 Intel CPU 和 oneAPI 驱动的软件的性能转换 审阅者:Yunsang Ju (Naver GplaceAI 负责人), Min Jean Cho (Intel), Jing Xu (Intel), Mark Saroufim (Meta) 简介 在这里,我们将……Sangjune Park (Naver GplaceAI MLOps), Jooyoung Lee (Naver GplaceAI MLE), Junho Min (Naver GplaceAI MLE)2023年10月11日
PyTorch 2.1:自动动态形状编译,分布式检查点 博客 PyTorch 2.1:自动动态形状编译,分布式检查点 我们很高兴地宣布 PyTorch® 2.1 发布(发布说明)!PyTorch 2.1 提供了……PyTorch 基金会2023年10月4日
使用 TorchServe 在 AWS Inferentia2 上部署高性能 Llama 2 博客 使用 TorchServe 在 AWS Inferentia2 上部署高性能 Llama 2 最近,Llama 2 发布并引起了机器学习社区的极大兴趣。Amazon……Mike Zhang, Li Ning, Sergey Ivanov, Naman Nandan, Hamid Shojanazeri, Geeta Chauhan, Abhi Shivaditya, Michael Nguyen, Pinak Panigrahi2023年10月4日
如何使用 DialoGPT 和 PyTorch 构建交互式聊天生成模型 博客 如何使用 DialoGPT 和 PyTorch 构建交互式聊天生成模型 在过去几年中,对交互式聊天生成(或对话响应生成)模型的关注大大增加……Intel2023年10月3日
矩阵内部:可视化矩阵乘法、注意力机制及其他 博客 矩阵内部:可视化矩阵乘法、注意力机制及其他 使用 3D 可视化矩阵乘法表达式、带有真实权重的注意力头等等。矩阵……Basil Hosmer2023年9月25日
使用 torch.compile 通过 PyTorch Inductor 加速 CPU 推理 博客 使用 torch.compile 通过 PyTorch Inductor 加速 CPU 推理 内容梗概 尽管 PyTorch* Inductor C++/OpenMP* 后端已使用户能够利用……Intel2023年9月13日
自动化跟踪收集与分析 博客 自动化跟踪收集与分析 在这篇博客中,我们将分享我们如何实现 PyTorch Profiler 的收集和分析……Anupam Bhatnagar, Brian Coutinho2023年9月5日
PyTorch/XLA SPMD:通过自动并行化扩展模型训练和服务 博客 PyTorch/XLA SPMD:通过自动并行化扩展模型训练和服务 今天,我们很高兴地宣布 PyTorch/XLA SPMD:将 GSPMD 集成到 PyTorch 中,并提供简单易用的……Yeounoh Chung, Jon Bolin, Milad Mohammadi, Jiewen Tan, Jack Cao, Joe Spisak, Alex Spiridonov, Shauheen Zahirazami, Steven Krawczyk, Wonjoo Lee Mohit Khatwani, Wanchao Liang, Vaibhav Singh2023年8月31日
使用 PyTorch/XLA FSDP 在 TPU 上大规模训练 Hugging Face Transformers 博客 使用 PyTorch/XLA FSDP 在 TPU 上大规模训练 Hugging Face Transformers 人工智能通过理解和生成语言、回答问题等先进功能,正在改变许多行业……Alex Wertheim, Milad Mohammadi, Jack Cao, Alex Spiridonov, Joe Spisak, Lysandre Debut, Sylvain Gugger, Sourab Mangrulkar2023年8月24日
PyTorch 中 x86 CPU 的 INT8 量化 博客 PyTorch 中 x86 CPU 的 INT8 量化 概述 INT8 量化是一种强大的技术,可用于加速 x86 上的深度学习推理……Intel2023年8月7日
宣布基于 C++ 的 S3 IO DataPipes 博客 宣布基于 C++ 的 S3 IO DataPipes 训练大型深度学习模型需要大型数据集。Amazon Simple Storage Service (Amazon S3) 是一种可扩展的……John He, Khaled ElGalaind, Roshani Nagmote, Daiming Yang2023年7月25日
如何加速 Intel® CPU 上的 PyTorch Geometric 博客 如何加速 Intel® CPU 上的 PyTorch Geometric 概述 Intel PyTorch 团队一直在与 PyTorch Geometric (PyG) 社区合作,以……Intel2023年7月10日
揭示半监督学习的力量:统一的半监督学习基准 社区 揭示半监督学习的力量:统一的半监督学习基准 机器学习模型依赖高质量、完全标注的数据。传统的监督学习方法通常需要……Jindong Wang2023年7月6日
优化基于 LibTorch 的推理引擎内存使用和线程池 博客 优化基于 LibTorch 的推理引擎内存使用和线程池 概述 在这篇博客文章中,我们将展示如何优化基于 LibTorch 的推理引擎以最大化……Himalay Mohanlal Joriwal, Pierre-Yves Aquilanti, Vivek Govindan, Hamid Shojanazeri, Ankith Gunapal, Tristan Rice2023年6月29日
介绍 TorchOpt:一个用于 PyTorch 的高性能可微分优化库 社区 介绍 TorchOpt:一个用于 PyTorch 的高性能可微分优化库 探索 TorchOpt,一个基于 PyTorch 的库,它以统一的编程抽象、高性能……彻底改变了可微分优化。Benjamin Liu2023年6月29日
在 PyTorch/XLA 上实现 LLaMA 65B 超低推理延迟的路径 博客 在 PyTorch/XLA 上实现 LLaMA 65B 超低推理延迟的路径 背景与现状 在自然语言处理 (NLP) 领域,语言模型……Milad Mohammadi, Jiewen Tan, Liyang Lu, Siyuan Liu, Yeounoh Chung, Wonjoo Lee, Manfei Bai, Steven Krawczyk, Shauheen Zahirazami, Alex Wertheim, Meghan Cowan, Jack Cao, Joe Spisak2023年6月28日