2024 年 1 月 10 日
使用 PyTorch 和 Hugging Face 生态系统工具在您自己的消费级硬件上微调 LLM
我们演示了如何使用 PyTorch 和 Hugging Face 生态系统中的 LoRA 和工具,在典型的消费级 GPU (NVIDIA T4 16GB) 上微调一个 7B 参数模型,并提供完整的可重现的 Google Colab notebook。
2024 年 1 月 09 日
使用 Amazon SageMaker 多模型端点和 TorchServe 在 GPU 上加速 AI 模型,推理成本节省高达 75%
多模型端点 (MME) 是 Amazon SageMaker 的一项强大功能,旨在简化机器学习 (ML) 模型的部署和操作。通过 MME,您可以在单个服务容器上托管多个模型,并将所有模型置于单个端点之后。SageMaker 平台自动管理模型的加载和卸载,并根据流量模式扩展资源,从而减轻了管理大量模型的运维负担。此功能特别适用于...
2024 年 1 月 03 日
加速生成式 AI 第三部分:快速扩散
本文是专注于如何利用纯原生 PyTorch 加速生成式 AI 模型系列博客的第三部分。我们很高兴能分享一系列新发布的 PyTorch 性能特性以及实际示例,以便看看我们能将 PyTorch 的原生性能推向何种程度。在第一部分中,我们展示了如何仅使用纯原生 PyTorch 将 Segment Anything 加速 8 倍以上。在第二部分中,我们展示了如何仅使用原生 PyTorch 优化将 Llama-7B 加速近 10 倍。...
2023 年 12 月 19 日
理解 GPU 内存 2:查找和移除引用循环
这是理解 GPU 内存系列博客的第 2 部分。我们的第一篇文章“理解 GPU 内存 1:可视化随时间变化的所有分配”展示了如何使用内存快照工具。在本文中,我们将使用内存快照来可视化由引用循环引起的 GPU 内存泄漏,然后使用引用循环检测器在代码中找到并移除它们。