快捷方式

VideoReader

class torchvision.io.VideoReader(src: str, stream: str = 'video', num_threads: int = 0)[源代码]

细粒度视频读取 API。支持从单个视频容器中逐帧读取各种流。与之前的 video_reader API 类似,它支持以下后端:video_reader、pyav 和 cuda。可以通过 torchvision.set_video_backend 函数设置后端。

警告

在不久的将来,我们打算在 torchcodec 项目中集中 PyTorch 的视频解码功能。我们鼓励您试用它并分享您的反馈,因为 torchvision 视频解码器最终将被弃用。

警告

VideoReader 类处于 Beta 阶段,向后兼容性不受保证。

示例

以下示例创建了 VideoReader 对象,跳转到 2 秒点,并返回单个帧

import torchvision
video_path = "path_to_a_test_video"
reader = torchvision.io.VideoReader(video_path, "video")
reader.seek(2.0)
frame = next(reader)

VideoReader 实现了可迭代 API,使其适合与 itertools 结合使用以进行更高级的读取。因此,我们可以使用 VideoReader 实例在 for 循环中

reader.seek(2)
for frame in reader:
    frames.append(frame['data'])
# additionally, `seek` implements a fluent API, so we can do
for frame in reader.seek(2):
    frames.append(frame['data'])

使用 itertools,我们可以使用以下代码读取 2 到 5 秒之间的所有帧

for frame in itertools.takewhile(lambda x: x['pts'] <= 5, reader.seek(2)):
    frames.append(frame['data'])

类似地,读取 2 秒时间戳后的 10 帧可以通过以下方式实现

for frame in itertools.islice(reader.seek(2), 10):
    frames.append(frame['data'])

注意

每个流描述符包含两个部分:流类型(例如“video”)和唯一的流 ID(由视频编码确定)。这样,如果视频容器包含多个相同类型的流,用户可以访问他们想要的流。如果只传递流类型,解码器会自动检测该类型的第一条流。

参数:
  • src (字符串字节对象张量) – 媒体源。如果类型为字符串,则它必须是 FFMPEG 支持的文件路径。如果类型为字节,则应为 FFMPEG 支持的文件的内存表示。如果类型为张量,则在内部被解释为字节缓冲区。它必须是一维的,类型为 torch.uint8

  • stream (字符串可选) – 所需流的描述符,后跟流 ID,格式为 {stream_type}:{stream_id}。默认为 "video:0"。当前可用的选项包括 ['video', 'audio']

  • num_threads (int可选) – 编解码器用于解码视频的线程数。默认值(0)使用依赖于编解码器的启发式方法启用多线程。性能将取决于支持的 FFMPEG 编解码器版本。

使用 VideoReader 的示例

光流:使用 RAFT 模型预测运动

光流:使用 RAFT 模型预测运动

视频 API

视频 API
get_metadata() Dict[str, Any][源代码]

返回视频元数据

返回值:

包含每个流的持续时间和帧速率的字典

返回类型:

(dict)

seek(time_s: float, keyframes_only: bool = False) VideoReader[源代码]

在当前流中查找。

参数:
  • time_s (float) – 以秒为单位的查找时间

  • keyframes_only (bool) – 允许仅查找关键帧

注意

当前实现是所谓的精确查找。这意味着在查找之后,对 next() 的调用将返回具有精确时间戳的帧(如果存在),或者返回时间戳大于 time_s 的第一帧。

set_current_stream(stream: str) bool[源代码]

设置当前流。明确定义我们正在操作的流。

参数:

stream (字符串) – 所需流的描述符。默认为 "video:0"。目前可用的流类型包括 ['video', 'audio']。每个描述符包含两个部分:流类型(例如“video”)和唯一的流 ID(由视频编码确定)。这样,如果视频容器包含多个相同类型的流,用户可以访问他们想要的流。如果只传递流类型,解码器会自动检测该类型的第一个流并将其返回。

返回值:

成功时为 True,否则为 False

返回类型:

(布尔值)

文档

访问 PyTorch 的全面开发者文档

查看文档

教程

获取针对初学者和高级开发人员的深入教程

查看教程

资源

查找开发资源并获得答案

查看资源