VideoReader¶

class torchvision.io.VideoReader(src: str, stream: str = 'video', num_threads: int = 0)[source]¶

[已弃用] 细粒度视频读取 API。支持从单个视频容器逐帧读取各种流。与之前的 video_reader API 非常相似，它支持以下后端：video_reader、pyav 和 cuda。可以通过 torchvision.set_video_backend 函数设置后端。

警告

已弃用：torchvision 的所有视频解码和编码功能从版本 0.22 开始已弃用，并将在版本 0.24 中移除。我们建议您迁移到 TorchCodec，未来 PyTorch 的解码/编码功能将整合到此处。

警告

VideoReader 类处于 Beta 阶段，不保证向后兼容性。

示例

以下示例创建一个 VideoReader 对象，定位到 2 秒处，并返回单帧。

import torchvision
video_path = "path_to_a_test_video"
reader = torchvision.io.VideoReader(video_path, "video")
reader.seek(2.0)
frame = next(reader)

VideoReader 实现了可迭代 API，这使得它适合与 itertools 结合使用以实现更高级的读取。因此，我们可以在 for 循环中使用 VideoReader 实例。

reader.seek(2)
for frame in reader:
    frames.append(frame['data'])
# additionally, `seek` implements a fluent API, so we can do
for frame in reader.seek(2):
    frames.append(frame['data'])

使用 itertools，我们可以使用以下代码读取 2 到 5 秒之间的所有帧。

for frame in itertools.takewhile(lambda x: x['pts'] <= 5, reader.seek(2)):
    frames.append(frame['data'])

类似地，可以使用以下代码读取 2 秒时间戳之后的 10 帧。

for frame in itertools.islice(reader.seek(2), 10):
    frames.append(frame['data'])

注意

每个流描述符由两部分组成：流类型（例如“video”）和唯一的流 ID（由视频编码决定）。这样，如果视频容器包含多个相同类型的流，用户可以访问他们想要的流。如果仅传递流类型，解码器将自动检测该类型的第一个流。

参数：

src (string, bytes object, 或 tensor) – 媒体源。如果是字符串类型，必须是 FFMPEG 支持的文件路径。如果是字节类型，应为 FFMPEG 支持的文件在内存中的表示。如果是 Tensor，则在内部被解释为字节缓冲区。它必须是一维的，类型为 torch.uint8。
stream (string, 可选) – 所需流的描述符，后跟流 ID，格式为 {stream_type}:{stream_id}。默认为 "video:0"。目前可用的选项包括 ['video', 'audio']。
num_threads (int, 可选) – 编解码器用于解码视频的线程数。默认值 (0) 根据编解码器启发式启用多线程。性能将取决于支持的 FFMPEG 编解码器版本。

使用 VideoReader 的示例

光流：使用 RAFT 模型预测运动

get_metadata() → Dict[str, Any][source]¶

返回视频元数据。

返回：: 包含每个流的时长和帧率的字典。
返回类型：: (dict)

seek(time_s: float, keyframes_only: bool = False) → VideoReader[source]¶

在当前流中定位。

参数：

time_s (float) – 定位时间，单位为秒。
keyframes_only (bool) – 仅允许定位到关键帧。

注意

当前的实现是所谓的精确定位 (precise seek)。这意味着定位后，调用 next() 将返回具有精确时间戳的帧（如果存在），或者返回时间戳大于 time_s 的第一帧。

set_current_stream(stream: str) → bool[source]¶

设置当前流。显式定义我们正在操作的流。

参数：: stream (string) – 所需流的描述符。默认为 "video:0"。目前可用的流类型包括 ['video', 'audio']。每个描述符由两部分组成：流类型（例如“video”）和唯一的流 ID（由视频编码决定）。这样，如果视频容器包含多个相同类型的流，用户可以访问他们想要的流。如果仅传递流类型，解码器将自动检测该类型的第一个流并返回它。
返回：: 成功时返回 True，否则返回 False
返回类型：: (bool)

VideoReader¶

文档

教程

资源