读取视频¶

torchvision.io.read_video(filename: str, start_pts: Union[float, Fraction] = 0, end_pts: Optional[Union[float, Fraction]] = None, pts_unit: str = 'pts', output_format: str = 'THWC') → Tuple[Tensor, Tensor, Dict[str, Any]][source]¶

从文件中读取视频，返回视频帧和音频帧

警告

在不久的将来，我们计划将PyTorch的视频解码功能集中在torchcodec项目中。我们鼓励您尝试并提供反馈，因为torchvision的视频解码器最终将被弃用。

Parameters:

文件名 (str) – 视频文件的路径。如果使用pyav后端，这可以是av.open接受的任何内容。
start_pts (python:int if pts_unit = 'pts', python:float / Fraction if pts_unit = 'sec', optional) – 视频的开始展示时间
end_pts (python:int 如果 pts_unit = 'pts', python:float / Fraction 如果 pts_unit = 'sec', 可选) – 结束展示时间
pts_unit (str, 可选) – 用于解释start_pts和end_pts值的单位，可以是‘pts’或‘sec’。默认为‘pts’。
output_format (str, 可选) – 输出视频张量的格式。可以是“THWC”（默认）或“TCHW”。

Returns:

视频帧 T 音频帧 (Tensor[K, L]): 音频帧，其中 K 是通道数，L 是点数信息 (Dict): 视频和音频的元数据。可以包含字段 video_fps (float) 和 audio_fps (int)

Return type:

vframes (Tensor[T, H, W, C] 或 Tensor[T, C, H, W])

使用 read_video 的示例：

Optical Flow: Predicting movement with the RAFT model