speechbrain.nnet.pooling 模块

实现池化的库。

Authors

Titouan Parcollet 2020
Mirco Ravanelli 2020
纳曼·达瓦拉塔巴德 2020
钟建元 2020
Sarthak Yadav 2022
Ha Nguyen 2023

摘要

类：

`AdaptivePool`	该类实现了自适应平均池化。
`AttentionPooling`	此函数实现了自注意力池化 (https://arxiv.org/abs/2008.01077)。
`GaussianLowpassPooling`	该类实现了一个可学习的高斯低通池化
`Pooling1d`	此函数实现了输入张量的一维池化。
`Pooling2d`	该函数实现了输入张量的二维池化。
`StatisticsPooling`	该类实现了一个统计池化层。

参考

class speechbrain.nnet.pooling.Pooling1d(pool_type, kernel_size, input_dims=3, pool_axis=1, ceil_mode=False, padding=0, dilation=1, stride=None)[source]

基础：Module

此函数实现了输入张量的一维池化。

Parameters:

pool_type (str) – 这是要使用的池化函数的类型（'avg'，'max'）。
kernel_size (int) – 它是定义池化维度的内核大小。例如，kernel size=3 应用大小为3的一维池化。
input_dims (int) – 输入中预期的维度数量。
pool_axis (int) – 应用池化的轴。
ceil_mode (bool) – 当为True时，将使用ceil而不是floor来计算输出形状。
padding (int) – 这是要应用的填充元素的数量。
dilation (int) – 控制池化的扩张因子。
stride (int) – 这是步幅大小。

Example

>>> pool = Pooling1d('max',3)
>>> inputs = torch.rand(10, 12, 40)
>>> output=pool(inputs)
>>> output.shape
torch.Size([10, 4, 40])

forward(x)[source]

对输入张量执行一维池化。

Parameters:: x (torch.Tensor) – 它表示一个小批量的张量。
Returns:: x – 合并后的输出。
Return type:: torch.Tensor

class speechbrain.nnet.pooling.Pooling2d(pool_type, kernel_size, pool_axis=(1, 2), ceil_mode=False, padding=0, dilation=1, stride=None)[source]

基础：Module

此函数实现了输入张量的二维池化。

Parameters:

pool_type (str) – 这是要使用的池化函数的类型（'avg'，'max'）。
kernel_size (int) – 这是定义池化维度的内核大小。例如，kernel size=3,3 使用 3x3 内核执行 2D 池化。
pool_axis (tuple) – 这是一个包含在池化过程中将被考虑的轴的列表。
ceil_mode (bool) – 当为True时，将使用ceil而不是floor来计算输出形状。
padding (int) – 这是要应用的填充元素的数量。
dilation (int) – 控制池化的扩张因子。
stride (int) – 这是步幅大小。

Example

>>> pool = Pooling2d('max',(5,3))
>>> inputs = torch.rand(10, 15, 12)
>>> output=pool(inputs)
>>> output.shape
torch.Size([10, 3, 4])

forward(x)[source]

对输入张量执行2d池化。

Parameters:: x (torch.Tensor) – 它表示一个小批量的张量。
Returns:: x – 合并后的输出。
Return type:: torch.Tensor

class speechbrain.nnet.pooling.StatisticsPooling(return_mean=True, return_std=True)[source]

基础：Module

该类实现了一个统计池化层。

它返回输入张量的均值和/或标准差。

Parameters:

return_mean (bool) – 如果为True，将返回平均池化。
return_std (bool) – 如果为True，将返回标准差。

Example

>>> inp_tensor = torch.rand([5, 100, 50])
>>> sp_layer = StatisticsPooling()
>>> out_tensor = sp_layer(inp_tensor)
>>> out_tensor.shape
torch.Size([5, 1, 100])

forward(x, lengths=None)[source]

计算批次（输入张量）的均值和标准差。

Parameters:

x (torch.Tensor) – 它表示一个小批量的张量。
lengths (torch.Tensor) – 输入中样本的长度。

Returns:

pooled_stats – 输入的平均值和标准差。

Return type:

torch.Tensor

class speechbrain.nnet.pooling.AdaptivePool(output_size)[source]

基础：Module

该类实现了自适应平均池化。

Parameters:: output_size (int) – 输出的大小。

Example

>>> pool = AdaptivePool(1)
>>> inp = torch.randn([8, 120, 40])
>>> output = pool(inp)
>>> output.shape
torch.Size([8, 1, 40])

forward(x)[source]

对输入张量执行自适应池化。

Parameters:: x (torch.Tensor) – 它表示一个小批量的张量。
Returns:: x – 合并后的输出。
Return type:: torch.Tensor

class speechbrain.nnet.pooling.GaussianLowpassPooling(in_channels, kernel_size, stride=1, initialization_constant=0.4, padding='same', padding_mode='constant', bias=True, skip_transpose=False)[source]

基础：Module

该类实现了一个可学习的高斯低通池化

Neil Zeghidour, Olivier Teboul, F{‘e}lix de Chaumont Quitry & Marco Tagliasacchi, “LEAF: 一个可学习的音频分类前端”, 在ICLR 2021的会议论文中 (https://arxiv.org/abs/2101.08596)

Parameters:

in_channels (int) – 输入通道的数量。
kernel_size (int) – 高斯低通滤波器的核大小。
stride (int) – 卷积滤波器的步长因子。当步长因子大于1时，会进行时间上的降采样。
initialization_constant (float) – 用于初始化的常数，默认值为0.4
padding (str) – (same, valid)。如果为“valid”，则不进行填充。如果为“same”且步幅为1，输出形状与输入形状相同。
padding_mode (str) – 此标志指定填充的类型。有关更多信息，请参阅 torch.nn 文档。
bias (bool) – 如果为True，则采用加法偏置b。
skip_transpose (bool) – 如果为False，使用speechbrain的批次 x 时间 x 通道约定。如果为True，使用批次 x 通道 x 时间约定。

Example

>>> inp_tensor = torch.rand([10, 8000, 40])
>>> low_pass_pooling = GaussianLowpassPooling(
...     40, kernel_size=401, stride=160,
... )
>>> # parameters corresponding to a window of 25 ms and stride 10 ms at 16000 kHz
>>> out_tensor = low_pass_pooling(inp_tensor)
>>> out_tensor.shape
torch.Size([10, 50, 40])

forward(x)[source]

执行高斯低通池化。

Parameters:: x (torch.Tensor) – 输入中的3D张量 [批次, 时间, 通道]。
Returns:: outputs – 池化后的输出。
Return type:: torch.Tensor

class speechbrain.nnet.pooling.AttentionPooling(input_dim)[source]

基础：Module

此函数实现了自注意力池化 (https://arxiv.org/abs/2008.01077)。

Parameters:: input_dim (int) – 输入 torch.Tensor 的维度

Example

>>> inp_tensor = torch.rand([4, 40])
>>> pool = AttentionPooling(input_dim=40)
>>> out_tensor = pool(inp_tensor)

forward(x)[source]

返回适配器的输出。

Parameters:: x (torch.Tensor) – 输入张量。
Returns:: out – 池化后的输出。
Return type:: torch.Tensor