1. 简介 

2.7.8. cublassyr2k()

cublasStatus_t cublasSsyr2k(cublasHandle_t handle,
                            cublasFillMode_t uplo, cublasOperation_t trans,
                            int n, int k,
                            const float           *alpha,
                            const float           *A, int lda,
                            const float           *B, int ldb,
                            const float           *beta,
                            float           *C, int ldc)
cublasStatus_t cublasDsyr2k(cublasHandle_t handle,
                            cublasFillMode_t uplo, cublasOperation_t trans,
                            int n, int k,
                            const double          *alpha,
                            const double          *A, int lda,
                            const double          *B, int ldb,
                            const double          *beta,
                            double          *C, int ldc)
cublasStatus_t cublasCsyr2k(cublasHandle_t handle,
                            cublasFillMode_t uplo, cublasOperation_t trans,
                            int n, int k,
                            const cuComplex       *alpha,
                            const cuComplex       *A, int lda,
                            const cuComplex       *B, int ldb,
                            const cuComplex       *beta,
                            cuComplex       *C, int ldc)
cublasStatus_t cublasZsyr2k(cublasHandle_t handle,
                            cublasFillMode_t uplo, cublasOperation_t trans,
                            int n, int k,
                            const cuDoubleComplex *alpha,
                            const cuDoubleComplex *A, int lda,
                            const cuDoubleComplex *B, int ldb,
                            const cuDoubleComplex *beta,
                            cuDoubleComplex *C, int ldc)

该函数支持64位整数接口。

该函数执行对称秩$2k$更新

$C = \alpha(\text{op}(A)\text{op}(B)^{T} + \text{op}(B)\text{op}(A)^{T}) + \beta C$

其中 $\alpha$ 和 $\beta$ 是标量，$C$ 是以下三角或上三角模式存储的对称矩阵，$A$ 和 $B$ 分别是维度为 $\text{op}(A)$ $n \times k$ 和 $\text{op}(B)$ $n \times k$ 的矩阵。此外，对于矩阵 $A$ 和 $B$

$\text{op(}A\text{) and op(}B\text{)} = \left\{ \begin{matrix} {A\text{ and }B} & {\text{if }\textsf{trans == $\mathrm{CUBLAS\_OP\_N}$}} \\ {A^{T}\text{ and }B^{T}} & {\text{if }\textsf{trans == $\mathrm{CUBLAS\_OP\_T}$}} \\ \end{matrix} \right.$

参数	内存	输入/输出	含义
`handle`		输入	cuBLAS库上下文的句柄。
`uplo`		输入	指示矩阵`C`的下三角或上三角部分是否被存储，另一对称部分未被引用，而是从存储的元素中推断得出。
`trans`		输入	操作op(`A`)可以是非转置或转置的。
`n`		输入	矩阵 op(`A`)、op(`B`) 和 `C` 的行数。
`k`		输入	矩阵 op(`A`) 和 op(`B`) 的列数。
`alpha`	主机或设备	输入	<type> 用于乘法的标量。
`A`	device	输入	<类型> 维度为 `lda x k` 的数组，当 `transa == CUBLAS_OP_N` 时要求 `lda >= max(1, n)`，否则为 `lda x n` 且 `lda >= max(1, k)`。
`lda`		输入	用于存储矩阵`A`的二维数组的主维度。
`B`	device	输入	<类型> 维度数组 `ldb x k`，当 `transb == CUBLAS_OP_N` 时需满足 `ldb >= max(1, n)`，否则为 `ldb x n` 且 `ldb>=max(1,k)`。
`ldb`		输入	用于存储矩阵`B`的二维数组的主维度。
`beta`	主机或设备	输入	<类型> 用于乘法的标量。如果 `beta == 0`，则 `C` 不需要是有效输入。
`C`	device	输入/输出	<类型> 维度数组 `ldc x n`，其中 `ldc >= max(1, n)`。
`ldc`		输入	用于存储矩阵`C`的二维数组的主维度。

该函数可能返回的错误值及其含义如下所示。

错误值	含义
`CUBLAS_STATUS_SUCCESS`	操作成功完成
`CUBLAS_STATUS_NOT_INITIALIZED`	库未初始化
`CUBLAS_STATUS_INVALID_VALUE`	如果 `n < 0` 或 `k < 0`，或者如果 `trans` 不是 `CUBLAS_OP_N`、`CUBLAS_OP_T` 和 `CUBLAS_OP_C` 其中之一，或者如果 `uplo` 不是 `CUBLAS_FILL_MODE_LOWER` 或 `CUBLAS_FILL_MODE_UPPER` 中的任意一个，或当 `trans == CUBLAS_OP_N` 时，如果 `lda < max(1, n)`，否则 `lda < max(1, k)`，或者当 `trans == CUBLAS_OP_N` 时，如果 `ldb < max(1, n)`，否则 `ldb < max(1, k)`，或者如果 `ldc < max(1, n)`，或者如果 `alpha` 或 `beta` 为 NULL，或者如果当`beta`不为零时`C`为NULL
`CUBLAS_STATUS_EXECUTION_FAILED`	该函数未能在GPU上启动

参考资料请查阅NETLIB文档：

2.7.9. cublassyrkx()

cublasStatus_t cublasSsyrkx(cublasHandle_t handle,
                            cublasFillMode_t uplo, cublasOperation_t trans,
                            int n, int k,
                            const float           *alpha,
                            const float           *A, int lda,
                            const float           *B, int ldb,
                            const float           *beta,
                            float           *C, int ldc)
cublasStatus_t cublasDsyrkx(cublasHandle_t handle,
                            cublasFillMode_t uplo, cublasOperation_t trans,
                            int n, int k,
                            const double          *alpha,
                            const double          *A, int lda,
                            const double          *B, int ldb,
                            const double          *beta,
                            double          *C, int ldc)
cublasStatus_t cublasCsyrkx(cublasHandle_t handle,
                            cublasFillMode_t uplo, cublasOperation_t trans,
                            int n, int k,
                            const cuComplex       *alpha,
                            const cuComplex       *A, int lda,
                            const cuComplex       *B, int ldb,
                            const cuComplex       *beta,
                            cuComplex       *C, int ldc)
cublasStatus_t cublasZsyrkx(cublasHandle_t handle,
                            cublasFillMode_t uplo, cublasOperation_t trans,
                            int n, int k,
                            const cuDoubleComplex *alpha,
                            const cuDoubleComplex *A, int lda,
                            const cuDoubleComplex *B, int ldb,
                            const cuDoubleComplex *beta,
                            cuDoubleComplex *C, int ldc)

该函数支持64位整数接口。

该函数执行对称秩$k$更新的变体

$C = \alpha\text{op}(A)\text{op}(B)^{T} + \beta C$

其中 $\alpha$ 和 $\beta$ 是标量，$C$ 是以下三角或上三角模式存储的对称矩阵，$A$ 和 $B$ 是维度分别为 $\text{op}(A)$ $n \times k$ 和 $\text{op}(B)$ $n \times k$ 的矩阵。此外，对于矩阵 $A$ 和 $B$

$\text{op(}A\text{) 和 op(}B\text{)} = \left\{ \begin{matrix} {A\text{ 和 }B} & {\text{如果 }\textsf{trans == $\mathrm{CUBLAS\_OP\_N}$}} \\ {A^{T}\text{ 和 }B^{T}} & {\text{如果 }\textsf{trans == $\mathrm{CUBLAS\_OP\_T}$}} \\ \end{matrix} \right.$

当矩阵B满足结果保证对称的条件时，可以使用此例程。一个常见例子是当矩阵B是矩阵A的缩放形式时：这相当于B是矩阵A与对角矩阵的乘积。关于常规矩阵与对角矩阵乘积的高效计算，请参考例程cublasdgmm()。

参数	内存	输入/输出	含义
`handle`		输入	cuBLAS库上下文的句柄。
`uplo`		输入	指示矩阵`C`的下三角或上三角部分是否被存储，另一对称部分未被引用，而是从存储的元素中推断得出。
`trans`		输入	操作op(`A`)可以是非转置或转置的。
`n`		输入	矩阵 op(`A`)、op(`B`) 和 `C` 的行数。
`k`		输入	矩阵 op(`A`) 和 op(`B`) 的列数。
`alpha`	主机或设备	输入	<type> 用于乘法的标量。
`A`	device	输入	<类型> 维度为 `lda x k` 的数组，当 `transa == CUBLAS_OP_N` 时要求 `lda >= max(1, n)`，否则为 `lda x n` 且 `lda >= max(1, k)`。
`lda`		输入	用于存储矩阵`A`的二维数组的主维度。
`B`	device	输入	<类型> 维度数组 `ldb x k`，当 `transb == CUBLAS_OP_N` 时要求 `ldb >= max(1, n)`，否则为 `ldb x n` 且 `ldb>=max(1,k)`。
`ldb`		输入	用于存储矩阵`B`的二维数组的主维度。
`beta`	主机或设备	输入	<type> 用于乘法的标量。如果 `beta == 0`，则 `C` 不需要是有效输入。
`C`	device	输入/输出	<类型> 维度为 `ldc x n` 的数组，其中 `ldc >= max(1, n)`。
`ldc`		输入	用于存储矩阵`C`的二维数组的主维度。

该函数可能返回的错误值及其含义如下所示。

错误值	含义
`CUBLAS_STATUS_SUCCESS`	操作成功完成
`CUBLAS_STATUS_NOT_INITIALIZED`	库未初始化
`CUBLAS_STATUS_INVALID_VALUE`	如果 `n < 0` 或 `k < 0`，或者如果 `trans` 不是 `CUBLAS_OP_N`、`CUBLAS_OP_T` 和 `CUBLAS_OP_C` 其中之一，或者如果 `uplo` 不是 `CUBLAS_FILL_MODE_LOWER` 或 `CUBLAS_FILL_MODE_UPPER` 中的任意一个，或当 `trans == CUBLAS_OP_N` 时，如果 `lda < max(1, n)`，否则 `lda < max(1, k)`，或者当 `trans == CUBLAS_OP_N` 时，如果 `ldb < max(1, n)`；否则当 `ldb < max(1, k)` 时如果 `ldc < max(1, n)`，或者如果 `alpha` 或 `beta` 为 NULL，或者如果当`beta`不为零时`C`为NULL
`CUBLAS_STATUS_EXECUTION_FAILED`	该函数未能在GPU上启动

参考资料请查阅NETLIB文档：

ssyrk(), dsyrk(), csyrk(), zsyrk() 和

2.7.10. cublastrmm()

cublasStatus_t cublasStrmm(cublasHandle_t handle,
                           cublasSideMode_t side, cublasFillMode_t uplo,
                           cublasOperation_t trans, cublasDiagType_t diag,
                           int m, int n,
                           const float           *alpha,
                           const float           *A, int lda,
                           const float           *B, int ldb,
                           float                 *C, int ldc)
cublasStatus_t cublasDtrmm(cublasHandle_t handle,
                           cublasSideMode_t side, cublasFillMode_t uplo,
                           cublasOperation_t trans, cublasDiagType_t diag,
                           int m, int n,
                           const double          *alpha,
                           const double          *A, int lda,
                           const double          *B, int ldb,
                           double                *C, int ldc)
cublasStatus_t cublasCtrmm(cublasHandle_t handle,
                           cublasSideMode_t side, cublasFillMode_t uplo,
                           cublasOperation_t trans, cublasDiagType_t diag,
                           int m, int n,
                           const cuComplex       *alpha,
                           const cuComplex       *A, int lda,
                           const cuComplex       *B, int ldb,
                           cuComplex             *C, int ldc)
cublasStatus_t cublasZtrmm(cublasHandle_t handle,
                           cublasSideMode_t side, cublasFillMode_t uplo,
                           cublasOperation_t trans, cublasDiagType_t diag,
                           int m, int n,
                           const cuDoubleComplex *alpha,
                           const cuDoubleComplex *A, int lda,
                           const cuDoubleComplex *B, int ldb,
                           cuDoubleComplex       *C, int ldc)

该函数支持64位整数接口。

该函数执行三角矩阵-矩阵乘法

$C = \left\{ \begin{matrix} {\alpha\text{op}(A)B} & {\text{如果 }\textsf{side == $\mathrm{CUBLAS\_SIDE\_LEFT}$}} \\ {\alpha B\text{op}(A)} & {\text{如果 }\textsf{side == $\mathrm{CUBLAS\_SIDE\_RIGHT}$}} \\ \end{matrix} \right.$

其中 $A$ 是一个以带或不带主对角线的下三角或上三角模式存储的三角矩阵，$B$ 和 $C$ 是 $m \times n$ 矩阵，$\alpha$ 是一个标量。此外，对于矩阵 $A$

$\text{op}(A) = \left\{ \begin{matrix} A & {\text{如果 }\textsf{transa == $\mathrm{CUBLAS\_OP\_N}$}} \\ A^{T} & {\text{如果 }\textsf{transa == $\mathrm{CUBLAS\_OP\_T}$}} \\ A^{H} & {\text{如果 }\textsf{transa == $\mathrm{CUBLAS\_OP\_C}$}} \\ \end{matrix} \right.$

请注意，为了实现更好的并行性，cuBLAS仅在此例程上与BLAS API有所不同。BLAS API假设采用原地实现（结果写回B矩阵），而cuBLAS API假设采用异地实现（结果写入C矩阵）。应用程序可以通过将B矩阵地址作为C矩阵地址传入，在cuBLAS API中获得BLAS的原地功能。输入参数中不支持其他任何重叠情况。

参数	内存	输入/输出	含义
`handle`		输入	cuBLAS库上下文的句柄。
`side`		输入	指示矩阵 `A` 位于 `B` 的左侧还是右侧。
`uplo`		输入	指示矩阵`A`的下三角或上三角部分是否被存储，另一部分未被引用，而是从存储的元素中推断得出。
`trans`		输入	操作op(`A`)表示非转置或共轭转置。
`diag`		输入	表示矩阵`A`主对角线上的元素是否为1且不应被访问。
`m`		输入	矩阵`B`的行数，矩阵`A`的大小需相应调整。
`n`		输入	矩阵`B`的列数，矩阵`A`会相应调整尺寸。
`alpha`	主机或设备	输入	<类型> 用于乘法的标量，如果 `alpha == 0` 则 `A` 不会被引用且 `B` 不需要是有效输入。
`A`	device	输入	类型维度为 `lda x m` 的数组，当 `side == CUBLAS_SIDE_LEFT` 时要求 `lda >= max(1, m)`；否则为 `lda x n` 且 `lda >= max(1, n)`。
`lda`		输入	用于存储矩阵`A`的二维数组的主维度。
`B`	device	输入	<类型> 维度为 `ldb x n` 的数组，其中 `ldb >= max(1, m)`。
`ldb`		输入	用于存储矩阵`B`的二维数组的主维度。
`C`	device	输入/输出	<类型> 维度为 `ldc x n` 的数组，其中 `ldc >= max(1, m)`。
`ldc`		输入	用于存储矩阵`C`的二维数组的主维度。

该函数可能返回的错误值及其含义如下所示。

错误值	含义
`CUBLAS_STATUS_SUCCESS`	操作成功完成
`CUBLAS_STATUS_NOT_INITIALIZED`	库未初始化
`CUBLAS_STATUS_INVALID_VALUE`	如果 `m < 0`，`n < 0`，或者如果 `trans` 不是 `CUBLAS_OP_N`、`CUBLAS_OP_T` 和 `CUBLAS_OP_C` 其中之一，或者如果 `uplo` 不是 `CUBLAS_FILL_MODE_LOWER` 或 `CUBLAS_FILL_MODE_UPPER` 中的任意一个，或如果 `side` 不是 `CUBLAS_SIDE_LEFT` 或 `CUBLAS_SIDE_RIGHT` 其中之一，或如果 `lda < max(1, m)` 当 `side == CUBLAS_SIDE_LEFT` 时，否则 `lda < max(1, n)`，或者如果 `ldb < max(1, m)`，或者如果 `ldc < max(1, m)`，或者如果 `alpha` 为 NULL
`CUBLAS_STATUS_EXECUTION_FAILED`	该函数未能在GPU上启动

参考资料请查阅NETLIB文档：

strmm(), dtrmm(), ctrmm(), ztrmm()

2.7.11. cublastrsm()

cublasStatus_t cublasStrsm(cublasHandle_t handle,
                           cublasSideMode_t side, cublasFillMode_t uplo,
                           cublasOperation_t trans, cublasDiagType_t diag,
                           int m, int n,
                           const float           *alpha,
                           const float           *A, int lda,
                           float           *B, int ldb)
cublasStatus_t cublasDtrsm(cublasHandle_t handle,
                           cublasSideMode_t side, cublasFillMode_t uplo,
                           cublasOperation_t trans, cublasDiagType_t diag,
                           int m, int n,
                           const double          *alpha,
                           const double          *A, int lda,
                           double          *B, int ldb)
cublasStatus_t cublasCtrsm(cublasHandle_t handle,
                           cublasSideMode_t side, cublasFillMode_t uplo,
                           cublasOperation_t trans, cublasDiagType_t diag,
                           int m, int n,
                           const cuComplex       *alpha,
                           const cuComplex       *A, int lda,
                           cuComplex       *B, int ldb)
cublasStatus_t cublasZtrsm(cublasHandle_t handle,
                           cublasSideMode_t side, cublasFillMode_t uplo,
                           cublasOperation_t trans, cublasDiagType_t diag,
                           int m, int n,
                           const cuDoubleComplex *alpha,
                           const cuDoubleComplex *A, int lda,
                           cuDoubleComplex *B, int ldb)

该函数支持64位整数接口。

该函数用于求解具有多个右端项的三角线性方程组

$\left\{ \begin{matrix} {\text{op}(A)X = \alpha B} & {\text{如果 }\textsf{side == $\mathrm{CUBLAS\_SIDE\_LEFT}$}} \\ {X\text{op}(A) = \alpha B} & {\text{如果 }\textsf{side == $\mathrm{CUBLAS\_SIDE\_RIGHT}$}} \\ \end{matrix} \right.$

其中 $A$ 是一个以带或不带主对角线的下三角或上三角模式存储的三角矩阵，$X$ 和 $B$ 是 $m \times n$ 矩阵，$\alpha$ 是一个标量。此外，对于矩阵 $A$

$\text{op}(A) = \left\{ \begin{matrix} A & {\text{如果 }\textsf{transa == $\mathrm{CUBLAS\_OP\_N}$}} \\ A^{T} & {\text{如果 }\textsf{transa == $\mathrm{CUBLAS\_OP\_T}$}} \\ A^{H} & {\text{如果 }\textsf{transa == $\mathrm{CUBLAS\_OP\_C}$}} \\ \end{matrix} \right.$

解$X$会在退出时覆盖右侧的$B$。

此函数未包含对奇异性或接近奇异性的测试。

参数	内存	输入/输出	含义
`handle`		输入	cuBLAS库上下文的句柄。
`side`		输入	指示矩阵 `A` 位于 `X` 的左侧还是右侧。
`uplo`		输入	指示矩阵`A`的下三角或上三角部分是否被存储，另一部分未被引用，而是从存储的元素中推断得出。
`trans`		输入	操作op(`A`)表示非转置或共轭转置。
`diag`		输入	表示矩阵`A`主对角线上的元素是否为1且不应被访问。
`m`		输入	矩阵`B`的行数，矩阵`A`的大小相应调整。
`n`		输入	矩阵`B`的列数，矩阵`A`的大小会相应调整。
`alpha`	主机或设备	输入	<类型> 用于乘法的标量，如果 `alpha == 0` 则 `A` 不会被引用且 `B` 不需要是有效输入。
`A`	device	输入	类型维度为 `lda x m` 的数组，当 `side == CUBLAS_SIDE_LEFT` 时要求 `lda >= max(1, m)`；否则为 `lda x n` 且 `lda >= max(1, n)`。
`lda`		输入	用于存储矩阵`A`的二维数组的主维度。
`B`	device	输入/输出	<类型> 数组。其维度为 `ldb x n`，其中 `ldb >= max(1, m)`。
`ldb`		输入	用于存储矩阵`B`的二维数组的主维度。

该函数可能返回的错误值及其含义如下所示。

错误值	含义
`CUBLAS_STATUS_SUCCESS`	操作成功完成
`CUBLAS_STATUS_NOT_INITIALIZED`	库未初始化
`CUBLAS_STATUS_INVALID_VALUE`	如果 `m < 0`，`n < 0`，或者如果 `trans` 不是 `CUBLAS_OP_N`、`CUBLAS_OP_T` 和 `CUBLAS_OP_C` 其中之一，或者如果 `uplo` 不是 `CUBLAS_FILL_MODE_LOWER` 或 `CUBLAS_FILL_MODE_UPPER` 中的任意一个，或如果 `side` 不是 `CUBLAS_SIDE_LEFT` 和 `CUBLAS_SIDE_RIGHT` 其中之一，或如果 `diag` 不是 `CUBLAS_DIAG_UNIT` 或 `CUBLAS_DIAG_NON_UNIT` 中的一种，或如果 `lda < max(1, m)` 当 `side == CUBLAS_SIDE_LEFT` 时，否则 `lda < max(1, n)`，或者如果 `ldb < max(1, m)`，或者如果 `alpha` 为 NULL
`CUBLAS_STATUS_EXECUTION_FAILED`	该函数未能在GPU上启动

参考资料请查阅NETLIB文档：

strsm(), dtrsm(), ctrsm(), ztrsm()

2.7.12. cublastrsmBatched()

cublasStatus_t cublasStrsmBatched( cublasHandle_t    handle,
                                   cublasSideMode_t  side,
                                   cublasFillMode_t  uplo,
                                   cublasOperation_t trans,
                                   cublasDiagType_t  diag,
                                   int m,
                                   int n,
                                   const float *alpha,
                                   const float *const A[],
                                   int lda,
                                   float *const B[],
                                   int ldb,
                                   int batchCount);
cublasStatus_t cublasDtrsmBatched( cublasHandle_t    handle,
                                   cublasSideMode_t  side,
                                   cublasFillMode_t  uplo,
                                   cublasOperation_t trans,
                                   cublasDiagType_t  diag,
                                   int m,
                                   int n,
                                   const double *alpha,
                                   const double *const A[],
                                   int lda,
                                   double *const B[],
                                   int ldb,
                                   int batchCount);
cublasStatus_t cublasCtrsmBatched( cublasHandle_t    handle,
                                   cublasSideMode_t  side,
                                   cublasFillMode_t  uplo,
                                   cublasOperation_t trans,
                                   cublasDiagType_t  diag,
                                   int m,
                                   int n,
                                   const cuComplex *alpha,
                                   const cuComplex *const A[],
                                   int lda,
                                   cuComplex *const B[],
                                   int ldb,
                                   int batchCount);
cublasStatus_t cublasZtrsmBatched( cublasHandle_t    handle,
                                   cublasSideMode_t  side,
                                   cublasFillMode_t  uplo,
                                   cublasOperation_t trans,
                                   cublasDiagType_t  diag,
                                   int m,
                                   int n,
                                   const cuDoubleComplex *alpha,
                                   const cuDoubleComplex *const A[],
                                   int lda,
                                   cuDoubleComplex *const B[],
                                   int ldb,
                                   int batchCount);

该函数支持64位整数接口。

该函数用于求解具有多个右端项的三角线性方程组数组

$\left\{ \begin{matrix} {\text{op}(A\lbrack i\rbrack)X\lbrack i\rbrack = \alpha B\lbrack i\rbrack} & {\text{if }\textsf{side == $\mathrm{CUBLAS\_SIDE\_LEFT}$}} \\ {X\lbrack i\rbrack\text{op}(A\lbrack i\rbrack) = \alpha B\lbrack i\rbrack} & {\text{if }\textsf{side == $\mathrm{CUBLAS\_SIDE\_RIGHT}$}} \\ \end{matrix} \right.$

其中 $A\lbrack i\rbrack$ 是一个以带或不带主对角线的下三角或上三角模式存储的三角矩阵，$X\lbrack i\rbrack$ 和 $B\lbrack i\rbrack$ 是 $m \times n$ 矩阵，$\alpha$ 是一个标量。此外，对于矩阵 $A$

$\text{op}(A\lbrack i\rbrack) = \left\{ \begin{matrix} {A\lbrack i\rbrack} & {\text{如果 }\textsf{transa == $\mathrm{CUBLAS\_OP\_N}$}} \\ {A^{T}\lbrack i\rbrack} & {\text{如果 }\textsf{transa == $\mathrm{CUBLAS\_OP\_T}$}} \\ {A^{H}\lbrack i\rbrack} & {\text{如果 }\textsf{transa == $\mathrm{CUBLAS\_OP\_C}$}} \\ \end{matrix} \right.$

解 $X\lbrack i\rbrack$ 在退出时会覆盖右侧的 $B\lbrack i\rbrack$。

此函数未包含对奇异性或接近奇异性的测试。

此函数适用于任何尺寸的矩阵，但主要针对小尺寸矩阵，其中启动开销是一个重要因素。对于较大尺寸的矩阵，在一组CUDA流中调用batchCount次常规的cublastrsm()可能更为有利。

当前实现仅限于计算能力等于或高于2.0的设备。

参数	内存	输入/输出	含义
`handle`		输入	cuBLAS库上下文的句柄。
`side`		输入	表示矩阵 `A[i]` 位于 `X[i]` 的左侧还是右侧。
`uplo`		输入	指示矩阵`A[i]`的下三角部分或上三角部分是否被存储，另一部分未被引用，而是从存储的元素中推断得出。
`trans`		输入	操作op(`A[i]`)表示非转置或共轭转置。
`diag`		输入	表示矩阵`A[i]`主对角线上的元素是否为1且不应被访问。
`m`		输入	矩阵`B[i]`的行数，矩阵`A[i]`的尺寸会相应调整。
`n`		输入	矩阵`B[i]`的列数，矩阵`A[i]`的大小会相应调整。
`alpha`	主机或设备	输入	<类型> 用于乘法的标量，如果 `alpha == 0` 则 `A[i]` 不会被引用且 `B[i]` 不需要是有效输入。
`A`	device	输入	指向<类型>数组的指针数组，每个数组的维度为`lda x m`，当`side == CUBLAS_SIDE_LEFT`时要求`lda >= max(1, m)`，否则维度为`lda x n`且要求`lda >= max(1, n)`。
`lda`		输入	用于存储矩阵`A[i]`的二维数组的主维度。
`B`	device	输入/输出	指向<类型>数组的指针数组，每个数组的维度为`ldb x n`，其中`ldb >= max(1, m)`。矩阵`B[i]`之间不应重叠，否则可能导致未定义行为。
`ldb`		输入	用于存储矩阵`B[i]`的二维数组的主维度。
`batchCount`		输入	A和B中包含的指针数量。

该函数可能返回的错误值及其含义如下所示。

错误值	含义
`CUBLAS_STATUS_SUCCESS`	操作成功完成
`CUBLAS_STATUS_NOT_INITIALIZED`	库未初始化
`CUBLAS_STATUS_INVALID_VALUE`	如果 `m < 0`, `n < 0`, 或如果 `trans` 不是 `CUBLAS_OP_N`、`CUBLAS_OP_T` 和 `CUBLAS_OP_C` 其中之一，或者如果 `uplo` 不是 `CUBLAS_FILL_MODE_LOWER` 或 `CUBLAS_FILL_MODE_UPPER` 中的任意一个，或如果 `side` 不是 `CUBLAS_SIDE_LEFT` 和 `CUBLAS_SIDE_RIGHT` 中的一个，或如果 `diag` 不是 `CUBLAS_DIAG_UNIT` 或 `CUBLAS_DIAG_NON_UNIT` 中的一种，或如果 `lda < max(1, m)` 当 `side == CUBLAS_SIDE_LEFT` 时，否则 `lda < max(1, n)`，或者如果 `ldb < max(1, m)`
`CUBLAS_STATUS_EXECUTION_FAILED`	该函数未能在GPU上启动

参考资料请查阅NETLIB文档：

strsm(), dtrsm(), ctrsm(), ztrsm()

2.7.13. cublashemm()

cublasStatus_t cublasChemm(cublasHandle_t handle,
                           cublasSideMode_t side, cublasFillMode_t uplo,
                           int m, int n,
                           const cuComplex       *alpha,
                           const cuComplex       *A, int lda,
                           const cuComplex       *B, int ldb,
                           const cuComplex       *beta,
                           cuComplex       *C, int ldc)
cublasStatus_t cublasZhemm(cublasHandle_t handle,
                           cublasSideMode_t side, cublasFillMode_t uplo,
                           int m, int n,
                           const cuDoubleComplex *alpha,
                           const cuDoubleComplex *A, int lda,
                           const cuDoubleComplex *B, int ldb,
                           const cuDoubleComplex *beta,
                           cuDoubleComplex *C, int ldc)

该函数支持64位整数接口。

该函数执行厄米特矩阵-矩阵乘法

$C = \left\{ \begin{matrix} {\alpha AB + \beta C} & {\text{如果 }\textsf{side == $\mathrm{CUBLAS\_SIDE\_LEFT}$}} \\ {\alpha BA + \beta C} & {\text{如果 }\textsf{side == $\mathrm{CUBLAS\_SIDE\_RIGHT}$}} \\ \end{matrix} \right.$

其中$A$是一个以低位或高位模式存储的埃尔米特矩阵，$B$和$C$是$m \times n$矩阵，$\alpha$和$\beta$是标量。

参数	内存	输入/输出	含义
`handle`		输入	cuBLAS库上下文的句柄。
`side`		输入	指示矩阵 `A` 位于 `B` 的左侧还是右侧。
`uplo`		输入	指示矩阵`A`的下三角或上三角部分是否被存储，另一侧的共轭对称部分不会被引用，而是从已存储的元素中推断得出。
`m`		输入	矩阵`C`和`B`的行数，矩阵`A`的大小相应调整。
`n`		输入	矩阵`C`和`B`的列数，矩阵`A`的大小相应调整。
`alpha`	主机或设备	输入	<type> 用于乘法的标量。
`A`	device	输入	<类型> 维度为 `lda x m` 的数组，当 `side==CUBLAS_SIDE_LEFT` 时要求 `lda >= max(1, m)`，否则为 `lda x n` 且 `lda >= max(1, n)`。假定对角线元素的虚部为零。
`lda`		输入	用于存储矩阵`A`的二维数组的主维度。
`B`	device	输入	<类型> 维度为 `ldb x n` 的数组，其中 `ldb >= max(1, m)`。
`ldb`		输入	用于存储矩阵`B`的二维数组的主维度。
`beta`		输入	<类型> 用于乘法的标量。如果 `beta == 0` 则 `C` 不需要是有效输入。
`C`	device	输入/输出	<类型> 维度数组 `ldc x n`，其中 `ldc >= max(1, m)`。
`ldc`		输入	用于存储矩阵`C`的二维数组的主维度。

该函数可能返回的错误值及其含义如下所示。

错误值	含义
`CUBLAS_STATUS_SUCCESS`	操作成功完成
`CUBLAS_STATUS_NOT_INITIALIZED`	库未初始化
`CUBLAS_STATUS_INVALID_VALUE`	如果 `m < 0` 或 `n < 0`，或者如果 `side` 不是 `CUBLAS_SIDE_LEFT` 和 `CUBLAS_SIDE_RIGHT` 中的一个，或如果 `uplo` 不是 `CUBLAS_FILL_MODE_LOWER` 或 `CUBLAS_FILL_MODE_UPPER` 中的任意一个，或者当 `side == CUBLAS_SIDE_LEFT` 时，如果 `lda < max(1, m)`；否则 `lda < max(1, n)`，或者如果 `ldb < max(1, m)`，或者如果 `ldc < max(1, m)`，或者如果 `alpha` 或 `beta` 为 NULL，或者如果当`beta`不为零时`C`为NULL
`CUBLAS_STATUS_EXECUTION_FAILED`	该函数未能在GPU上启动

参考资料请查阅NETLIB文档：

chemm(), zhemm()

2.7.14. cublasherk()

cublasStatus_t cublasCherk(cublasHandle_t handle,
                           cublasFillMode_t uplo, cublasOperation_t trans,
                           int n, int k,
                           const float  *alpha,
                           const cuComplex       *A, int lda,
                           const float  *beta,
                           cuComplex       *C, int ldc)
cublasStatus_t cublasZherk(cublasHandle_t handle,
                           cublasFillMode_t uplo, cublasOperation_t trans,
                           int n, int k,
                           const double *alpha,
                           const cuDoubleComplex *A, int lda,
                           const double *beta,
                           cuDoubleComplex *C, int ldc)

该函数支持64位整数接口。

该函数执行埃尔米特秩-$k$更新

$C = \alpha\text{op}(A)\text{op}(A)^{H} + \beta C$

其中 $\alpha$ 和 $\beta$ 是标量，$C$ 是以下三角或上三角模式存储的厄米特矩阵，$A$ 是一个维度为 $\text{op}(A)$ $n \times k$ 的矩阵。同样地，对于矩阵 $A$

$\text{op}(A) = \left\{ \begin{matrix} A & {\text{如果 }\textsf{transa == $\mathrm{CUBLAS\_OP\_N}$}} \\ A^{H} & {\text{如果 }\textsf{transa == $\mathrm{CUBLAS\_OP\_C}$}} \\ \end{matrix} \right.$

参数	内存	输入/输出	含义
`handle`		输入	cuBLAS库上下文的句柄。
`uplo`		输入	指示矩阵`C`的下三角或上三角部分是否被存储，另一侧的共轭对称部分不被引用。
`trans`		输入	操作op(`A`)表示非转置或共轭转置。
`n`		输入	矩阵 op(`A`) 和 `C` 的行数。
`k`		输入	矩阵 op(`A`) 的列数。
`alpha`	主机或设备	输入	<type> 用于乘法的标量。
`A`	device	输入	<类型> 维度为 `lda x k` 的数组，当 `transa == CUBLAS_OP_N` 时要求 `lda >= max(1, n)`，否则为 `lda x n` 且 `lda >= max(1, k)`。
`lda`		输入	用于存储矩阵`A`的二维数组的主维度。
`beta`		输入	<类型> 用于乘法的标量。如果 `beta == 0` 则 `C` 不需要是有效输入。
`C`	device	输入/输出	<类型> 维度为 `ldc x n` 的数组，其中 `ldc >= max(1, n)`。对角线元素的虚部被假定并设为零。
`ldc`		输入	用于存储矩阵`C`的二维数组的主维度。

该函数可能返回的错误值及其含义如下所示。

错误值	含义
`CUBLAS_STATUS_SUCCESS`	操作成功完成
`CUBLAS_STATUS_NOT_INITIALIZED`	库未初始化
`CUBLAS_STATUS_INVALID_VALUE`	如果 `n < 0` 或 `k < 0`，或者如果 `trans` 不是 `CUBLAS_OP_N`、`CUBLAS_OP_T` 和 `CUBLAS_OP_C` 其中之一，或者如果 `uplo` 不是 `CUBLAS_FILL_MODE_LOWER` 或 `CUBLAS_FILL_MODE_UPPER` 中的任意一个，或当 `trans == CUBLAS_OP_N` 时，如果 `lda < max(1, n)`，否则 `lda < max(1, k)`，或者如果 `ldc < max(1, n)`，或者如果 `alpha` 或 `beta` 为 NULL，或者如果当`beta`不为零时`C`为NULL
`CUBLAS_STATUS_EXECUTION_FAILED`	该函数未能在GPU上启动

参考资料请查阅NETLIB文档：

cherk(), zherk()

2.7.15. cublasher2k()

cublasStatus_t cublasCher2k(cublasHandle_t handle,
                            cublasFillMode_t uplo, cublasOperation_t trans,
                            int n, int k,
                            const cuComplex       *alpha,
                            const cuComplex       *A, int lda,
                            const cuComplex       *B, int ldb,
                            const float  *beta,
                            cuComplex       *C, int ldc)
cublasStatus_t cublasZher2k(cublasHandle_t handle,
                            cublasFillMode_t uplo, cublasOperation_t trans,
                            int n, int k,
                            const cuDoubleComplex *alpha,
                            const cuDoubleComplex *A, int lda,
                            const cuDoubleComplex *B, int ldb,
                            const double *beta,
                            cuDoubleComplex *C, int ldc)

该函数支持64位整数接口。

该函数执行埃尔米特秩$2k$更新

$C = \alpha\text{op}(A)\text{op}(B)^{H} + \overset{ˉ}{\alpha}\text{op}(B)\text{op}(A)^{H} + \beta C$

其中 $\alpha$ 和 $\beta$ 是标量，$C$ 是以下三角或上三角模式存储的埃尔米特矩阵，$A$ 和 $B$ 是维度分别为 $\text{op}(A)$ $n \times k$ 和 $\text{op}(B)$ $n \times k$ 的矩阵。此外，对于矩阵 $A$ 和 $B$

$\text{op(}A\text{) and op(}B\text{)} = \left\{ \begin{matrix} {A\text{ and }B} & {\text{if }\textsf{trans == $\mathrm{CUBLAS\_OP\_N}$}} \\ {A^{H}\text{ and }B^{H}} & {\text{if }\textsf{trans == $\mathrm{CUBLAS\_OP\_C}$}} \\ \end{matrix} \right.$

参数	内存	输入/输出	含义
`handle`		输入	cuBLAS库上下文的句柄。
`uplo`		输入	指示矩阵`C`的下三角或上三角部分是否被存储，另一侧的共轭对称部分不被引用。
`trans`		输入	操作op(`A`)表示非转置或共轭转置。
`n`		输入	矩阵 op(`A`)、op(`B`) 和 `C` 的行数。
`k`		输入	矩阵 op(`A`) 和 op(`B`) 的列数。
`alpha`	主机或设备	输入	<type> 用于乘法的标量。
`A`	device	输入	<类型> 维度为 `lda x k` 的数组，当 `transa == CUBLAS_OP_N` 时要求 `lda >= max(1, n)`，否则为 `lda x n` 且 `lda >= max(1, k)`。
`lda`		输入	用于存储矩阵`A`的二维数组的主维度。
`B`	device	输入	<类型> 维度为 `ldb x k` 的数组，当 `transb == CUBLAS_OP_N` 时要求 `ldb >= max(1, n)`，否则为 `ldb x n` 且 `ldb>=max(1,k)`。
`ldb`		输入	用于存储矩阵`B`的二维数组的主维度。
`beta`	主机或设备	输入	<类型> 用于乘法的标量。如果 `beta == 0` 则 `C` 不需要是有效输入。
`C`	device	输入/输出	<类型> 维度为 `ldc x n` 的数组，其中 `ldc >= max(1, n)`。对角线元素的虚部被假定并设为零。
`ldc`		输入	用于存储矩阵`C`的二维数组的主维度。

该函数可能返回的错误值及其含义如下所示。

错误值	含义
`CUBLAS_STATUS_SUCCESS`	操作成功完成
`CUBLAS_STATUS_NOT_INITIALIZED`	库未初始化
`CUBLAS_STATUS_INVALID_VALUE`	如果 `n < 0` 或 `k < 0`，或者如果 `trans` 不是 `CUBLAS_OP_N`、`CUBLAS_OP_T` 和 `CUBLAS_OP_C` 其中之一，或者如果 `uplo` 不是 `CUBLAS_FILL_MODE_LOWER` 或 `CUBLAS_FILL_MODE_UPPER` 中的任意一个，或当 `trans == CUBLAS_OP_N` 时，如果 `lda < max(1, n)`；否则当 `lda < max(1, k)` 时如果 `ldc < max(1, n)`，或者如果 `alpha` 或 `beta` 为 NULL，或者如果当`beta`不为零时`C`为NULL
`CUBLAS_STATUS_EXECUTION_FAILED`	该函数未能在GPU上启动

参考资料请查阅NETLIB文档：

2.7.16. cublasherkx()

cublasStatus_t cublasCherkx(cublasHandle_t handle,
                            cublasFillMode_t uplo, cublasOperation_t trans,
                            int n, int k,
                            const cuComplex       *alpha,
                            const cuComplex       *A, int lda,
                            const cuComplex       *B, int ldb,
                            const float  *beta,
                            cuComplex       *C, int ldc)
cublasStatus_t cublasZherkx(cublasHandle_t handle,
                            cublasFillMode_t uplo, cublasOperation_t trans,
                            int n, int k,
                            const cuDoubleComplex *alpha,
                            const cuDoubleComplex *A, int lda,
                            const cuDoubleComplex *B, int ldb,
                            const double *beta,
                            cuDoubleComplex *C, int ldc)

该函数支持64位整数接口。

该函数执行埃尔米特秩$k$更新的变体

$C = \alpha\text{op}(A)\text{op}(B)^{H} + \beta C$

其中 $\alpha$ 和 $\beta$ 是标量，$C$ 是以下三角或上三角模式存储的埃尔米特矩阵，$A$ 和 $B$ 是维度分别为 $\text{op}(A)$ $n \times k$ 和 $\text{op}(B)$ $n \times k$ 的矩阵。此外，对于矩阵 $A$ 和 $B$

$\text{op(}A\text{) and op(}B\text{)} = \left\{ \begin{matrix} {A\text{ and }B} & {\text{如果 }\textsf{trans == $\mathrm{CUBLAS\_OP\_N}$}} \\ {A^{H}\text{ and }B^{H}} & {\text{如果 }\textsf{trans == $\mathrm{CUBLAS\_OP\_C}$}} \\ \end{matrix} \right.$

当矩阵B满足结果保证为厄米特矩阵的条件时，可以使用此例程。一个常见例子是当矩阵B是矩阵A的缩放形式时：这相当于B是矩阵A与对角矩阵的乘积。关于常规矩阵与对角矩阵乘积的高效计算，请参考例程cublasdgmm()。

参数	内存	输入/输出	含义
`handle`		输入	cuBLAS库上下文的句柄。
`uplo`		输入	指示矩阵`C`的下三角或上三角部分是否被存储，另一侧的共轭对称部分不被引用。
`trans`		输入	操作op(`A`)表示非转置或共轭转置。
`n`		输入	矩阵 op(`A`)、op(`B`) 和 `C` 的行数。
`k`		输入	矩阵 op(`A`) 和 op(`B`) 的列数。
`alpha`	主机或设备	输入	<type> 用于乘法的标量。
`A`	device	输入	<类型> 维度为 `lda x k` 的数组，当 `transa == CUBLAS_OP_N` 时要求 `lda >= max(1, n)`，否则为 `lda x n` 且 `lda >= max(1, k)`。
`lda`		输入	用于存储矩阵`A`的二维数组的主维度。
`B`	device	输入	<类型> 维度为 `ldb x k` 的数组，当 `transb == CUBLAS_OP_N` 时要求 `ldb >= max(1, n)`，否则为 `ldb x n` 且 `ldb>=max(1,k)`。
`ldb`		输入	用于存储矩阵`B`的二维数组的主维度。
`beta`	主机或设备	输入	用于乘法的实数标量。如果 `beta == 0` 则 `C` 不需要是有效输入。
`C`	device	输入/输出	<类型> 维度为 `ldc x n` 的数组，其中 `ldc >= max(1, n)`。对角线元素的虚部被假定并设为零。
`ldc`		输入	用于存储矩阵`C`的二维数组的主维度。

该函数可能返回的错误值及其含义如下所示。

错误值	含义
`CUBLAS_STATUS_SUCCESS`	操作成功完成
`CUBLAS_STATUS_NOT_INITIALIZED`	库未初始化
`CUBLAS_STATUS_INVALID_VALUE`	如果 `n < 0` 或 `k < 0`，或者如果 `trans` 不是 `CUBLAS_OP_N`、`CUBLAS_OP_T` 和 `CUBLAS_OP_C` 其中之一，或者如果 `uplo` 不是 `CUBLAS_FILL_MODE_LOWER` 或 `CUBLAS_FILL_MODE_UPPER` 中的任意一个，或当 `trans == CUBLAS_OP_N` 时，如果 `lda < max(1, n)`；否则当 `lda < max(1, k)` 时如果 `ldc < max(1, n)`，或者如果 `alpha` 或 `beta` 为 NULL，或者如果当`beta`不为零时`C`为NULL
`CUBLAS_STATUS_EXECUTION_FAILED`	该函数未能在GPU上启动

参考资料请查阅NETLIB文档：

cherk(), zherk() 和

2.8. 类BLAS扩展

本节介绍执行矩阵-矩阵运算的BLAS扩展函数。

2.8.1. cublasgeam()

cublasStatus_t cublasSgeam(cublasHandle_t handle,
                          cublasOperation_t transa, cublasOperation_t transb,
                          int m, int n,
                          const float           *alpha,
                          const float           *A, int lda,
                          const float           *beta,
                          const float           *B, int ldb,
                          float           *C, int ldc)
cublasStatus_t cublasDgeam(cublasHandle_t handle,
                          cublasOperation_t transa, cublasOperation_t transb,
                          int m, int n,
                          const double          *alpha,
                          const double          *A, int lda,
                          const double          *beta,
                          const double          *B, int ldb,
                          double          *C, int ldc)
cublasStatus_t cublasCgeam(cublasHandle_t handle,
                          cublasOperation_t transa, cublasOperation_t transb,
                          int m, int n,
                          const cuComplex       *alpha,
                          const cuComplex       *A, int lda,
                          const cuComplex       *beta ,
                          const cuComplex       *B, int ldb,
                          cuComplex       *C, int ldc)
cublasStatus_t cublasZgeam(cublasHandle_t handle,
                          cublasOperation_t transa, cublasOperation_t transb,
                          int m, int n,
                          const cuDoubleComplex *alpha,
                          const cuDoubleComplex *A, int lda,
                          const cuDoubleComplex *beta,
                          const cuDoubleComplex *B, int ldb,
                          cuDoubleComplex *C, int ldc)

该函数支持64位整数接口。

该函数执行矩阵-矩阵加法/转置操作

$C = \alpha\text{op}(A) + \beta\text{op}(B)$

其中$\alpha$和$\beta$是标量，$A$、$B$和$C$是以列主序格式存储的矩阵，其维度分别为$\text{op}(A)$$m \times n$、$\text{op}(B)$$m \times n$和$C$$m \times n$。同样地，对于矩阵$A$

$\text{op}(A) = \left\{ \begin{matrix} A & {\text{如果 }\textsf{transa == $\mathrm{CUBLAS\_OP\_N}$}} \\ A^{T} & {\text{如果 }\textsf{transa == $\mathrm{CUBLAS\_OP\_T}$}} \\ A^{H} & {\text{如果 }\textsf{transa == $\mathrm{CUBLAS\_OP\_C}$}} \\ \end{matrix} \right.$

并且矩阵 $B$ 的 $\text{op}(B)$ 也以类似方式定义。

如果C不与A或B重叠，则该操作为非原位操作。

就地模式支持以下两种操作，

$C = \alpha\text{*}C + \beta\text{op}(B)$

$C = \alpha\text{op}(A) + \beta\text{*}C$

对于就地模式，如果C = A，则ldc = lda且transa = CUBLAS_OP_N。如果C = B，则ldc = ldb且transb = CUBLAS_OP_N。如果用户不满足上述要求，将返回CUBLAS_STATUS_INVALID_VALUE。

该操作包含以下特殊情况：

用户可以通过设置*alpha=*beta=0将矩阵C重置为零。

用户可以通过设置*alpha=1 和 *beta=0来转置矩阵A。

参数	内存	输入/输出	含义
`handle`		输入	cuBLAS库上下文的句柄。
`transa`		输入	操作op(`A`)表示非转置或共轭转置。
`transb`		输入	操作op(`B`)可以是非转置或(conj.)转置。
`m`		输入	矩阵 op(`A`) 和 `C` 的行数。
`n`		输入	矩阵 op(`B`) 和 `C` 的列数。
`alpha`	主机或设备	输入	<类型> 用于乘法的标量。如果 `*alpha == 0`，则 `A` 不需要是有效输入。
`A`	device	输入	<类型> 维度数组 `lda x n`，当 `transa == CUBLAS_OP_N` 时要求 `lda >= max(1, m)`；否则为 `lda x m` 且 `lda >= max(1, n)`。
`lda`		输入	用于存储矩阵`A`的二维数组的主维度。
`B`	device	输入	<类型> 维度为 `ldb x n` 的数组，当 `transb == CUBLAS_OP_N` 时要求 `ldb >= max(1, m)`；否则为 `ldb x m` 且 `ldb>=max(1,n)`。
`ldb`		输入	用于存储矩阵`B`的二维数组的主维度。
`beta`	主机或设备	输入	<type> 用于乘法的标量。如果 `*beta == 0`，则 `B` 不需要是有效输入。
`C`	device	输出	<类型> 维度数组 `ldc x n`，其中 `ldc >= max(1, m)`。
`ldc`		输入	用于存储矩阵`C`的二维数组的主维度。

该函数可能返回的错误值及其含义如下所示。

错误值	含义
`CUBLAS_STATUS_SUCCESS`	操作成功完成
`CUBLAS_STATUS_NOT_INITIALIZED`	库未初始化
`CUBLAS_STATUS_INVALID_VALUE`	如果 `m < 0` 或 `n < 0`，或者如果 `transa` 不是 `CUBLAS_OP_N`、`CUBLAS_OP_T` 或 `CUBLAS_OP_C` 中的一个，或者如果 `transb` 不是 `CUBLAS_OP_N`、`CUBLAS_OP_T` 或 `CUBLAS_OP_C` 中的一个，或者当 `transa == CUBLAS_OP_N` 时，如果 `lda < max(1, m)`，否则 `lda < max(1, n)`，或如果 `ldb < max(1, m)` 当 `transb == CUBLAS_OP_N` 时，否则 `ldb < max(1, n)`，或者如果 `ldc < max(1, m)`，或者如果 `A == C` 并且 `(transa != CUBLAS_OP_N) \|\| (lda != ldc)`，或者如果 `B == C` 且 `(transb != CUBLAS_OP_N) \|\| (ldb != ldc)`，或者如果 `alpha` 或 `beta` 为 NULL
`CUBLAS_STATUS_EXECUTION_FAILED`	该函数未能在GPU上启动

2.8.2. cublasdgmm()

cublasStatus_t cublasSdgmm(cublasHandle_t handle, cublasSideMode_t mode,
                          int m, int n,
                          const float           *A, int lda,
                          const float           *x, int incx,
                          float           *C, int ldc)
cublasStatus_t cublasDdgmm(cublasHandle_t handle, cublasSideMode_t mode,
                          int m, int n,
                          const double          *A, int lda,
                          const double          *x, int incx,
                          double          *C, int ldc)
cublasStatus_t cublasCdgmm(cublasHandle_t handle, cublasSideMode_t mode,
                          int m, int n,
                          const cuComplex       *A, int lda,
                          const cuComplex       *x, int incx,
                          cuComplex       *C, int ldc)
cublasStatus_t cublasZdgmm(cublasHandle_t handle, cublasSideMode_t mode,
                          int m, int n,
                          const cuDoubleComplex *A, int lda,
                          const cuDoubleComplex *x, int incx,
                          cuDoubleComplex *C, int ldc)

该函数支持64位整数接口。

该函数执行矩阵与矩阵的乘法运算

$C = \left\{ \begin{matrix} {A \times diag(X)} & {\text{当 }\textsf{mode == $\mathrm{CUBLAS\_SIDE\_RIGHT}$}} \\ {diag(X) \times A} & {\text{当 }\textsf{mode == $\mathrm{CUBLAS\_SIDE\_LEFT}$}} \\ \end{matrix} \right.$

其中 $A$ 和 $C$ 是以列主序格式存储的矩阵，维度为 $m \times n$。$X$ 是一个向量，当 mode == CUBLAS_SIDE_RIGHT 时大小为 $n$，当 mode == CUBLAS_SIDE_LEFT 时大小为 $m$。$X$ 从一维数组 x 中按步长 incx 采集。 incx 的绝对值表示步长，其符号表示步长方向。如果 incx 为正，则从第一个元素向前遍历 x；否则从最后一个元素向后遍历。X 的计算公式为

$X\lbrack j\rbrack = \left\{ \begin{matrix} {x\lbrack j \times incx\rbrack} & {\text{如果 }incx \geq 0} \\ {x\lbrack(\chi - 1) \times |incx| - j \times |incx|\rbrack} & {\text{如果 }incx < 0} \\ \end{matrix} \right.$

其中 $\chi = m$ 当 mode == CUBLAS_SIDE_LEFT，而 $\chi = n$ 当 mode == CUBLAS_SIDE_RIGHT。

示例1：如果用户想要执行$diag(diag(B)) \times A$，那么$incx = ldb + 1$，其中$ldb$是矩阵B的主维度，可以是行优先或列优先。

示例2：如果用户想要执行$\alpha \times A$，那么有两种选择，要么使用cublasgeam()并设置*beta=0和transa == CUBLAS_OP_N，要么使用cublasdgmm()并设置incx=0和x[0]=alpha。

该操作是异地执行的。仅当lda = ldc时才能进行原地操作。

参数	内存	输入/输出	含义
`handle`		输入	cuBLAS库上下文的句柄。
`mode`		输入	如果`mode == CUBLAS_SIDE_LEFT`则左乘，如果`mode == CUBLAS_SIDE_RIGHT`则右乘
`m`		输入	矩阵 `A` 和 `C` 的行数。
`n`		输入	矩阵 `A` 和 `C` 的列数。
`A`	device	输入	<类型> 维度数组 `lda x n` 满足 `lda >= max(1, m)`
`lda`		输入	用于存储矩阵`A`的二维数组的主维度。
`x`	device	输入	一维<类型>数组，大小为`abs(incx) x m`（当`mode == CUBLAS_SIDE_LEFT`时）或`abs(incx) x n`（当`mode == CUBLAS_SIDE_RIGHT`时）
`incx`		输入	一维数组`x`的步长。
`C`	device	输入/输出	<类型> 维度数组 `ldc x n`，其中 `ldc >= max(1, m)`。
`ldc`		输入	用于存储矩阵`C`的二维数组的主维度。

该函数可能返回的错误值及其含义如下所示。

错误值	含义
`CUBLAS_STATUS_SUCCESS`	操作成功完成
`CUBLAS_STATUS_NOT_INITIALIZED`	库未初始化
`CUBLAS_STATUS_INVALID_VALUE`	如果 `m < 0` 或 `n < 0`，或者如果 `mode` 不是 `CUBLAS_SIDE_LEFT` 或 `CUBLAS_SIDE_RIGHT` 中的一种，或如果 `lda < max(1, m)`，或者如果 `ldc < max(1, m)`
`CUBLAS_STATUS_EXECUTION_FAILED`	该函数未能在GPU上启动

2.8.3. cublasgetrfBatched()

cublasStatus_t cublasSgetrfBatched(cublasHandle_t handle,
                                   int n,
                                   float *const Aarray[],
                                   int lda,
                                   int *PivotArray,
                                   int *infoArray,
                                   int batchSize);

cublasStatus_t cublasDgetrfBatched(cublasHandle_t handle,
                                   int n,
                                   double *const Aarray[],
                                   int lda,
                                   int *PivotArray,
                                   int *infoArray,
                                   int batchSize);

cublasStatus_t cublasCgetrfBatched(cublasHandle_t handle,
                                   int n,
                                   cuComplex *const Aarray[],
                                   int lda,
                                   int *PivotArray,
                                   int *infoArray,
                                   int batchSize);

cublasStatus_t cublasZgetrfBatched(cublasHandle_t handle,
                                   int n,
                                   cuDoubleComplex *const Aarray[],
                                   int lda,
                                   int *PivotArray,
                                   int *infoArray,
                                   int batchSize);

Aarray 是一个指向矩阵的指针数组，这些矩阵以列主序格式存储，维度为 nxn，主维度为 lda。

该函数通过以下方程对每个Aarray[i]进行LU分解，其中i = 0, ..., batchSize-1

$\text{P}\text{*}{Aarray}\lbrack i\rbrack = L\text{*}U$

其中P是表示带行交换的部分主元置换矩阵。L是单位对角线的下三角矩阵，而U是上三角矩阵。

形式上，P可以表示为一系列置换矩阵Pj的乘积，其中j = 1,2,...,n，即P = P1 * P2 * P3 * .... * Pn。每个Pj都是一个置换矩阵，在执行Pj*x时会交换向量x的两行。可以通过以下Matlab代码，利用PivotArray[i]的第j个元素来构造Pj。

// In Matlab PivotArray[i] is an array of base-1.
// In C, PivotArray[i] is base-0.
Pj = eye(n);
swap Pj(j,:) and Pj(PivotArray[i][j]  ,:)

L 和 U 会被写回原始矩阵 A，同时 L 的对角线元素会被丢弃。可以通过以下 Matlab 代码构建 L 和 U

// A is a matrix of nxn after getrf.
L = eye(n);
for j = 1:n
    L(j+1:n,j) = A(j+1:n,j)
end
U = zeros(n);
for i = 1:n
    U(i,i:n) = A(i,i:n)
end

如果矩阵 A(=Aarray[i]) 是奇异的，getrf 仍然可以工作，并且 info(=infoArray[i]) 的值会报告 LU 分解无法继续的第一行索引。如果 info 是 k，则 U(k,k) 为零。方程 P*A=L*U 仍然成立，但是 L 和 U 的重构需要不同的 Matlab 代码如下：

// A is a matrix of nxn after getrf.
// info is k, which means U(k,k) is zero.
L = eye(n);
for j = 1:k-1
    L(j+1:n,j) = A(j+1:n,j)
end
U = zeros(n);
for i = 1:k-1
    U(i,i:n) = A(i,i:n)
end
for i = k:n
    U(i,k:n) = A(i,k:n)
end

此函数适用于矩阵尺寸较小且启动开销占主导因素的情况。

如果PivotArray为NULL，cublasgetrfBatched支持非主元LU分解。

cublasgetrfBatched 支持任意维度。

cublasgetrfBatched 仅支持计算能力2.0及以上版本。

参数	内存	输入/输出	含义
`handle`		输入	cuBLAS库上下文的句柄。
`n`		输入	`Aarray[i]`的行数和列数。
`Aarray`	device	输入/输出	指向<类型>数组的指针数组，每个数组的维度为`n x n`，且`lda >= max(1, n)`。矩阵`Aarray[i]`之间不应重叠，否则可能导致未定义行为。
`lda`		输入	用于存储每个矩阵`Aarray[i]`的二维数组的主维度。
`PivotArray`	device	输出	大小为`n x batchSize`的数组，包含以线性方式存储的每个`Aarray[i]`分解的旋转序列。如果`PivotArray`为NULL，则禁用旋转。
`infoArray`	device	输出	大小为`batchSize`的数组，其中info(=infoArray[i])包含`Aarray[i]`的分解信息。如果info=0，表示执行成功。如果 info = -j，表示第 j 个参数具有非法值。如果 info = k，则 U(k,k) 为 0。分解已完成，但 U 矩阵是严格奇异的。
`batchSize`		输入	A中包含的指针数量

该函数可能返回的错误值及其含义如下所示。

错误值	含义
`CUBLAS_STATUS_SUCCESS`	操作成功完成
`CUBLAS_STATUS_NOT_INITIALIZED`	库未初始化
`CUBLAS_STATUS_INVALID_VALUE`	参数 `n < 0` 或 `batchSize < 0` 或 `lda <0`
`CUBLAS_STATUS_EXECUTION_FAILED`	该函数未能在GPU上启动

参考资料请查阅NETLIB文档：

sgeqrf(), dgeqrf(), cgeqrf(), zgeqrf()

2.8.4. cublasgetrsBatched()

cublasStatus_t cublasSgetrsBatched(cublasHandle_t handle,
                                   cublasOperation_t trans,
                                   int n,
                                   int nrhs,
                                   const float *const Aarray[],
                                   int lda,
                                   const int *devIpiv,
                                   float *const Barray[],
                                   int ldb,
                                   int *info,
                                   int batchSize);

cublasStatus_t cublasDgetrsBatched(cublasHandle_t handle,
                                   cublasOperation_t trans,
                                   int n,
                                   int nrhs,
                                   const double *const Aarray[],
                                   int lda,
                                   const int *devIpiv,
                                   double *const Barray[],
                                   int ldb,
                                   int *info,
                                   int batchSize);

cublasStatus_t cublasCgetrsBatched(cublasHandle_t handle,
                                   cublasOperation_t trans,
                                   int n,
                                   int nrhs,
                                   const cuComplex *const Aarray[],
                                   int lda,
                                   const int *devIpiv,
                                   cuComplex *const Barray[],
                                   int ldb,
                                   int *info,
                                   int batchSize);

cublasStatus_t cublasZgetrsBatched(cublasHandle_t handle,
                                   cublasOperation_t trans,
                                   int n,
                                   int nrhs,
                                   const cuDoubleComplex *const Aarray[],
                                   int lda,
                                   const int *devIpiv,
                                   cuDoubleComplex *const Barray[],
                                   int ldb,
                                   int *info,
                                   int batchSize);

该函数求解形式如下的线性方程组数组：

$\text{op}(A\lbrack i \rbrack) X\lbrack i\rbrack = B\lbrack i\rbrack$

其中 $A\lbrack i\rbrack$ 是经过带主元选择的LU分解的矩阵，$X\lbrack i\rbrack$ 和 $B\lbrack i\rbrack$ 是 $n \times {nrhs}$ 矩阵。同样地，对于矩阵 $A$

$\text{op}(A\lbrack i\rbrack) = \left\{ \begin{matrix} {A\lbrack i\rbrack} & {\text{如果 }\textsf{trans == $\mathrm{CUBLAS\_OP\_N}$}} \\ {A^{T}\lbrack i\rbrack} & {\text{如果 }\textsf{trans == $\mathrm{CUBLAS\_OP\_T}$}} \\ {A^{H}\lbrack i\rbrack} & {\text{如果 }\textsf{trans == $\mathrm{CUBLAS\_OP\_C}$}} \\ \end{matrix} \right.$

此函数适用于矩阵尺寸较小且启动开销占主导因素的情况。

cublasgetrsBatched() 在 devIpiv 为 NULL 时支持非主元LU分解。

cublasgetrsBatched() 支持任意维度。

cublasgetrsBatched() 仅支持计算能力2.0及以上版本。

参数	内存	输入/输出	含义
`handle`		输入	cuBLAS库上下文的句柄。
`trans`		输入	操作op(`A`)表示非转置或共轭转置。
`n`		输入	`Aarray[i]`的行数和列数。
`nrhs`		输入	`Barray[i]`的列数。
`Aarray`	device	输入	指向<类型>数组的指针数组，每个数组的维度为`n x n`，且`lda >= max(1, n)`。
`lda`		输入	用于存储每个矩阵`Aarray[i]`的二维数组的主维度。
`devIpiv`	device	输入	大小为`n x batchSize`的数组，以线性方式存储每个`Aarray[i]`分解的旋转序列。如果`devIpiv`为NULL，则忽略所有`Aarray[i]`的旋转。
`Barray`	device	输入/输出	指向<类型>数组的指针数组，每个数组的维度为`n x nrhs`，且`ldb >= max(1, n)`。矩阵`Barray[i]`之间不应重叠，否则可能导致未定义行为。
`ldb`		输入	用于存储每个解矩阵`Barray[i]`的二维数组的主维度。
`信息`	主机	输出	如果info=0，表示执行成功。如果 info = -j，表示第 j 个参数值非法。
`batchSize`		输入	A中包含的指针数量

该函数可能返回的错误值及其含义如下所示。

错误值	含义
`CUBLAS_STATUS_SUCCESS`	操作成功完成
`CUBLAS_STATUS_NOT_INITIALIZED`	库未初始化
`CUBLAS_STATUS_INVALID_VALUE`	如果 `n < 0` 或 `nrhs < 0`，或者如果 `trans` 不是 `CUBLAS_OP_N`、`CUBLAS_OP_T` 和 `CUBLAS_OP_C` 其中之一，或者如果 `lda < max(1, n)`，或者如果 `ldb < max(1, n)`
`CUBLAS_STATUS_EXECUTION_FAILED`	该函数未能在GPU上启动

参考资料请查阅NETLIB文档：

sgeqrs(), dgeqrs(), cgeqrs(), zgeqrs()

2.8.5. cublasgetriBatched()

cublasStatus_t cublasSgetriBatched(cublasHandle_t handle,
                                   int n,
                                   const float *const Aarray[],
                                   int lda,
                                   int *PivotArray,
                                   float *const Carray[],
                                   int ldc,
                                   int *infoArray,
                                   int batchSize);

cublasStatus_t cublasDgetriBatched(cublasHandle_t handle,
                                   int n,
                                   const double *const Aarray[],
                                   int lda,
                                   int *PivotArray,
                                   double *const Carray[],
                                   int ldc,
                                   int *infoArray,
                                   int batchSize);

cublasStatus_t cublasCgetriBatched(cublasHandle_t handle,
                                   int n,
                                   const cuComplex *const Aarray[],
                                   int lda,
                                   int *PivotArray,
                                   cuComplex *const Carray[],
                                   int ldc,
                                   int *infoArray,
                                   int batchSize);

cublasStatus_t cublasZgetriBatched(cublasHandle_t handle,
                                   int n,
                                   const cuDoubleComplex *const Aarray[],
                                   int lda,
                                   int *PivotArray,
                                   cuDoubleComplex *const Carray[],
                                   int ldc,
                                   int *infoArray,
                                   int batchSize);

Aarray 和 Carray 是指向以列主序格式存储的矩阵的指针数组，矩阵维度为 n*n，主维度分别为 lda 和 ldc。

该函数执行矩阵A[i]的逆运算，其中i = 0, ..., batchSize-1。

在调用cublasgetriBatched之前，必须首先使用例程cublasgetrfBatched对矩阵A[i]进行分解。调用cublasgetrfBatched后，由Aarray[i]指向的矩阵将包含矩阵A[i]的LU因子，而由(PivotArray+i)指向的向量将包含主元交换序列。

在完成LU分解后，cublasgetriBatched使用前向和后向三角求解器来完成对矩阵A[i](i = 0, ..., batchSize-1)的求逆运算。该求逆运算是异地执行的，因此Carray[i]的内存空间不能与Array[i]的内存空间重叠。

通常，cublasgetrfBatched中的所有参数都会被传递到cublasgetriBatched中。例如，

// step 1: perform in-place LU decomposition, P*A = L*U.
//      Aarray[i] is n*n matrix A[i]
    cublasDgetrfBatched(handle, n, Aarray, lda, PivotArray, infoArray, batchSize);
//      check infoArray[i] to see if factorization of A[i] is successful or not.
//      Array[i] contains LU factorization of A[i]

// step 2: perform out-of-place inversion, Carray[i] = inv(A[i])
    cublasDgetriBatched(handle, n, Aarray, lda, PivotArray, Carray, ldc, infoArray, batchSize);
//      check infoArray[i] to see if inversion of A[i] is successful or not.

用户可以从cublasgetrfBatched或cublasgetriBatched检查singularity。

此函数适用于矩阵尺寸较小且启动开销占主导因素的情况。

如果cublasgetrfBatched执行的是非主元消去法，那么cublasgetriBatched的PivotArray参数应设为NULL。

cublasgetriBatched 支持任意维度。

cublasgetriBatched 仅支持计算能力2.0或更高版本。

参数	内存	输入/输出	含义
`handle`		输入	cuBLAS库上下文的句柄。
`n`		输入	`Aarray[i]`的行数和列数。
`Aarray`	device	输入	指向<类型>数组的指针数组，每个数组的维度为`n*n`，且`lda >= max(1, n)`。
`lda`		输入	用于存储每个矩阵`Aarray[i]`的二维数组的主维度。
`PivotArray`	device	输出	大小为`n*batchSize`的数组，以线性方式存储每个`Aarray[i]`分解的旋转序列。如果`PivotArray`为NULL，则禁用旋转。
`Carray`	device	输出	指向<类型>数组的指针数组，每个数组的维度为`n*n`，且`ldc >= max(1, n)`。矩阵`Carray[i]`之间不应重叠，否则可能导致未定义行为。
`ldc`		输入	用于存储每个矩阵`Carray[i]`的二维数组的主维度。
`infoArray`	device	输出	大小为`batchSize`的数组，其中info(=infoArray[i])包含`A[i]`求逆的信息。如果info=0，表示执行成功。如果 info = k，则 U(k,k) 为 0。矩阵 U 是完全奇异的，求逆失败。
`batchSize`		输入	A中包含的指针数量

该函数可能返回的错误值及其含义如下所示。

错误值	含义
`CUBLAS_STATUS_SUCCESS`	操作成功完成
`CUBLAS_STATUS_NOT_INITIALIZED`	库未初始化
`CUBLAS_STATUS_INVALID_VALUE`	如果 `n < 0` 或 `lda < 0` 或 `ldc < 0` 或 `batchSize < 0`，或者如果 `lda < n` 或 `ldc < n`
`CUBLAS_STATUS_EXECUTION_FAILED`	该函数未能在GPU上启动

2.8.6. cublasmatinvBatched()

cublasStatus_t cublasSmatinvBatched(cublasHandle_t handle,
                                    int n,
                                    const float *const A[],
                                    int lda,
                                    float *const Ainv[],
                                    int lda_inv,
                                    int *info,
                                    int batchSize);

cublasStatus_t cublasDmatinvBatched(cublasHandle_t handle,
                                    int n,
                                    const double *const A[],
                                    int lda,
                                    double *const Ainv[],
                                    int lda_inv,
                                    int *info,
                                    int batchSize);

cublasStatus_t cublasCmatinvBatched(cublasHandle_t handle,
                                    int n,
                                    const cuComplex *const A[],
                                    int lda,
                                    cuComplex *const Ainv[],
                                    int lda_inv,
                                    int *info,
                                    int batchSize);

cublasStatus_t cublasZmatinvBatched(cublasHandle_t handle,
                                    int n,
                                    const cuDoubleComplex *const A[],
                                    int lda,
                                    cuDoubleComplex *const Ainv[],
                                    int lda_inv,
                                    int *info,
                                    int batchSize);

A 和 Ainv 是指向矩阵的指针数组，这些矩阵以列主序格式存储，维度分别为 n*n，主维度分别为 lda 和 lda_inv。

该函数执行矩阵A[i]的逆运算，其中i = 0, ..., batchSize-1。

该函数是cublasgetrfBatched()与cublasgetriBatched()的快捷组合。但当n大于32时无法使用。若超过此值，用户需分别调用cublasgetrfBatched()和cublasgetriBatched()。

如果矩阵 A[i] 是奇异的，那么 info[i] 会报告奇异性，与 cublasgetrfBatched() 相同。

参数	内存	输入/输出	含义
`handle`		输入	cuBLAS库上下文的句柄。
`n`		输入	`A[i]`的行数和列数。
`A`	device	输入	指向<类型>数组的指针数组，每个数组的维度为`n*n`，且`lda >= max(1, n)`。
`lda`		输入	用于存储每个矩阵`A[i]`的二维数组的主维度。
`Ainv`	device	输出	指向<类型>数组的指针数组，每个数组的维度为`n*n`，且`lda_inv >= max(1, n)`。矩阵`Ainv[i]`不应重叠，否则可能导致未定义行为。
`lda_inv`		输入	用于存储每个矩阵`Ainv[i]`的二维数组的主维度。
`信息`	device	输出	大小为`batchSize`的数组，其中info[i]包含`A[i]`求逆的信息。如果 `info[i] == 0`，表示执行成功。如果 `info[i] == k`，那么 `U(k, k) == 0`。此时矩阵U是严格奇异的，求逆运算失败。
`batchSize`		输入	`A`中包含的指针数量。

该函数可能返回的错误值及其含义如下所示。

错误值	含义
`CUBLAS_STATUS_SUCCESS`	操作成功完成
`CUBLAS_STATUS_NOT_INITIALIZED`	库未初始化
`CUBLAS_STATUS_INVALID_VALUE`	如果 `n < 0` 或 `lda < 0` 或 `lda_inv < 0` 或 `batchSize < 0`，或如果 `lda < n` 或 `lda_inv < n`，或者如果 `n > 32`
`CUBLAS_STATUS_EXECUTION_FAILED`	该函数未能在GPU上启动

2.8.7. cublasgeqrfBatched()

cublasStatus_t cublasSgeqrfBatched( cublasHandle_t handle,
                                    int m,
                                    int n,
                                    float *const Aarray[],
                                    int lda,
                                    float *const TauArray[],
                                    int *info,
                                    int batchSize);

cublasStatus_t cublasDgeqrfBatched( cublasHandle_t handle,
                                    int m,
                                    int n,
                                    double *const Aarray[],
                                    int lda,
                                    double *const TauArray[],
                                    int *info,
                                    int batchSize);

cublasStatus_t cublasCgeqrfBatched( cublasHandle_t handle,
                                    int m,
                                    int n,
                                    cuComplex *const Aarray[],
                                    int lda,
                                    cuComplex *const TauArray[],
                                    int *info,
                                    int batchSize);

cublasStatus_t cublasZgeqrfBatched( cublasHandle_t handle,
                                    int m,
                                    int n,
                                    cuDoubleComplex *const Aarray[],
                                    int lda,
                                    cuDoubleComplex *const TauArray[],
                                    int *info,
                                    int batchSize);

Aarray 是一个指针数组，指向以列主序存储的矩阵，矩阵维度为 m x n，主维度为 lda。TauArray 是一个指针数组，指向维度至少为 max (1, min(m, n) 的向量。

该函数使用Householder反射对每个Aarray[i]（其中i = 0, ...,batchSize-1）执行QR分解。每个矩阵Q[i]被表示为初等反射因子的乘积，并按以下方式存储在每个Aarray[i]的下部：

Q[j] = H[j][1] H[j][2] . . . H[j](k), where k = min(m,n).

每个H[j][i]的形式如下

H[j][i] = I - tau[j] * v * v'

其中tau[j]是一个实数标量，v是一个实数向量，满足v(1:i-1) = 0且v(i) = 1；退出时v(i+1:m)存储在Aarray[j][i+1:m,i]中，而tau存储在TauArray[j][i]中。

此函数适用于矩阵尺寸较小且启动开销占主导因素的情况。

cublasgeqrfBatched 支持任意维度。

cublasgeqrfBatched 仅支持计算能力2.0或更高版本。

参数	内存	输入/输出	含义
`handle`		输入	cuBLAS库上下文的句柄。
`m`		输入	行数 `Aarray[i]`.
`n`		输入	`Aarray[i]`的列数。
`Aarray`	device	输入	指向<类型>数组的指针数组，每个数组的维度为`m x n`，且`lda >= max(1, m)`。
`lda`		输入	用于存储每个矩阵`Aarray[i]`的二维数组的主维度。
`TauArray`	device	输出	指向<类型>向量的指针数组，每个向量的维度为`max(1 ,min(m, n))`。
`信息`	主机	输出	如果 `info == 0`，则表示传递给函数的参数有效如果 `info < 0`，表示位置 `-info` 处的参数无效
`batchSize`		输入	`Aarray`中包含的指针数量

该函数可能返回的错误值及其含义如下所示。

错误值	含义
`CUBLAS_STATUS_SUCCESS`	操作成功完成
`CUBLAS_STATUS_NOT_INITIALIZED`	库未初始化
`CUBLAS_STATUS_INVALID_VALUE`	如果 `m < 0` 或 `n < 0` 或 `batchSize < 0`，或如果 `lda < max(1, m)`
`CUBLAS_STATUS_EXECUTION_FAILED`	该函数未能在GPU上启动

参考资料请查阅NETLIB文档：

sgeqrf(), dgeqrf(), cgeqrf(), zgeqrf()

2.8.8. cublasgelsBatched()

cublasStatus_t cublasSgelsBatched( cublasHandle_t handle,
                                   cublasOperation_t trans,
                                   int m,
                                   int n,
                                   int nrhs,
                                   float *const Aarray[],
                                   int lda,
                                   float *const Carray[],
                                   int ldc,
                                   int *info,
                                   int *devInfoArray,
                                   int batchSize );

cublasStatus_t cublasDgelsBatched( cublasHandle_t handle,
                                   cublasOperation_t trans,
                                   int m,
                                   int n,
                                   int nrhs,
                                   double *const Aarray[],
                                   int lda,
                                   double *const Carray[],
                                   int ldc,
                                   int *info,
                                   int *devInfoArray,
                                   int batchSize );

cublasStatus_t cublasCgelsBatched( cublasHandle_t handle,
                                   cublasOperation_t trans,
                                   int m,
                                   int n,
                                   int nrhs,
                                   cuComplex *const Aarray[],
                                   int lda,
                                   cuComplex *const Carray[],
                                   int ldc,
                                   int *info,
                                   int *devInfoArray,
                                   int batchSize );

cublasStatus_t cublasZgelsBatched( cublasHandle_t handle,
                                   cublasOperation_t trans,
                                   int m,
                                   int n,
                                   int nrhs,
                                   cuDoubleComplex *const Aarray[],
                                   int lda,
                                   cuDoubleComplex *const Carray[],
                                   int ldc,
                                   int *info,
                                   int *devInfoArray,
                                   int batchSize );

Aarray 是一个指向以列主序格式存储的矩阵的指针数组。Carray 是一个指向以列主序格式存储的矩阵的指针数组。

该函数用于求解一批超定系统的最小二乘解：它解决的最小二乘问题描述如下：

minimize  || Carray[i] - Aarray[i]*Xarray[i] || , with i = 0, ...,batchSize-1

退出时，每个 Aarray[i] 将被其QR分解结果覆盖，每个 Carray[i] 将被最小二乘解覆盖

cublasgelsBatched 仅支持非转置操作，并且只能求解超定系统（m >= n）。

cublasgelsBatched 仅支持计算能力2.0或更高版本。

此函数适用于矩阵尺寸较小且启动开销占主导因素的情况。

参数	内存	输入/输出	含义
`handle`		输入	cuBLAS库上下文的句柄。
`trans`		输入	操作op(`Aarray[i]`)可以是无转置或共轭转置。目前仅支持无转置操作。
`m`		输入	如果`trans == CUBLAS_OP_N`，则表示每个`Aarray[i]`和`Carray[i]`的行数；否则表示每个`Aarray[i]`的列数（当前不支持该情况）。
`n`		输入	如果`trans == CUBLAS_OP_N`，则表示每个`Aarray[i]`的列数；否则表示每个`Aarray[i]`和`Carray[i]`的行数（当前不支持该情况）。
`nrhs`		输入	每个`Carray[i]`的列数。
`Aarray`	device	输入/输出	指向<类型>数组的指针数组，每个数组的维度为`m x n`，当`trans == CUBLAS_OP_N`时`lda >= max(1, m)`，否则为`n x m`且`lda >= max(1, n)`（当前不支持）。矩阵`Aarray[i]`不应重叠，否则行为未定义。
`lda`		输入	用于存储每个矩阵`Aarray[i]`的二维数组的主维度。
`Carray`	device	输入/输出	指向<类型>数组的指针数组，每个数组的维度为`m x nrhs`，当`trans == CUBLAS_OP_N`时要求`ldc >= max(1, m)`，否则要求`n x nrhs`且`lda >= max(1, n)`（当前不支持）。矩阵`Carray[i]`之间不应重叠，否则行为未定义。
`ldc`		输入	用于存储每个矩阵`Carray[i]`的二维数组的主维度。
`信息`	主机	输出	如果 `info == 0` 表示传递给函数的参数是有效的如果 `info < 0` 表示位置 `-info` 处的参数无效
`devInfoArray`	device	输出	可选的整数数组，维度为批次大小。如果非空，`devInfoArray[i] == V`中的每个元素具有以下含义： `V == 0` : 第 `i` 个问题已成功解决 `V > 0` : `Aarray[i]`的第`V`个对角元素为零。`Aarray[i]`不是满秩矩阵。
`batchSize`		输入	Aarray和Carray中包含的指针数量

该函数可能返回的错误值及其含义如下所示。

错误值	含义
`CUBLAS_STATUS_SUCCESS`	操作成功完成
`CUBLAS_STATUS_NOT_INITIALIZED`	库未初始化
`CUBLAS_STATUS_INVALID_VALUE`	如果 `m < 0` 或 `n < 0` 或 `nrhs < 0` 或 `batchSize < 0` 或如果 `lda < max(1, m)` 或 `ldc < max(1, m)`
`CUBLAS_STATUS_NOT_SUPPORTED`	参数 `m` 或 `trans` 与非转置情况不同。
`CUBLAS_STATUS_EXECUTION_FAILED`	该函数未能在GPU上启动

参考资料请查阅NETLIB文档：

sgels(), dgels(), cgels(), zgels()

2.8.9. cublastpttr()

cublasStatus_t cublasStpttr ( cublasHandle_t handle,
                              cublasFillMode_t uplo,
                              int n,
                              const float *AP,
                              float *A,
                              int lda );

cublasStatus_t cublasDtpttr ( cublasHandle_t handle,
                              cublasFillMode_t uplo,
                              int n,
                              const double *AP,
                              double *A,
                              int lda );

cublasStatus_t cublasCtpttr ( cublasHandle_t handle,
                              cublasFillMode_t uplo,
                              int n,
                              const cuComplex *AP,
                              cuComplex *A,
                              int lda );

cublasStatus_t cublasZtpttr ( cublasHandle_t handle,
                              cublasFillMode_t uplo
                              int n,
                              const cuDoubleComplex *AP,
                              cuDoubleComplex *A,
                              int lda );

该函数执行从三角压缩格式到三角格式的转换

如果 uplo == CUBLAS_FILL_MODE_LOWER，则将 AP 的元素复制到三角矩阵 A 的下三角部分，而 A 的上三角部分保持不变。如果 uplo == CUBLAS_FILL_MODE_UPPER，则将 AP 的元素复制到三角矩阵 A 的上三角部分，而 A 的下三角部分保持不变。

参数	内存	输入/输出	含义
`handle`		输入	cuBLAS库上下文的句柄。
`uplo`		输入	指示矩阵 `AP` 是否包含矩阵 `A` 的下三角或上三角部分。
`n`		输入	矩阵`A`的行数和列数。
`AP`	device	输入	<type> 数组，其中 $A$ 以压缩格式存储。
`A`	device	输出	<类型> 维度数组 `lda x n`，其中 `lda >= max(1, n)`。A的另一侧保持不变。
`lda`		输入	用于存储矩阵`A`的二维数组的主维度。

该函数可能返回的错误值及其含义如下所示。

错误值	含义
`CUBLAS_STATUS_SUCCESS`	操作成功完成
`CUBLAS_STATUS_NOT_INITIALIZED`	库未初始化
`CUBLAS_STATUS_INVALID_VALUE`	如果 `n < 0`，或者如果 `uplo` 不是 `CUBLAS_FILL_MODE_LOWER` 或 `CUBLAS_FILL_MODE_UPPER` 中的任意一个，或如果 `lda < max(1, n)`
`CUBLAS_STATUS_EXECUTION_FAILED`	该函数未能在GPU上启动

参考资料请查阅NETLIB文档：

stpttr(), dtpttr(), ctpttr(), ztpttr()

2.8.10. cublastrttp()

cublasStatus_t cublasStrttp ( cublasHandle_t handle,
                              cublasFillMode_t uplo,
                              int n,
                              const float *A,
                              int lda,
                              float *AP );

cublasStatus_t cublasDtrttp ( cublasHandle_t handle,
                              cublasFillMode_t uplo,
                              int n,
                              const double *A,
                              int lda,
                              double *AP );

cublasStatus_t cublasCtrttp ( cublasHandle_t handle,
                              cublasFillMode_t uplo,
                              int n,
                              const cuComplex *A,
                              int lda,
                              cuComplex *AP );

cublasStatus_t cublasZtrttp ( cublasHandle_t handle,
                              cublasFillMode_t uplo,
                              int n,
                              const cuDoubleComplex *A,
                              int lda,
                              cuDoubleComplex *AP );

该函数执行从三角格式到三角压缩格式的转换

如果 uplo == CUBLAS_FILL_MODE_LOWER，那么三角矩阵 A 的下三角部分将被复制到数组 AP 中。如果 uplo == CUBLAS_FILL_MODE_UPPER，那么三角矩阵 A 的上三角部分将被复制到数组 AP 中。

参数	内存	输入/输出	含义
`handle`		输入	cuBLAS库上下文的句柄。
`uplo`		输入	指示矩阵 `A` 的下三角或上三角部分被引用。
`n`		输入	矩阵`A`的行数和列数。
`A`	device	输入	<类型> 维度数组 `lda x n`，其中 `lda >= max(1, n)`。
`lda`		输入	用于存储矩阵`A`的二维数组的主维度。
`AP`	device	输出	<类型> 数组，其中`A`以压缩格式存储。

该函数可能返回的错误值及其含义如下所示。

错误值	含义
`CUBLAS_STATUS_SUCCESS`	操作成功完成
`CUBLAS_STATUS_NOT_INITIALIZED`	库未初始化
`CUBLAS_STATUS_INVALID_VALUE`	如果 `n < 0` 或如果 `uplo` 不是 `CUBLAS_FILL_MODE_LOWER` 或 `CUBLAS_FILL_MODE_UPPER` 中的任意一个，或如果 `lda < max(1, n)`
`CUBLAS_STATUS_EXECUTION_FAILED`	该函数未能在GPU上启动

参考资料请查阅NETLIB文档：

strttp(), dtrttp(), ctrttp(), ztrttp()

2.8.11. cublasgemmEx()

cublasStatus_t cublasSgemmEx(cublasHandle_t handle,
                           cublasOperation_t transa,
                           cublasOperation_t transb,
                           int m,
                           int n,
                           int k,
                           const float    *alpha,
                           const void     *A,
                           cudaDataType_t Atype,
                           int lda,
                           const void     *B,
                           cudaDataType_t Btype,
                           int ldb,
                           const float    *beta,
                           void           *C,
                           cudaDataType_t Ctype,
                           int ldc)
cublasStatus_t cublasCgemmEx(cublasHandle_t handle,
                           cublasOperation_t transa,
                           cublasOperation_t transb,
                           int m,
                           int n,
                           int k,
                           const cuComplex *alpha,
                           const void      *A,
                           cudaDataType_t  Atype,
                           int lda,
                           const void      *B,
                           cudaDataType_t  Btype,
                           int ldb,
                           const cuComplex *beta,
                           void            *C,
                           cudaDataType_t  Ctype,
                           int ldc)

该函数支持64位整数接口。

此函数是cublasgemm()的扩展功能。在该函数中，输入矩阵和输出矩阵可以采用较低精度，但计算仍以类型执行。例如，cublasSgemmEx()使用float类型进行计算，而cublasCgemmEx()则使用cuComplex类型。

$C = \alpha\text{op}(A)\text{op}(B) + \beta C$

其中$\alpha$和$\beta$是标量，$A$、$B$和$C$是以列主序格式存储的矩阵，其维度分别为$\text{op}(A)$$m \times k$、$\text{op}(B)$$k \times n$和$C$$m \times n$。同样地，对于矩阵$A$

$\text{op}(A) = \left\{ \begin{matrix} A & {\text{如果 }\textsf{transa == $\mathrm{CUBLAS\_OP\_N}$}} \\ A^{T} & {\text{如果 }\textsf{transa == $\mathrm{CUBLAS\_OP\_T}$}} \\ A^{H} & {\text{如果 }\textsf{transa == $\mathrm{CUBLAS\_OP\_C}$}} \\ \end{matrix} \right.$

并且矩阵 $B$ 的 $\text{op}(B)$ 也以类似方式定义。

参数	内存	输入/输出	含义
`handle`		输入	cuBLAS库上下文的句柄。
`transa`		输入	操作op(`A`)表示非转置或共轭转置。
`transb`		输入	操作op(`B`)可以是非转置或(conj.)转置。
`m`		输入	矩阵 op(`A`) 和 `C` 的行数。
`n`		输入	矩阵 op(`B`) 和 `C` 的列数。
`k`		输入	op(`A`)的列数与op(`B`)的行数。
`alpha`	主机或设备	输入	<type> 用于乘法的标量。
`A`	device	输入	<类型> 维度数组 `lda x k`，当 `transa == CUBLAS_OP_N` 时要求 `lda >= max(1, m)`，否则为 `lda x m` 且 `lda >= max(1, k)`。
`Atype`		输入	指定矩阵`A`数据类型的枚举值。
`lda`		输入	用于存储矩阵`A`的二维数组的主维度。
`B`	device	输入	<类型> 维度为 `ldb x n` 的数组，当 `transb == CUBLAS_OP_N` 时需满足 `ldb >= max(1, k)`，否则为 `ldb x k` 且需满足 `ldb>=max(1,n)`。
`Btype`		输入	指定矩阵`B`数据类型的枚举值。
`ldb`		输入	用于存储矩阵`B`的二维数组的主维度。
`beta`	主机或设备	输入	<类型> 用于乘法的标量。如果 `beta == 0`，则 `C` 不需要是有效输入。
`C`	device	输入/输出	<类型> 维度数组 `ldc x n`，其中 `ldc >= max(1, m)`。
`Ctype`		输入	指定矩阵`C`数据类型的枚举值。
`ldc`		输入	用于存储矩阵`C`的二维数组的主维度。

以下是cublasSgemmEx()支持的矩阵类型组合：

C	A/B
`CUDA_R_16BF`	`CUDA_R_16BF`
`CUDA_R_16F`	`CUDA_R_16F`
`CUDA_R_32F`	`CUDA_R_8I`
	`CUDA_R_16BF`
	`CUDA_R_16F`
	`CUDA_R_32F`

以下是cublasCgemmEx()支持的矩阵类型组合：

C	A/B
`CUDA_C_32F`	`CUDA_C_8I`
	`CUDA_C_32F`

该函数可能返回的错误值及其含义如下所示。

错误值	含义
`CUBLAS_STATUS_SUCCESS`	操作成功完成
`CUBLAS_STATUS_NOT_INITIALIZED`	库未初始化
`CUBLAS_STATUS_ARCH_MISMATCH`	cublasCgemmEx() 仅在GPU架构能力等于或高于5.0时受支持
`CUBLAS_STATUS_NOT_SUPPORTED`	不支持参数 `Atype`、`Btype` 和 `Ctype` 的组合
`CUBLAS_STATUS_INVALID_VALUE`	如果 `m < 0` 或 `n < 0` 或 `k < 0`，或者如果 `transa` 和 `transb` 不是 `CUBLAS_OP_N`、`CUBLAS_OP_C` 或 `CUBLAS_OP_T` 中的一种当 `transa == CUBLAS_OP_N` 时如果 `lda < max(1, m)`，否则 `lda < max(1, k)`，或者当 `transb == CUBLAS_OP_N` 时，如果 `ldb < max(1, k)`；否则当 `ldb < max(1, n)` 时如果 `ldc < max(1, m)`，或者如果 `alpha` 或 `beta` 为 NULL，或者如果当`beta`不为零时`C`为NULL
`CUBLAS_STATUS_EXECUTION_FAILED`	该函数未能在GPU上启动

参考资料请查阅NETLIB文档：

sgemm()

有关某些GEMM算法数值行为的更多信息，请参阅GEMM算法数值行为部分。

2.8.12. cublasGemmEx()

cublasStatus_t cublasGemmEx(cublasHandle_t handle,
                           cublasOperation_t transa,
                           cublasOperation_t transb,
                           int m,
                           int n,
                           int k,
                           const void    *alpha,
                           const void     *A,
                           cudaDataType_t Atype,
                           int lda,
                           const void     *B,
                           cudaDataType_t Btype,
                           int ldb,
                           const void    *beta,
                           void           *C,
                           cudaDataType_t Ctype,
                           int ldc,
                           cublasComputeType_t computeType,
                           cublasGemmAlgo_t algo)

#if defined(__cplusplus)
cublasStatus_t cublasGemmEx(cublasHandle_t handle,
                           cublasOperation_t transa,
                           cublasOperation_t transb,
                           int m,
                           int n,
                           int k,
                           const void     *alpha,
                           const void     *A,
                           cudaDataType   Atype,
                           int lda,
                           const void     *B,
                           cudaDataType   Btype,
                           int ldb,
                           const void     *beta,
                           void           *C,
                           cudaDataType   Ctype,
                           int ldc,
                           cudaDataType   computeType,
                           cublasGemmAlgo_t algo)
#endif

该函数支持64位整数接口。

此函数是cublasgemm()的扩展，允许用户单独指定A、B和C矩阵的数据类型、计算精度以及要运行的GEMM算法。本节下文列出了支持的参数组合。

注意

为了与C++应用程序代码保持向后兼容，提供了cublasGemmEx()函数的第二种变体，其中computeType参数的类型是cudaDataType而非cublasComputeType_t。更新后的函数签名仍可正常编译C应用程序。

此功能仅在计算能力为5.0或更高版本的设备上受支持。

$C = \alpha\text{op}(A)\text{op}(B) + \beta C$

其中$\alpha$和$\beta$是标量，$A$、$B$和$C$是以列主序格式存储的矩阵，其维度分别为$\text{op}(A)$$m \times k$、$\text{op}(B)$$k \times n$和$C$$m \times n$。同样地，对于矩阵$A$

$\text{op}(A) = \left\{ \begin{matrix} A & {\text{如果 }\textsf{transa == $\mathrm{CUBLAS\_OP\_N}$}} \\ A^{T} & {\text{如果 }\textsf{transa == $\mathrm{CUBLAS\_OP\_T}$}} \\ A^{H} & {\text{如果 }\textsf{transa == $\mathrm{CUBLAS\_OP\_C}$}} \\ \end{matrix} \right.$

并且矩阵 $B$ 的 $\text{op}(B)$ 也以类似方式定义。

参数	内存	输入/输出	含义
`handle`		输入	cuBLAS库上下文的句柄。
`transa`		输入	操作op(`A`)表示非转置或共轭转置。
`transb`		输入	操作op(`B`)可以是非转置或(conj.)转置。
`m`		输入	矩阵 op(`A`) 和 `C` 的行数。
`n`		输入	矩阵 op(`B`) 和 `C` 的列数。
`k`		输入	op(`A`)的列数与op(`B`)的行数。
`alpha`	主机或设备	输入	与computeType和Ctype对应的A*B类型的缩放因子，详情请参阅下表。
`A`	device	输入	<类型> 维度数组 `lda x k`，当 `transa == CUBLAS_OP_N` 时要求 `lda >= max(1, m)`，否则为 `lda x m` 且 `lda >= max(1, k)`。
`Atype`		输入	指定矩阵`A`数据类型的枚举值。
`lda`		输入	用于存储矩阵`A`的二维数组的主维度。
`B`	device	输入	<类型> 维度为 `ldb x n` 的数组，当 `transb == CUBLAS_OP_N` 时需满足 `ldb >= max(1, k)`，否则为 `ldb x k` 且需满足 `ldb>=max(1,n)`。
`Btype`		输入	指定矩阵 `B` 数据类型的枚举值。
`ldb`		输入	用于存储矩阵`B`的二维数组的主维度。
`beta`	主机或设备	输入	与computeType和C类型对应的C的缩放因子，详情请参阅下表。如果`beta == 0`，则`C`不需要是有效输入。
`C`	device	输入/输出	<类型> 维度数组 `ldc x n`，其中 `ldc >= max(1, m)`。
`Ctype`		输入	指定矩阵`C`数据类型的枚举值。
`ldc`		输入	用于存储矩阵`C`的二维数组的主维度。
`computeType`		输入	指定计算类型的枚举值。
`algo`		输入	指定算法的枚举值。参见 cublasGemmAlgo_t。

cublasGemmEx() 支持以下计算类型、缩放类型、A类型/B类型和C类型：

计算类型	缩放类型(alpha和beta)	A类型/B类型	C类型
`CUBLAS_COMPUTE_16F` 或 `CUBLAS_COMPUTE_16F_PEDANTIC`	`CUDA_R_16F`	`CUDA_R_16F`	`CUDA_R_16F`
`CUBLAS_COMPUTE_32I` 或 `CUBLAS_COMPUTE_32I_PEDANTIC`	`CUDA_R_32I`	`CUDA_R_8I`	`CUDA_R_32I`
`CUBLAS_COMPUTE_32F` 或 `CUBLAS_COMPUTE_32F_PEDANTIC`	`CUDA_R_32F`	`CUDA_R_16BF`	`CUDA_R_16BF`
		`CUDA_R_16F`	`CUDA_R_16F`
		`CUDA_R_8I`	`CUDA_R_32F`
		`CUDA_R_16BF`	`CUDA_R_32F`
		`CUDA_R_16F`	`CUDA_R_32F`
		`CUDA_R_32F`	`CUDA_R_32F`
	`CUDA_C_32F`	`CUDA_C_8I`	`CUDA_C_32F`
	`CUDA_C_32F`	`CUDA_C_32F`	`CUDA_C_32F`
`CUBLAS_COMPUTE_32F_FAST_16F` 或 `CUBLAS_COMPUTE_32F_FAST_16BF` 或 `CUBLAS_COMPUTE_32F_FAST_TF32` 或 `CUBLAS_COMPUTE_32F_EMULATED_16BFX9`	`CUDA_R_32F`	`CUDA_R_32F`	`CUDA_R_32F`
	`CUDA_C_32F`	`CUDA_C_32F`	`CUDA_C_32F`
`CUBLAS_COMPUTE_64F` 或 `CUBLAS_COMPUTE_64F_PEDANTIC`	`CUDA_R_64F`	`CUDA_R_64F`	`CUDA_R_64F`
`CUBLAS_COMPUTE_64F` 或 `CUBLAS_COMPUTE_64F_PEDANTIC`	`CUDA_C_64F`	`CUDA_C_64F`	`CUDA_C_64F`

注意

CUBLAS_COMPUTE_32I 和 CUBLAS_COMPUTE_32I_PEDANTIC 计算类型仅支持A、B矩阵4字节对齐且lda、ldb为4的倍数的情况。为获得更佳性能，建议同时满足此处列出的IMMA内核对常规数据排列顺序的要求。

该函数可能返回的错误值及其含义如下表所示。

错误值	含义
`CUBLAS_STATUS_SUCCESS`	操作成功完成。
`CUBLAS_STATUS_NOT_INITIALIZED`	库未初始化。
`CUBLAS_STATUS_ARCH_MISMATCH`	cublasGemmEx() 仅在GPU架构能力等于或高于5.0时受支持。
`CUBLAS_STATUS_NOT_SUPPORTED`	参数组合 `Atype`、`Btype` 和 `Ctype` 或算法 `algo` 不受支持。
`CUBLAS_STATUS_INVALID_VALUE`	如果 `m < 0` 或 `n < 0` 或 `k < 0`，或者如果 `transa` 和 `transb` 不是 `CUBLAS_OP_N`、`CUBLAS_OP_C` 或 `CUBLAS_OP_T` 中的一种当 `transa == CUBLAS_OP_N` 时如果 `lda < max(1, m)`，否则 `lda < max(1, k)`，或者当 `transb == CUBLAS_OP_N` 时，如果 `ldb < max(1, k)`；否则当 `ldb < max(1, n)` 时如果 `ldc < max(1, m)`，或者如果 `alpha` 或 `beta` 为 NULL，或者如果当`beta`不为零时`C`为NULL 如果 `Atype` 或 `Btype` 或 `Ctype` 或 `algo` 不被支持
`CUBLAS_STATUS_EXECUTION_FAILED`	该函数未能在GPU上启动。

从11.2版本开始，使用类型化函数而非扩展函数（cublas**Ex()）有助于在链接静态cuBLAS库时减小二进制文件大小。

另请参阅：sgemm.()

有关某些GEMM算法数值行为的更多信息，请参阅GEMM算法数值行为部分。

2.8.13. cublasGemmBatchedEx()

cublasStatus_t cublasGemmBatchedEx(cublasHandle_t handle,
                            cublasOperation_t transa,
                            cublasOperation_t transb,
                            int m,
                            int n,
                            int k,
                            const void    *alpha,
                            const void     *const Aarray[],
                            cudaDataType_t Atype,
                            int lda,
                            const void     *const Barray[],
                            cudaDataType_t Btype,
                            int ldb,
                            const void    *beta,
                            void           *const Carray[],
                            cudaDataType_t Ctype,
                            int ldc,
                            int batchCount,
                            cublasComputeType_t computeType,
                            cublasGemmAlgo_t algo)

#if defined(__cplusplus)
cublasStatus_t cublasGemmBatchedEx(cublasHandle_t handle,
                            cublasOperation_t transa,
                            cublasOperation_t transb,
                            int m,
                            int n,
                            int k,
                            const void     *alpha,
                            const void     *const Aarray[],
                            cudaDataType   Atype,
                            int lda,
                            const void     *const Barray[],
                            cudaDataType   Btype,
                            int ldb,
                            const void     *beta,
                            void           *const Carray[],
                            cudaDataType   Ctype,
                            int ldc,
                            int batchCount,
                            cudaDataType   computeType,
                            cublasGemmAlgo_t algo)
#endif

该函数支持64位整数接口。

该函数是cublasgemmBatched()的扩展，可执行批量矩阵的矩阵乘法运算，并允许用户分别为A、B和C矩阵数组指定数据类型、计算精度以及要运行的GEMM算法。与cublasgemmBatched()类似，该批次被视为"统一"的，即所有实例的矩阵维度(m, n, k)、前导维度(lda, ldb, ldc)以及各自A、B和C矩阵的转置设置(transa, transb)都相同。批处理中每个实例的输入矩阵地址和输出矩阵地址将从调用者传递给函数的指针数组中读取。本节后续列出了支持的参数组合。

注意

提供了cublasGemmBatchedEx()函数的第二种变体，以保持与C++应用程序代码的向后兼容性，其中computeType参数的类型是cudaDataType而非cublasComputeType_t。C应用程序仍可使用更新后的函数签名进行编译。

$C\lbrack i\rbrack = \alpha\text{op}(A\lbrack i\rbrack)\text{op}(B\lbrack i\rbrack) + \beta C\lbrack i\rbrack,\text{ for i } \in \lbrack 0,batchCount - 1\rbrack$

其中$\alpha$和$\beta$是标量，$A$、$B$和$C$是指向以列主序存储的矩阵指针数组，其维度分别为$\text{op}(A\lbrack i\rbrack)$ $m \times k$、$\text{op}(B\lbrack i\rbrack)$ $k \times n$和$C\lbrack i\rbrack$ $m \times n$。此外，对于矩阵$A$

$\text{op}(A) = \left\{ \begin{matrix} A & {\text{如果 }\textsf{transa == $\mathrm{CUBLAS\_OP\_N}$}} \\ A^{T} & {\text{如果 }\textsf{transa == $\mathrm{CUBLAS\_OP\_T}$}} \\ A^{H} & {\text{如果 }\textsf{transa == $\mathrm{CUBLAS\_OP\_C}$}} \\ \end{matrix} \right.$

并且 $\text{op}(B\lbrack i\rbrack)$ 对矩阵 $B\lbrack i\rbrack$ 的定义类似。

注意

$C\lbrack i\rbrack$ 矩阵之间不能重叠，也就是说各个gemm运算必须能够独立计算；否则行为将是未定义的。

对于某些问题规模，在不同CUDA流中多次调用cublas<t>gemm()可能比使用此API更有利。

参数	内存	输入/输出	含义
`handle`		输入	cuBLAS库上下文的句柄。
`transa`		输入	操作op(`Aarray[i]`) 是非转置或共轭转置。
`transb`		输入	操作op(`Barray[i]`)可以是非转置或(conj.)转置。
`m`		输入	矩阵 op(`Aarray[i]`) 和 `Carray[i]`) 的行数。
`n`		输入	矩阵 op(`Barray[i]`) 和 `Carray[i]`) 的列数。
`k`		输入	op(`Aarray[i]`)的列数与op(`Barray[i]`)的行数。
`alpha`	主机或设备	输入	对应于computeType和C类型的矩阵乘积的缩放因子，详情请参阅下表。
`Aarray`	device	输入	指向<Atype>数组的指针数组，每个数组的维度为`lda x k`，当`transa == CUBLAS_OP_N`时`lda >= max(1, m)`，否则为`lda x m`且`lda >= max(1, k)`。所有指针必须满足特定的对齐标准。详情请见下文。
`Atype`		输入	指定`Aarray`数据类型的枚举值。
`lda`		输入	用于存储矩阵`Aarray[i]`的二维数组的主维度。
`Barray`	device	输入	指向<Btype>数组的指针数组，每个数组的维度为`ldb x n`，当`transb == CUBLAS_OP_N`时要求`ldb >= max(1, k)`，否则维度为`ldb x k`且要求`ldb>=max(1,n)`。所有指针必须满足特定的对齐标准。详情请见下文。
`Btype`		输入	指定`Barray`数据类型的枚举值。
`ldb`		输入	用于存储矩阵`Barray[i]`的二维数组的主维度。
`beta`	主机或设备	输入	与computeType和Ctype对应的`Carray`类型的缩放因子，详情请参阅下表。如果`beta == 0`，则`Carray[i]`不必是有效输入。
`Carray`	device	输入/输出	指向<Ctype>数组的指针数组。其维度为`ldc x n`，且满足`ldc >= max(1, m)`。矩阵`Carray[i]`之间不应重叠，否则行为将未定义。所有指针必须满足特定的对齐标准。详情请见下文。
`Ctype`		输入	指定`Carray`数据类型的枚举值。
`ldc`		输入	用于存储每个矩阵`Carray[i]`的二维数组的主维度。
`batchCount`		输入	`Aarray`、`Barray` 和 `Carray` 中包含的指针数量。
`computeType`		输入	指定计算类型的枚举值。
`algo`		输入	指定算法的枚举值。参见 cublasGemmAlgo_t。

cublasGemmBatchedEx() 支持以下计算类型、缩放类型、A类型/B类型和C类型：

计算类型	缩放类型(alpha和beta)	A类型/B类型	C类型
`CUBLAS_COMPUTE_16F` 或 `CUBLAS_COMPUTE_16F_PEDANTIC`	`CUDA_R_16F`	`CUDA_R_16F`	`CUDA_R_16F`
`CUBLAS_COMPUTE_32I` 或 `CUBLAS_COMPUTE_32I_PEDANTIC`	`CUDA_R_32I`	`CUDA_R_8I`	`CUDA_R_32I`
`CUBLAS_COMPUTE_32F` 或 `CUBLAS_COMPUTE_32F_PEDANTIC`	`CUDA_R_32F`	`CUDA_R_16BF`	`CUDA_R_16BF`
		`CUDA_R_16F`	`CUDA_R_16F`
		`CUDA_R_8I`	`CUDA_R_32F`
		`CUDA_R_16BF`	`CUDA_R_32F`
		`CUDA_R_16F`	`CUDA_R_32F`
		`CUDA_R_32F`	`CUDA_R_32F`
	`CUDA_C_32F`	`CUDA_C_8I`	`CUDA_C_32F`
	`CUDA_C_32F`	`CUDA_C_32F`	`CUDA_C_32F`
`CUBLAS_COMPUTE_32F_FAST_16F` 或 `CUBLAS_COMPUTE_32F_FAST_16BF` 或 `CUBLAS_COMPUTE_32F_FAST_TF32` 或 `CUBLAS_COMPUTE_32F_EMULATED_16BFX9`	`CUDA_R_32F`	`CUDA_R_32F`	`CUDA_R_32F`
	`CUDA_C_32F`	`CUDA_C_32F`	`CUDA_C_32F`
`CUBLAS_COMPUTE_64F` 或 `CUBLAS_COMPUTE_64F_PEDANTIC`	`CUDA_R_64F`	`CUDA_R_64F`	`CUDA_R_64F`
`CUBLAS_COMPUTE_64F` 或 `CUBLAS_COMPUTE_64F_PEDANTIC`	`CUDA_C_64F`	`CUDA_C_64F`	`CUDA_C_64F`

如果Atype是CUDA_R_16F或CUDA_R_16BF，或者computeType是任意FAST选项，又或者当数学模式或algo启用了快速数学模式时，放置在GPU内存中的指针（非指针数组）必须正确对齐以避免内存访问错误。理想情况下所有指针至少应对齐16字节。否则建议它们满足以下规则：

如果 k%8==0 则确保 intptr_t(ptr) % 16 == 0,
如果 k%2==0 则确保 intptr_t(ptr) % 4 == 0。

注意

计算类型 CUBLAS_COMPUTE_32I 和 CUBLAS_COMPUTE_32I_PEDANTIC 仅在所有指针 A[i]、B[i] 4字节对齐且lda、ldb为4的倍数时才受支持。为了获得更好的性能，建议同时满足此处列出的IMMA内核对常规数据排序的要求。

该函数可能返回的错误值及其含义如下所示。

错误值	含义
`CUBLAS_STATUS_SUCCESS`	操作成功完成。
`CUBLAS_STATUS_NOT_INITIALIZED`	库未初始化。
`CUBLAS_STATUS_ARCH_MISMATCH`	cublasGemmBatchedEx() 仅在GPU架构能力等于或高于5.0时受支持。
`CUBLAS_STATUS_NOT_SUPPORTED`	参数组合 `Atype`、`Btype` 和 `Ctype` 或算法 `algo` 不受支持。
`CUBLAS_STATUS_INVALID_VALUE`	如果 `m < 0` 或 `n < 0` 或 `k < 0`，或者如果 `transa` 和 `transb` 不是 `CUBLAS_OP_N`、`CUBLAS_OP_C` 或 `CUBLAS_OP_T` 中的一种当 `transa == CUBLAS_OP_N` 时如果 `lda < max(1, m)`，否则 `lda < max(1, k)`，或者当 `transb == CUBLAS_OP_N` 时，如果 `ldb < max(1, k)`；否则当 `ldb < max(1, n)` 时如果 `ldc < max(1, m)`，或者如果 `alpha` 或 `beta` 为 NULL，或者如果 `Atype` 或 `Btype` 或 `Ctype` 或 `algo` 或 `computeType` 不受支持
`CUBLAS_STATUS_EXECUTION_FAILED`	该函数未能在GPU上启动。

另请参阅：sgemm.()

2.8.14. cublasGemmStridedBatchedEx()

cublasStatus_t cublasGemmStridedBatchedEx(cublasHandle_t handle,
                            cublasOperation_t transa,
                            cublasOperation_t transb,
                            int m,
                            int n,
                            int k,
                            const void    *alpha,
                            const void     *A,
                            cudaDataType_t Atype,
                            int lda,
                            long long int strideA,
                            const void     *B,
                            cudaDataType_t Btype,
                            int ldb,
                            long long int strideB,
                            const void    *beta,
                            void           *C,
                            cudaDataType_t Ctype,
                            int ldc,
                            long long int strideC,
                            int batchCount,
                            cublasComputeType_t computeType,
                            cublasGemmAlgo_t algo)

#if defined(__cplusplus)
cublasStatus_t cublasGemmStridedBatchedEx(cublasHandle_t handle,
                            cublasOperation_t transa,
                            cublasOperation_t transb,
                            int m,
                            int n,
                            int k,
                            const void    *alpha,
                            const void     *A,
                            cudaDataType Atype,
                            int lda,
                            long long int strideA,
                            const void     *B,
                            cudaDataType Btype,
                            int ldb,
                            long long int strideB,
                            const void    *beta,
                            void           *C,
                            cudaDataType Ctype,
                            int ldc,
                            long long int strideC,
                            int batchCount,
                            cudaDataType computeType,
                            cublasGemmAlgo_t algo)
#endif

该函数支持64位整数接口。

该函数是cublasgemmStridedBatched()的扩展，用于执行批量矩阵乘法运算，并允许用户单独指定A、B和C矩阵的数据类型、计算精度以及要运行的GEMM算法。与cublasgemmStridedBatched()类似，该批次被视为"统一"的，即所有实例的矩阵维度(m, n, k)、前导维度(lda, ldb, ldc)和转置设置(transa, transb)都相同。批次中每个实例的输入矩阵A、B和输出矩阵C的位置相对于前一个实例的位置具有固定的元素偏移量。用户需要传入第一个实例的A、B和C矩阵指针，以及以元素数为单位的偏移量strideA、strideB和strideC，这些偏移量决定了后续实例中输入和输出矩阵的位置。

注意

为保持与C++应用程序代码的向后兼容性，提供了cublasGemmStridedBatchedEx()函数的第二种变体，其中computeType参数使用的是cudaDataType_t而非cublasComputeType_t。C语言应用程序仍可使用更新后的函数签名进行编译。

$C + i*{strideC} = \alpha\text{op}(A + i*{strideA})\text{op}(B + i*{strideB}) + \beta(C + i*{strideC}),\text{ for i } \in \lbrack 0,batchCount - 1\rbrack$

其中$\alpha$和$\beta$是标量，$A$、$B$和$C$是指向以列主序存储的矩阵指针数组，其维度分别为$\text{op}(A\lbrack i\rbrack)$ $m \times k$、$\text{op}(B\lbrack i\rbrack)$ $k \times n$和$C\lbrack i\rbrack$ $m \times n$。此外，对于矩阵$A$

$\text{op}(A) = \left\{ \begin{matrix} A & {\text{如果 }\textsf{transa == $\mathrm{CUBLAS\_OP\_N}$}} \\ A^{T} & {\text{如果 }\textsf{transa == $\mathrm{CUBLAS\_OP\_T}$}} \\ A^{H} & {\text{如果 }\textsf{transa == $\mathrm{CUBLAS\_OP\_C}$}} \\ \end{matrix} \right.$

并且 $\text{op}(B\lbrack i\rbrack)$ 对矩阵 $B\lbrack i\rbrack$ 的定义类似。

注意

$C\lbrack i\rbrack$ 矩阵之间不能重叠，即各个gemm运算必须能够独立计算；否则，行为是未定义的。

对于某些问题规模，在不同CUDA流中多次调用cublas<t>gemm()可能比使用此API更有利。

注意

在下表中，我们使用A[i], B[i], C[i]来表示批次中第i个实例的A、B和C矩阵，隐含假设它们分别与A[i-1], B[i-1], C[i-1]相距strideA, strideB, strideC个元素的偏移量。偏移量的单位为元素数量且不能为零。

参数	内存	输入/输出	含义
`handle`		输入	cuBLAS库上下文的句柄。
`transa`		输入	操作op(`A[i]`)表示非转置或共轭转置。
`transb`		输入	操作op(`B[i]`)可以是非转置或共轭转置。
`m`		输入	矩阵 op(`A[i]`) 和 `C[i]`) 的行数。
`n`		输入	矩阵 op(`B[i]`) 和 `C[i]` 的列数。
`k`		输入	op(`A[i]`)的列数与op(`B[i]`)的行数。
`alpha`	主机或设备	输入	与computeType和Ctype对应的<缩放类型>中A*B的缩放因子，详情请参阅下表。
`A`	device	输入	指向<Atype>矩阵A的指针，对应批次中的第一个实例，当`transa == CUBLAS_OP_N`时维度为`lda x k`且`lda >= max(1, m)`，否则维度为`lda x m`且`lda >= max(1, k)`。
`Atype`		输入	指定`A`数据类型的枚举值。
`lda`		输入	用于存储矩阵`A[i]`的二维数组的主维度。
`strideA`		输入	类型为long long int的值，表示`A[i]`和`A[i+1]`之间以元素个数计算的偏移量。
`B`	device	输入	指向<Btype>矩阵B的指针，对应批次中的第一个实例，当`transb == CUBLAS_OP_N`时维度为`ldb x n`且`ldb >= max(1, k)`，否则维度为`ldb x k`且`ldb>=max(1,n)`。
`Btype`		输入	指定`B`数据类型的枚举值。
`ldb`		输入	用于存储矩阵`B[i]`的二维数组的主维度。
`strideB`		输入	类型为long long int的值，表示`B[i]`和`B[i+1]`之间以元素个数计算的偏移量。
`beta`	主机或设备	输入	对应于computeType和Ctype的<缩放类型>中C的缩放因子，详情请参阅下表。如果`beta == 0`，则`C[i]`不必是有效输入。
`C`	device	输入/输出	指向<Ctype>矩阵C的指针，对应批次中的第一个实例，其维度为`ldc x n`，且`ldc >= max(1, m)`。矩阵`C[i]`之间不应重叠，否则可能导致未定义行为。
`Ctype`		输入	指定`C`数据类型的枚举项。
`ldc`		输入	用于存储每个矩阵`C[i]`的二维数组的主维度。
`strideC`		输入	类型为long long int的值，表示`C[i]`和`C[i+1]`之间以元素数量计算的偏移量。
`batchCount`		输入	批量执行的GEMM操作数量。
`computeType`		输入	指定计算类型的枚举值。
`algo`		输入	指定算法的枚举值。参见 cublasGemmAlgo_t。

cublasGemmStridedBatchedEx() 支持以下计算类型、缩放类型、A类型/B类型和C类型：

计算类型	缩放类型(alpha和beta)	A类型/B类型	C类型
`CUBLAS_COMPUTE_16F` 或 `CUBLAS_COMPUTE_16F_PEDANTIC`	`CUDA_R_16F`	`CUDA_R_16F`	`CUDA_R_16F`
`CUBLAS_COMPUTE_32I` 或 `CUBLAS_COMPUTE_32I_PEDANTIC`	`CUDA_R_32I`	`CUDA_R_8I`	`CUDA_R_32I`
`CUBLAS_COMPUTE_32F` 或 `CUBLAS_COMPUTE_32F_PEDANTIC`	`CUDA_R_32F`	`CUDA_R_16BF`	`CUDA_R_16BF`
		`CUDA_R_16F`	`CUDA_R_16F`
		`CUDA_R_8I`	`CUDA_R_32F`
		`CUDA_R_16BF`	`CUDA_R_32F`
		`CUDA_R_16F`	`CUDA_R_32F`
		`CUDA_R_32F`	`CUDA_R_32F`
	`CUDA_C_32F`	`CUDA_C_8I`	`CUDA_C_32F`
	`CUDA_C_32F`	`CUDA_C_32F`	`CUDA_C_32F`
`CUBLAS_COMPUTE_32F_FAST_16F` 或 `CUBLAS_COMPUTE_32F_FAST_16BF` 或 `CUBLAS_COMPUTE_32F_FAST_TF32` 或 `CUBLAS_COMPUTE_32F_EMULATED_16BFX9`	`CUDA_R_32F`	`CUDA_R_32F`	`CUDA_R_32F`
	`CUDA_C_32F`	`CUDA_C_32F`	`CUDA_C_32F`
`CUBLAS_COMPUTE_64F` 或 `CUBLAS_COMPUTE_64F_PEDANTIC`	`CUDA_R_64F`	`CUDA_R_64F`	`CUDA_R_64F`
`CUBLAS_COMPUTE_64F` 或 `CUBLAS_COMPUTE_64F_PEDANTIC`	`CUDA_C_64F`	`CUDA_C_64F`	`CUDA_C_64F`

注意

计算类型 CUBLAS_COMPUTE_32I 和 CUBLAS_COMPUTE_32I_PEDANTIC 仅在所有指针 A[i]、B[i] 满足4字节对齐且lda、ldb为4的倍数时支持。为了获得更好的性能，还建议满足此处列出的IMMA内核对常规数据排列的要求。

该函数可能返回的错误值及其含义如下所示。

错误值	含义
`CUBLAS_STATUS_SUCCESS`	操作成功完成。
`CUBLAS_STATUS_NOT_INITIALIZED`	库未初始化。
`CUBLAS_STATUS_ARCH_MISMATCH`	cublasGemmBatchedEx() 仅在GPU架构能力等于或高于5.0时受支持。
`CUBLAS_STATUS_NOT_SUPPORTED`	参数组合 `Atype`、`Btype` 和 `Ctype` 或算法 `algo` 不受支持。
`CUBLAS_STATUS_INVALID_VALUE`	如果 `m < 0` 或 `n < 0` 或 `k < 0`，或者如果 `transa` 和 `transb` 不是 `CUBLAS_OP_N`、`CUBLAS_OP_C` 或 `CUBLAS_OP_T` 中的一种当 `transa == CUBLAS_OP_N` 时如果 `lda < max(1, m)`，否则 `lda < max(1, k)`，或者当 `transb == CUBLAS_OP_N` 时，如果 `ldb < max(1, k)`；否则当 `ldb < max(1, n)` 时如果 `ldc < max(1, m)`，或者如果 `alpha` 或 `beta` 为 NULL，或者如果 `Atype` 或 `Btype` 或 `Ctype` 或 `algo` 或 `computeType` 不受支持
`CUBLAS_STATUS_EXECUTION_FAILED`	该函数未能在GPU上启动

另请参阅：sgemm.()

2.8.15. cublasGemmGroupedBatchedEx()

cublasStatus_t cublasGemmGroupedBatchedEx(cublasHandle_t handle,
                            const cublasOperation_t transa_array[],
                            const cublasOperation_t transb_array[],
                            const int m_array[],
                            const int n_array[],
                            const int k_array[],
                            const void    *alpha_array,
                            const void     *const Aarray[],
                            cudaDataType_t Atype,
                            const int lda_array[],
                            const void     *const Barray[],
                            cudaDataType_t Btype,
                            const int ldb_array[],
                            const void    *beta_array,
                            void           *const Carray[],
                            cudaDataType_t Ctype,
                            const int ldc_array[],
                            int group_count,
                            const int group_size[],
                            cublasComputeType_t computeType)

该函数支持64位整数接口。

该函数对矩阵组执行矩阵乘法运算。每个矩阵组被视为"统一"的，即组内所有实例的矩阵A、B和C具有相同的维度(m, n, k)、前导维度(lda, ldb, ldc)和转置设置(transa, transb)。但不同组之间的维度、前导维度、转置设置以及缩放因子(alpha, beta)可以不同。批处理中每个实例的输入矩阵和输出矩阵地址通过调用者传入的指针数组读取。其功能等效于以下操作：

idx = 0;
for i = 0:group_count - 1
    for j = 0:group_size[i] - 1
        gemmEx(transa_array[i], transb_array[i], m_array[i], n_array[i], k_array[i],
               alpha_array[i], Aarray[idx], Atype, lda_array[i], Barray[idx], Btype,
               ldb_array[i], beta_array[i], Carray[idx], Ctype, ldc_array[i],
               computeType, CUBLAS_GEMM_DEFAULT);
        idx += 1;
    end
end

其中$\text{$\mathrm{alpha\_array}$}$和$\text{$\mathrm{beta\_array}$}$是缩放因子数组，$\text{Aarray}$、$\text{Barray}$和$\text{Carray}$是指向按列主序存储的矩阵的指针数组。对于属于组$i$的给定索引$\text{idx}$，其维度为：

$\text{op}(\text{Aarray}\lbrack\text{idx}\rbrack)$: $\text{$\mathrm{m\_array}$}\lbrack i\rbrack \times \text{$\mathrm{k\_array}$}\lbrack i\rbrack$

$\text{op}(\text{Barray}\lbrack\text{idx}\rbrack)$: $\text{$\mathrm{k\_array}$}\lbrack i\rbrack \times \text{$\mathrm{n\_array}$}\lbrack i\rbrack$

$\text{Carray}\lbrack\text{idx}\rbrack$: $\text{$\mathrm{m\_array}$}\lbrack i\rbrack \times \text{$\mathrm{n\_array}$}\lbrack i\rbrack$

注意

该API接收两个不同长度的数组。维度数组、前导维度数组、转置数组和缩放因子数组的长度为group_count，而矩阵数组的长度为problem_count，其中$\text{$\mathrm{problem\_count}$} = \sum_{i = 0}^{\text{$\mathrm{group\_count}$} - 1} \text{$\mathrm{group\_size}$}\lbrack i\rbrack$

对于组 $i$ 中的矩阵 $A[\text{idx}]$

$\text{op}(A[\text{idx}]) = \left\{ \begin{matrix} A[\text{idx}] & {\text{if }\textsf{$\mathrm{transa\_array}\lbrack i\rbrack$ == $\mathrm{CUBLAS\_OP\_N}$}} \\ A[\text{idx}]^{T} & {\text{if }\textsf{$\mathrm{transa\_array}\lbrack i\rbrack$ == $\mathrm{CUBLAS\_OP\_T}$}} \\ A[\text{idx}]^{H} & {\text{if }\textsf{$\mathrm{transa\_array}\lbrack i\rbrack$ == $\mathrm{CUBLAS\_OP\_C}$}} \\ \end{matrix} \right.$

并且$\text{op}(B[\text{idx}])$对组$i$中的矩阵$B[\text{idx}]$也有类似定义。

注意

$C\lbrack\text{idx}\rbrack$ 矩阵之间不能重叠，也就是说，各个gemm运算必须能够独立计算；否则可能会导致未定义行为。

对于某些问题规模，在不同CUDA流中多次调用cublasGemmBatchedEx()可能比使用此API更有利。

参数	内存	输入/输出	含义	数组长度
`handle`		输入	cuBLAS库上下文的句柄。
`transa_array`	主机	输入	包含每个组的操作op(`A[idx]`)的数组，这些操作可以是非转置或共轭转置。	group_count
`transb_array`	主机	输入	包含每个组的操作op(`B[idx]`)的数组，这些操作可以是非转置或共轭转置。	group_count
`m_array`	主机	输入	包含每个组的矩阵运算(`A[idx]`)和`C[idx]`)行数的数组。	group_count
`n_array`	主机	输入	包含每个组的op(`B[idx]`)和`C[idx]`)列数的数组。	group_count
`k_array`	主机	输入	包含每组op(`A[idx]`)的列数和op(`B[idx]`)的行数的数组。	group_count
`alpha_array`	主机	输入	包含用于每组乘法的<缩放类型>标量的数组。	group_count
`Aarray`	device	输入	指向<Atype>数组的指针数组，每个数组的维度为`lda[i] x k[i]`，当`transa[i]==CUBLAS_OP_N`时要求`lda[i]>=max(1,m[i])`，否则维度为`lda[i] x m[i]`且要求`lda[i]>=max(1,k[i])`。所有指针必须满足特定的对齐标准。详情请见下文。	问题数量
`Atype`		输入	指定`A`数据类型的枚举值。
`lda_array`	主机	输入	包含用于存储每个组矩阵`A[idx]`的二维数组的前导维度的数组。	group_count
`Barray`	device	输入	指向<Btype>数组的指针数组，每个数组的维度为`ldb[i] x n[i]`，当`transb[i]==CUBLAS_OP_N`时要求`ldb[i]>=max(1,k[i])`，否则维度为`ldb[i] x k[i]`且要求`ldb[i]>=max(1,n[i])`。所有指针必须满足特定的对齐标准。详情请见下文。	问题数量
`Btype`		输入	指定`B`数据类型的枚举值。
`ldb_array`	主机	输入	包含用于存储每个组矩阵`B[idx]`的二维数组的前导维度的数组。	group_count
`beta_array`	主机	输入	包含用于每组乘法的<缩放类型>标量的数组。	group_count
`Carray`	device	输入/输出	指向<Ctype>数组的指针数组。其维度为`ldc[i] x n[i]`，其中`ldc[i]>=max(1,m[i])`。矩阵`C[idx]`不应重叠，否则可能导致未定义行为。所有指针必须满足特定的对齐标准。详情请见下文。	问题数量
`Ctype`		输入	指定`C`数据类型的枚举项。
`ldc_array`	主机	输入	包含用于存储每个组矩阵`C[idx]`的二维数组的前导维度的数组。	group_count
`group_count`	主机	输入	组数
`group_size`	主机	输入	数组包含每组中Aarray、Barray和Carray所包含的指针数量。	group_count
`computeType`		输入	指定计算类型的枚举值。

cublasGemmGroupedBatchedEx() 支持以下计算类型、缩放类型、A类型/B类型和C类型：

计算类型	缩放类型(alpha和beta)	A类型/B类型	C类型
`CUBLAS_COMPUTE_32F`	`CUDA_R_32F`	`CUDA_R_16BF`	`CUDA_R_16BF`
		`CUDA_R_16F`	`CUDA_R_16F`
		`CUDA_R_32F`	`CUDA_R_32F`
`CUBLAS_COMPUTE_32F_PEDANTIC`	`CUDA_R_32F`	`CUDA_R_32F`	`CUDA_R_32F`
`CUBLAS_COMPUTE_32F_FAST_TF32`	`CUDA_R_32F`	`CUDA_R_32F`	`CUDA_R_32F`
`CUBLAS_COMPUTE_64F` 或 `CUBLAS_COMPUTE_64F_PEDANTIC`	`CUDA_R_64F`	`CUDA_R_64F`	`CUDA_R_64F`

如果Atype是CUDA_R_16F或CUDA_R_16BF，或者computeType是任意FAST选项，那么放置在GPU内存中的指针（非指针数组）必须正确对齐以避免内存访问错误。理想情况下所有指针至少应对齐16字节。否则必须满足以下规则：

如果 (k * AtypeSize) % 16 == 0 则确保 intptr_t(ptr) % 16 == 0,
如果 (k * AtypeSize) % 4 == 0 则确保 intptr_t(ptr) % 4 == 0。

该函数可能返回的错误值及其含义如下所示。

错误值	含义
`CUBLAS_STATUS_SUCCESS`	操作成功完成
`CUBLAS_STATUS_NOT_INITIALIZED`	库未初始化
`CUBLAS_STATUS_INVALID_VALUE`	如果 `transa_array`、`transb_array`、`m_array`、`n_array`、`k_array`、`alpha_array`、`lda_array`、`ldb_array`、`beta_array`、`ldc_array` 或 `group_size` 为 NULL，或者如果 `group_count < 0`，或者如果 `m_array[i] < 0`, `n_array[i] < 0`, `k_array[i] < 0`, `group_size[i] < 0`, 或如果 `transa_array[i]` 和 `transb_array[i]` 不是 `CUBLAS_OP_N`、`CUBLAS_OP_C` 或 `CUBLAS_OP_T` 中的一种，或者如果 `lda_array[i] < max(1, m_array[i])` 当 `transa_array[i] == CUBLAS_OP_N` 时，或者 `lda_array[i] < max(1, k_array[i])` 其他情况下如果 `ldb_array[i] < max(1, k_array[i])` 当 `transb_array[i] == CUBLAS_OP_N` 时，或者 `ldb_array[i] < max(1, n_array[i])` 其他情况下如果 `ldc_array[i] < max(1, m_array[i])`
`CUBLAS_STATUS_EXECUTION_FAILED`	该函数未能在GPU上启动
`CUBLAS_STATUS_NOT_SUPPORTED`	指针模式设置为 `CUBLAS_POINTER_MODE_DEVICE` 不支持 `Atype` 或 `Btype` 或 `Ctype` 或 `computeType` 类型

2.8.16. cublasCsyrkEx()

cublasStatus_t cublasCsyrkEx(cublasHandle_t handle,
                             cublasFillMode_t uplo,
                             cublasOperation_t trans,
                             int n,
                             int k,
                             const cuComplex *alpha,
                             const void      *A,
                             cudaDataType    Atype,
                             int lda,
                             const cuComplex *beta,
                             cuComplex       *C,
                             cudaDataType    Ctype,
                             int ldc)

该函数支持64位整数接口。

此函数是cublasCsyrk()的扩展，其中输入矩阵和输出矩阵可以采用较低精度，但计算仍以cuComplex类型完成

该函数执行对称秩-$k$更新

$C = \alpha\text{op}(A)\text{op}(A)^{T} + \beta C$

其中 $\alpha$ 和 $\beta$ 是标量，$C$ 是以下三角或上三角模式存储的对称矩阵，$A$ 是一个维度为 $\text{op}(A)$ $n \times k$ 的矩阵。同样地，对于矩阵 $A$

$\text{op}(A) = \left\{ \begin{matrix} A & {\text{如果 }\textsf{transa == $\mathrm{CUBLAS\_OP\_N}$}} \\ A^{T} & {\text{如果 }\textsf{transa == $\mathrm{CUBLAS\_OP\_T}$}} \\ \end{matrix} \right.$

注意

此例程仅在架构能力等于或大于5.0的GPU上受支持

参数	内存	输入/输出	含义
`handle`		输入	cuBLAS库上下文的句柄。
`uplo`		输入	指示矩阵`C`的下三角或上三角部分是否被存储，另一对称部分未被引用，而是从存储的元素中推断得出。
`trans`		输入	操作op(`A`)可以是非转置或转置的。
`n`		输入	矩阵 op(`A`) 和 `C` 的行数。
`k`		输入	矩阵 op(`A`) 的列数。
`alpha`	主机或设备	输入	<type> 用于乘法的标量。
`A`	device	输入	类型维度为 `lda x k` 的数组，当 `trans == CUBLAS_OP_N` 时要求 `lda >= max(1, n)`；否则为 `lda x n` 的数组且要求 `lda >= max(1, k)`。
`Atype`		输入	指定矩阵`A`数据类型的枚举值。
`lda`		输入	用于存储矩阵A的二维数组的主维度。
`beta`	主机或设备	输入	<类型> 用于乘法的标量。如果 `beta == 0` 则 `C` 不需要是有效输入。
`C`	device	输入/输出	<类型> 维度为 `ldc x n` 的数组，其中 `ldc >= max(1, n)`。
`Ctype`		输入	指定矩阵`C`数据类型的枚举值。
`ldc`		输入	用于存储矩阵`C`的二维数组的主维度。

以下是cublasCsyrkEx()支持的矩阵类型组合：

A	C
`CUDA_C_8I`	`CUDA_C_32F`
`CUDA_C_32F`	`CUDA_C_32F`

该函数可能返回的错误值及其含义如下所示。

错误值	含义
`CUBLAS_STATUS_SUCCESS`	操作成功完成。
`CUBLAS_STATUS_NOT_INITIALIZED`	库未初始化。
`CUBLAS_STATUS_INVALID_VALUE`	如果 `n < 0` 或 `k < 0`，或者如果 `uplo` 不是 `CUBLAS_FILL_MODE_LOWER` 或 `CUBLAS_FILL_MODE_UPPER` 中的任意一个，或如果 `trans` 不是 `CUBLAS_OP_N`、`CUBLAS_OP_T` 和 `CUBLAS_OP_C` 其中之一，或者如果 `lda < max(1, n)` 当 `trans == CUBLAS_OP_N` 时，或者 `lda < max(1, k)` 其他情况下如果 `ldc < max(1, n)`，或者如果 `Atype` 或 `Ctype` 不受支持
`CUBLAS_STATUS_NOT_SUPPORTED`	不支持参数`Atype`和`Ctype`的组合。
`CUBLAS_STATUS_ARCH_MISMATCH`	该设备的计算能力低于5.0。
`CUBLAS_STATUS_EXECUTION_FAILED`	该函数未能在GPU上启动。

参考资料请查阅NETLIB文档：

2.8.17. cublasCsyrk3mEx()

cublasStatus_t cublasCsyrk3mEx(cublasHandle_t handle,
                               cublasFillMode_t uplo,
                               cublasOperation_t trans,
                               int n,
                               int k,
                               const cuComplex *alpha,
                               const void      *A,
                               cudaDataType    Atype,
                               int lda,
                               const cuComplex *beta,
                               cuComplex       *C,
                               cudaDataType    Ctype,
                               int ldc)

该函数支持64位整数接口。

此函数是cublasCsyrk()的扩展版本，其中输入矩阵和输出矩阵可以采用较低精度，但计算仍以cuComplex类型执行。该例程采用高斯复杂度降低算法实现，可使性能提升高达25%。

该函数执行对称秩-$k$更新

$C = \alpha\text{op}(A)\text{op}(A)^{T} + \beta C$

其中 $\alpha$ 和 $\beta$ 是标量，$C$ 是以下三角或上三角模式存储的对称矩阵，$A$ 是一个维度为 $\text{op}(A)$ $n \times k$ 的矩阵。同样地，对于矩阵 $A$

$\text{op}(A) = \left\{ \begin{matrix} A & {\text{如果 }\textsf{transa == $\mathrm{CUBLAS\_OP\_N}$}} \\ A^{T} & {\text{如果 }\textsf{transa == $\mathrm{CUBLAS\_OP\_T}$}} \\ \end{matrix} \right.$

注意

此例程仅在架构能力等于或大于5.0的GPU上受支持

参数	内存	输入/输出	含义
`handle`		输入	cuBLAS库上下文的句柄。
`uplo`		输入	指示矩阵`C`的下三角或上三角部分是否被存储，另一对称部分未被引用，而是从存储的元素中推断得出。
`trans`		输入	操作op(`A`)可以是非转置或转置的。
`n`		输入	矩阵 op(`A`) 和 `C` 的行数。
`k`		输入	矩阵 op(`A`) 的列数。
`alpha`	主机或设备	输入	<type> 用于乘法的标量。
`A`	device	输入	类型维度为 `lda x k` 的数组，当 `trans == CUBLAS_OP_N` 时要求 `lda >= max(1, n)`；否则为 `lda x n` 的数组且要求 `lda >= max(1, k)`。
`Atype`		输入	指定矩阵`A`数据类型的枚举值。
`lda`		输入	用于存储矩阵A的二维数组的主维度。
`beta`	主机或设备	输入	<类型> 用于乘法的标量。如果 `beta == 0` 则 `C` 不需要是有效输入。
`C`	device	输入/输出	<类型> 维度为 `ldc x n` 的数组，其中 `ldc >= max(1, n)`。
`Ctype`		输入	指定矩阵`C`数据类型的枚举值。
`ldc`		输入	用于存储矩阵`C`的二维数组的主维度。

以下是cublasCsyrk3mEx()支持的矩阵类型组合：

A	C
`CUDA_C_8I`	`CUDA_C_32F`
`CUDA_C_32F`	`CUDA_C_32F`

该函数可能返回的错误值及其含义如下所示。

错误值	含义
`CUBLAS_STATUS_SUCCESS`	操作成功完成。
`CUBLAS_STATUS_NOT_INITIALIZED`	库未初始化。
`CUBLAS_STATUS_INVALID_VALUE`	如果 `n < 0` 或 `k < 0`，或者如果 `uplo` 不是 `CUBLAS_FILL_MODE_LOWER` 或 `CUBLAS_FILL_MODE_UPPER` 中的任意一个，或如果 `trans` 不是 `CUBLAS_OP_N`、`CUBLAS_OP_T` 和 `CUBLAS_OP_C` 其中之一，或者如果 `lda < max(1, n)` 当 `trans == CUBLAS_OP_N` 且 `lda < max(1, k)` 其他情况下，或如果 `ldc < max(1, n)`，或者如果 `Atype` 或 `Ctype` 不受支持
`CUBLAS_STATUS_NOT_SUPPORTED`	不支持参数`Atype`和`Ctype`的组合。
`CUBLAS_STATUS_ARCH_MISMATCH`	该设备的计算能力低于5.0。
`CUBLAS_STATUS_EXECUTION_FAILED`	该函数未能在GPU上启动。

参考资料请查阅NETLIB文档：

cublasLtLoggerSetCallback(), cublasLtLoggerSetFile(), cublasLtLoggerOpenFile(), cublasLtLoggerSetLevel(), cublasLtLoggerSetMask(), cublasLtLoggerForceDisable()

2.8.18. cublasCherkEx()

cublasStatus_t cublasCherkEx(cublasHandle_t handle,
                           cublasFillMode_t uplo,
                           cublasOperation_t trans,
                           int n,
                           int k,
                           const float     *alpha,
                           const void      *A,
                           cudaDataType    Atype,
                           int lda,
                           const float    *beta,
                           cuComplex      *C,
                           cudaDataType   Ctype,
                           int ldc)

该函数支持64位整数接口。

此函数是cublasCherk()的扩展版本，其中输入矩阵和输出矩阵可以采用较低精度，但计算仍以cuComplex类型完成

该函数执行埃尔米特秩-$k$更新

$C = \alpha\text{op}(A)\text{op}(A)^{H} + \beta C$

其中 $\alpha$ 和 $\beta$ 是标量，$C$ 是以下三角或上三角模式存储的厄米特矩阵，$A$ 是一个维度为 $\text{op}(A)$ $n \times k$ 的矩阵。同样地，对于矩阵 $A$

$\text{op}(A) = \left\{ \begin{matrix} A & {\text{如果 }\textsf{transa == $\mathrm{CUBLAS\_OP\_N}$}} \\ A^{H} & {\text{如果 }\textsf{transa == $\mathrm{CUBLAS\_OP\_C}$}} \\ \end{matrix} \right.$

注意

此例程仅在架构能力等于或大于5.0的GPU上受支持

参数	内存	输入/输出	含义
`handle`		输入	cuBLAS库上下文的句柄。
`uplo`		输入	指示矩阵`C`的下三角或上三角部分是否被存储，另一侧的共轭对称部分不被引用。
`trans`		输入	操作op(`A`)表示非转置或共轭转置。
`n`		输入	矩阵 op(`A`) 和 `C` 的行数。
`k`		输入	矩阵 op(`A`) 的列数。
`alpha`	主机或设备	输入	<type> 用于乘法的标量。
`A`	device	输入	<类型> 维度为 `lda x k` 的数组，当 `transa == CUBLAS_OP_N` 时要求 `lda >= max(1, n)`，否则为 `lda x n` 且 `lda >= max(1, k)`。
`Atype`		输入	指定矩阵`A`数据类型的枚举值。
`lda`		输入	用于存储矩阵`A`的二维数组的主维度。
`beta`		输入	<类型> 用于乘法的标量。如果 `beta == 0` 则 `C` 不需要是有效输入。
`C`	device	输入/输出	<类型> 维度为 `ldc x n` 的数组，其中 `ldc >= max(1, n)`。对角线元素的虚部被假定并设为零。
`Ctype`		输入	指定矩阵`C`数据类型的枚举值。
`ldc`		输入	用于存储矩阵`C`的二维数组的主维度。

支持cublasCherkEx()的矩阵类型组合如下表所示：

A	C
`CUDA_C_8I`	`CUDA_C_32F`
`CUDA_C_32F`	`CUDA_C_32F`

该函数可能返回的错误值及其含义如下所示。

错误值	含义
`CUBLAS_STATUS_SUCCESS`	操作成功完成。
`CUBLAS_STATUS_NOT_INITIALIZED`	库未初始化。
`CUBLAS_STATUS_INVALID_VALUE`	如果 `n < 0` 或 `k < 0`，或者如果 `uplo` 不是 `CUBLAS_FILL_MODE_LOWER` 或 `CUBLAS_FILL_MODE_UPPER` 中的任意一个，或如果 `trans` 不是 `CUBLAS_OP_N`、`CUBLAS_OP_T` 和 `CUBLAS_OP_C` 其中之一，或者如果 `lda < max(1, n)` 当 `trans == CUBLAS_OP_N` 且 `lda < max(1, k)` 其他情况时，或如果 `ldc < max(1, n)`，或者如果 `Atype` 或 `Ctype` 不受支持
`CUBLAS_STATUS_NOT_SUPPORTED`	不支持参数`Atype`和`Ctype`的组合。
`CUBLAS_STATUS_ARCH_MISMATCH`	该设备的计算能力低于5.0。
`CUBLAS_STATUS_EXECUTION_FAILED`	该函数未能在GPU上启动。

参考资料请查阅NETLIB文档：

cherk()

2.8.19. cublasCherk3mEx()

cublasStatus_t cublasCherk3mEx(cublasHandle_t handle,
                           cublasFillMode_t uplo,
                           cublasOperation_t trans,
                           int n,
                           int k,
                           const float     *alpha,
                           const void      *A,
                           cudaDataType    Atype,
                           int lda,
                           const float    *beta,
                           cuComplex      *C,
                           cudaDataType   Ctype,
                           int ldc)

该函数支持64位整数接口。

此函数是cublasCherk()的扩展版本，其中输入矩阵和输出矩阵可以采用较低精度，但计算仍以cuComplex类型执行。该例程采用高斯复杂度降低算法实现，可使性能提升高达25%。

该函数执行埃尔米特秩-$k$更新

$C = \alpha\text{op}(A)\text{op}(A)^{H} + \beta C$

其中 $\alpha$ 和 $\beta$ 是标量，$C$ 是以下三角或上三角模式存储的厄米特矩阵，$A$ 是一个维度为 $\text{op}(A)$ $n \times k$ 的矩阵。同样地，对于矩阵 $A$

$\text{op}(A) = \left\{ \begin{matrix} A & {\text{如果 }\textsf{transa == $\mathrm{CUBLAS\_OP\_N}$}} \\ A^{H} & {\text{如果 }\textsf{transa == $\mathrm{CUBLAS\_OP\_C}$}} \\ \end{matrix} \right.$

注意

此例程仅在架构能力等于或大于5.0的GPU上受支持

参数	内存	输入/输出	含义
`handle`		输入	cuBLAS库上下文的句柄。
`uplo`		输入	指示矩阵`C`的下三角或上三角部分是否被存储，另一侧的共轭对称部分不被引用。
`trans`		输入	操作op(`A`)表示非转置或共轭转置。
`n`		输入	矩阵 op(`A`) 和 `C` 的行数。
`k`		输入	矩阵 op(`A`) 的列数。
`alpha`	主机或设备	输入	<type> 用于乘法的标量。
`A`	device	输入	类型维度为 `lda x k` 的数组，当 `trans == CUBLAS_OP_N` 时要求 `lda >= max(1, n)`；否则为 `lda x n` 的数组且要求 `lda >= max(1, k)`。
`Atype`		输入	指定矩阵`A`数据类型的枚举值。
`lda`		输入	用于存储矩阵`A`的二维数组的主维度。
`beta`		输入	<类型> 用于乘法的标量。如果 `beta == 0` 则 `C` 不需要是有效输入。
`C`	device	输入/输出	<类型> 维度为 `ldc x n` 的数组，其中 `ldc >= max(1, n)`。对角线元素的虚部被假定并设为零。
`Ctype`		输入	指定矩阵`C`数据类型的枚举值。
`ldc`		输入	用于存储矩阵`C`的二维数组的主维度。

支持cublasCherk3mEx()的矩阵类型组合如下表所示：

A	C
`CUDA_C_8I`	`CUDA_C_32F`
`CUDA_C_32F`	`CUDA_C_32F`

该函数可能返回的错误值及其含义如下所示。

错误值	含义
`CUBLAS_STATUS_SUCCESS`	操作成功完成。
`CUBLAS_STATUS_NOT_INITIALIZED`	库未初始化。
`CUBLAS_STATUS_INVALID_VALUE`	如果 `n < 0` 或 `k < 0`，或者如果 `uplo` 不是 `CUBLAS_FILL_MODE_LOWER` 或 `CUBLAS_FILL_MODE_UPPER` 中的任意一个，或如果 `trans` 不是 `CUBLAS_OP_N`、`CUBLAS_OP_T` 和 `CUBLAS_OP_C` 其中之一，或者如果 `lda < max(1, n)` 当 `trans == CUBLAS_OP_N` 时，或者 `lda < max(1, k)` 其他情况下，或如果 `ldc < max(1, n)`，或者如果 `Atype` 或 `Ctype` 不受支持
`CUBLAS_STATUS_NOT_SUPPORTED`	参数 `Atype` 和 `Ctype` 的组合不受支持。
`CUBLAS_STATUS_ARCH_MISMATCH`	该设备的计算能力低于5.0。
`CUBLAS_STATUS_EXECUTION_FAILED`	该函数未能在GPU上启动。

参考资料请查阅NETLIB文档：

cherk()

2.8.20. cublasNrm2Ex()

cublasStatus_t  cublasNrm2Ex( cublasHandle_t handle,
                              int n,
                              const void *x,
                              cudaDataType xType,
                              int incx,
                              void *result,
                              cudaDataType resultType,
                              cudaDataType executionType)

该函数支持64位整数接口。

此函数是例程cublasnrm2()的API泛化实现，可独立指定输入数据、输出数据和计算类型。

该函数计算向量x的欧几里得范数。代码采用多阶段累加模型来避免中间结果的下溢和上溢，其计算结果等效于$\sqrt{\sum_{i = 1}^{n}\left( {\mathbf{x}\lbrack j\rbrack \times \mathbf{x}\lbrack j\rbrack} \right)}$，其中$j = 1 + \left( {i - 1} \right)*\text{incx}$为精确算术运算。请注意最后一个等式采用基于1的索引方式，这是为了与Fortran保持兼容性。

参数	内存	输入/输出	含义
`handle`		输入	cuBLAS库上下文的句柄。
`n`		输入	向量 `x` 中的元素数量。
`x`	device	输入	<类型> 包含 `n` 个元素的向量。
`xType`		输入	指定向量`x`数据类型的枚举值。
`incx`		输入	`x`中连续元素之间的步长。
`result`	主机或设备	输出	结果范数，如果`n <= 0`或`incx <= 0`则设为`0`。
`resultType`		输入	指定`result`数据类型的枚举值。
`executionType`		输入	指定执行计算所用数据类型的枚举值。

当前cublasNrm2Ex()支持的数据类型组合如下：

x	结果	执行
`CUDA_R_16F`	`CUDA_R_16F`	`CUDA_R_32F`
`CUDA_R_16BF`	`CUDA_R_16BF`	`CUDA_R_32F`
`CUDA_R_32F`	`CUDA_R_32F`	`CUDA_R_32F`
`CUDA_C_32F`	`CUDA_R_32F`	`CUDA_R_32F`
`CUDA_R_64F`	`CUDA_R_64F`	`CUDA_R_64F`
`CUDA_C_64F`	`CUDA_R_64F`	`CUDA_R_64F`

该函数可能返回的错误值及其含义如下所示。

错误值	含义
`CUBLAS_STATUS_SUCCESS`	操作成功完成
`CUBLAS_STATUS_NOT_INITIALIZED`	库未初始化
`CUBLAS_STATUS_ALLOC_FAILED`	无法分配归约缓冲区
`CUBLAS_STATUS_NOT_SUPPORTED`	不支持参数`xType`、`resultType`和`executionType`的组合
`CUBLAS_STATUS_EXECUTION_FAILED`	该函数未能在GPU上启动
`CUBLAS_STATUS_INVALID_VALUE`	如果 `xType` 或 `resultType` 或 `executionType` 不受支持，或者如果 `result` 为 NULL

参考资料请查阅NETLIB文档：

snrm2(), dnrm2(), scnrm2(), dznrm2()

2.8.21. cublasAxpyEx()

cublasStatus_t cublasAxpyEx (cublasHandle_t handle,
                             int n,
                             const void *alpha,
                             cudaDataType alphaType,
                             const void *x,
                             cudaDataType xType,
                             int incx,
                             void *y,
                             cudaDataType yType,
                             int incy,
                             cudaDataType executiontype);

该函数支持64位整数接口。

此函数是例程cublasaxpy()的API泛化实现，其中输入数据、输出数据和计算类型均可独立指定。

该函数将向量x与标量$\alpha$相乘后加到向量y上，并用结果覆盖后者。因此执行的操作是$\mathbf{y}\lbrack j\rbrack = \alpha \times \mathbf{x}\lbrack k\rbrack + \mathbf{y}\lbrack j\rbrack$，其中$i = 1,\ldots,n$、$k = 1 + \left( {i - 1} \right)*\text{incx}$和$j = 1 + \left( {i - 1} \right)*\text{incy}$。请注意最后两个等式采用了基于1的索引方式，以保持与Fortran的兼容性。

参数	内存	输入/输出	含义
`handle`		输入	cuBLAS库上下文的句柄。
`n`		输入	向量 `x` 和 `y` 中的元素数量。
`alpha`	主机或设备	输入	<type> 用于乘法的标量。
`alphaType`		输入	指定标量`alpha`数据类型的枚举值。
`x`	device	输入	<类型> 包含 `n` 个元素的向量。
`xType`		输入	指定向量`x`数据类型的枚举常量。
`incx`		输入	`x`中连续元素之间的步长。
`y`	device	输入/输出	<类型> 包含 `n` 个元素的向量。
`yType`		输入	指定向量`y`数据类型的枚举值。
`incy`		输入	`y`中连续元素之间的步长。
`executionType`		输入	指定计算执行数据类型的枚举值。

当前支持的cublasAxpyEx()数据类型组合如下表所示：

alpha	x	y	执行
`CUDA_R_32F`	`CUDA_R_16F`	`CUDA_R_16F`	`CUDA_R_32F`
`CUDA_R_32F`	`CUDA_R_16BF`	`CUDA_R_16BF`	`CUDA_R_32F`
`CUDA_R_32F`	`CUDA_R_32F`	`CUDA_R_32F`	`CUDA_R_32F`
`CUDA_R_64F`	`CUDA_R_64F`	`CUDA_R_64F`	`CUDA_R_64F`
`CUDA_C_32F`	`CUDA_C_32F`	`CUDA_C_32F`	`CUDA_C_32F`
`CUDA_C_64F`	`CUDA_C_64F`	`CUDA_C_64F`	`CUDA_C_64F`

该函数可能返回的错误值及其含义如下所示。

错误值	含义
`CUBLAS_STATUS_SUCCESS`	操作成功完成。
`CUBLAS_STATUS_NOT_INITIALIZED`	库未初始化。
`CUBLAS_STATUS_NOT_SUPPORTED`	不支持参数`xType`、`yType`和`executionType`的组合。
`CUBLAS_STATUS_EXECUTION_FAILED`	该函数未能在GPU上启动。
`CUBLAS_STATUS_INVALID_VALUE`	`alphaType` 或 `xType` 或 `yType` 或 `executionType` 不受支持。

参考资料请查阅NETLIB文档：

saxpy(), daxpy(), caxpy(), zaxpy()

2.8.22. cublasDotEx()

cublasStatus_t cublasDotEx (cublasHandle_t handle,
                            int n,
                            const void *x,
                            cudaDataType xType,
                            int incx,
                            const void *y,
                            cudaDataType yType,
                            int incy,
                            void *result,
                            cudaDataType resultType,
                            cudaDataType executionType);

cublasStatus_t cublasDotcEx (cublasHandle_t handle,
                             int n,
                             const void *x,
                             cudaDataType xType,
                             int incx,
                             const void *y,
                             cudaDataType yType,
                             int incy,
                             void *result,
                             cudaDataType resultType,
                             cudaDataType executionType);

这些函数支持64位整数接口。

这些函数是cublasdot()和cublasdotc()例程的API泛化版本，其中输入数据、输出数据和计算类型可以独立指定。注意：cublasdotc()表示共轭点积，cublasdotu()表示非共轭点积。

该函数计算向量x和y的点积。因此，结果为$\sum_{i = 1}^{n}\left( {\mathbf{x}\lbrack k\rbrack \times \mathbf{y}\lbrack j\rbrack} \right)$，其中$k = 1 + \left( {i - 1} \right)*\text{incx}$且$j = 1 + \left( {i - 1} \right)*\text{incy}$。请注意，如果函数名称以字符'c'结尾，则应使用向量x元素的共轭复数，且最后两个等式反映了为与Fortran兼容而使用的基于1的索引方式。

参数	内存	输入/输出	含义
`handle`		输入	cuBLAS库上下文的句柄。
`n`		输入	向量`x`和`y`中的元素数量。
`x`	device	输入	<类型> 包含 `n` 个元素的向量。
`xType`		输入	指定向量`x`数据类型的枚举值。
`incx`		输入	`x`中连续元素之间的步长。
`y`	device	输入	<类型> 包含 `n` 个元素的向量。
`yType`		输入	指定向量`y`数据类型的枚举值。
`incy`		输入	`y`中连续元素之间的步长。
`result`	主机或设备	输出	结果点积，如果`n <= 0`则设为`0`
`resultType`		输入	指定`result`数据类型的枚举值。
`executionType`		输入	指定执行计算所用数据类型的枚举值。

当前cublasDotEx()和cublasDotcEx()支持的数据类型组合如下：

x	y	结果	执行
`CUDA_R_16F`	`CUDA_R_16F`	`CUDA_R_16F`	`CUDA_R_32F`
`CUDA_R_16BF`	`CUDA_R_16BF`	`CUDA_R_16BF`	`CUDA_R_32F`
`CUDA_R_32F`	`CUDA_R_32F`	`CUDA_R_32F`	`CUDA_R_32F`
`CUDA_R_64F`	`CUDA_R_64F`	`CUDA_R_64F`	`CUDA_R_64F`
`CUDA_C_32F`	`CUDA_C_32F`	`CUDA_C_32F`	`CUDA_C_32F`
`CUDA_C_64F`	`CUDA_C_64F`	`CUDA_C_64F`	`CUDA_C_64F`

该函数可能返回的错误值及其含义如下表所示：

错误值	含义
`CUBLAS_STATUS_SUCCESS`	操作成功完成。
`CUBLAS_STATUS_NOT_INITIALIZED`	库未初始化。
`CUBLAS_STATUS_ALLOC_FAILED`	无法分配归约缓冲区。
`CUBLAS_STATUS_NOT_SUPPORTED`	不支持参数`xType`、`yType`、`resultType`和`executionType`的组合。
`CUBLAS_STATUS_EXECUTION_FAILED`	该函数未能在GPU上启动。
`CUBLAS_STATUS_INVALID_VALUE`	`xType` 或 `yType` 或 `resultType` 或 `executionType` 不支持。

参考资料请查阅NETLIB文档：

sdot(), ddot(), cdotu(), cdotc(), zdotu(), zdotc()

2.8.23. cublasRotEx()

cublasStatus_t cublasRotEx(cublasHandle_t handle,
                           int n,
                           void *x,
                           cudaDataType xType,
                           int incx,
                           void *y,
                           cudaDataType yType,
                           int incy,
                           const void *c,  /* host or device pointer */
                           const void *s,
                           cudaDataType csType,
                           cudaDataType executiontype);

该函数支持64位整数接口。

此函数是对常规cublasrot()的扩展，可以独立指定输入数据、输出数据、余弦/正弦类型以及计算类型。

该函数应用吉文斯旋转矩阵（即在x,y平面内逆时针旋转，旋转角度由cos(alpha)=c, sin(alpha)=s定义）：

$G = \begin{pmatrix} c & s \\ {- s} & c \\ \end{pmatrix}$

转换为向量 x 和 y。

因此，结果是 $\mathbf{x}\lbrack k\rbrack = c \times \mathbf{x}\lbrack k\rbrack + s \times \mathbf{y}\lbrack j\rbrack$ 和 $\mathbf{y}\lbrack j\rbrack = - s \times \mathbf{x}\lbrack k\rbrack + c \times \mathbf{y}\lbrack j\rbrack$，其中 $k = 1 + \left( {i - 1} \right)*\text{incx}$ 且 $j = 1 + \left( {i - 1} \right)*\text{incy}$。请注意，最后两个等式反映了基于1的索引方式，这是为了与Fortran兼容。

参数	内存	输入/输出	含义
`handle`		输入	cuBLAS库上下文的句柄。
`n`		输入	向量`x`和`y`中的元素数量。
`x`	device	输入/输出	<类型> 包含 `n` 个元素的向量。
`xType`		输入	指定向量`x`数据类型的枚举常量。
`incx`		输入	`x`中连续元素之间的步长。
`y`	device	输入/输出	<类型> 包含 `n` 个元素的向量。
`yType`		输入	指定向量`y`数据类型的枚举值。
`incy`		输入	`y`中连续元素之间的步长。
`c`	主机或设备	输入	旋转矩阵的余弦元素。
`s`	主机或设备	输入	旋转矩阵的正弦元素。
`csType`		输入	指定`c`和`s`数据类型的枚举值。
`executionType`		输入	指定执行计算所用数据类型的枚举值。

当前cublasRotEx()支持的数据类型组合如下：

执行类型	x类型 / y类型	cs类型
`CUDA_R_32F`	`CUDA_R_16BF` `CUDA_R_16F` `CUDA_R_32F`	`CUDA_R_16BF` `CUDA_R_16F` `CUDA_R_32F`
`CUDA_R_64F`	`CUDA_R_64F`	`CUDA_R_64F`
`CUDA_C_32F`	`CUDA_C_32F` `CUDA_C_32F`	`CUDA_R_32F` `CUDA_C_32F`
`CUDA_C_64F`	`CUDA_C_64F` `CUDA_C_64F`	`CUDA_R_64F` `CUDA_C_64F`

该函数可能返回的错误值及其含义如下所示。

错误值	含义
`CUBLAS_STATUS_SUCCESS`	操作成功完成
`CUBLAS_STATUS_NOT_INITIALIZED`	库未初始化
`CUBLAS_STATUS_EXECUTION_FAILED`	该函数未能在GPU上启动

参考资料请查阅NETLIB文档：

srot(), drot(), crot(), csrot(), zrot(), zdrot()

2.8.24. cublasScalEx()

cublasStatus_t  cublasScalEx(cublasHandle_t handle,
                             int n,
                             const void *alpha,
                             cudaDataType alphaType,
                             void *x,
                             cudaDataType xType,
                             int incx,
                             cudaDataType executionType);

该函数支持64位整数接口。

该函数将向量x按标量$\alpha$进行缩放，并用结果覆盖原向量。因此执行的操作是$\mathbf{x}\lbrack j\rbrack = \alpha \times \mathbf{x}\lbrack j\rbrack$，其中$i = 1,\ldots,n$且$j = 1 + \left( {i - 1} \right)*\text{incx}$。请注意最后两个等式反映了基于1的索引方式，这是为了与Fortran兼容。

参数	内存	输入/输出	含义
`handle`		输入	cuBLAS库上下文的句柄。
`n`		输入	向量 `x` 中的元素数量。
`alpha`	主机或设备	输入	<type> 用于乘法的标量。
`alphaType`		输入	指定标量`alpha`数据类型的枚举值。
`x`	device	输入/输出	<类型> 包含 `n` 个元素的向量。
`xType`		输入	指定向量`x`数据类型的枚举常量。
`incx`		输入	`x`中连续元素之间的步长。
`executionType`		输入	指定计算执行数据类型的枚举值。

当前支持的cublasScalEx()数据类型组合如下：

alpha	x	执行
`CUDA_R_32F`	`CUDA_R_16F`	`CUDA_R_32F`
`CUDA_R_32F`	`CUDA_R_16BF`	`CUDA_R_32F`
`CUDA_R_32F`	`CUDA_R_32F`	`CUDA_R_32F`
`CUDA_R_64F`	`CUDA_R_64F`	`CUDA_R_64F`
`CUDA_C_32F`	`CUDA_C_32F`	`CUDA_C_32F`
`CUDA_C_64F`	`CUDA_C_64F`	`CUDA_C_64F`

该函数可能返回的错误值及其含义如下所示。

错误值	含义
`CUBLAS_STATUS_SUCCESS`	操作成功完成
`CUBLAS_STATUS_NOT_INITIALIZED`	库未初始化
`CUBLAS_STATUS_NOT_SUPPORTED`	不支持参数`xType`和`executionType`的组合
`CUBLAS_STATUS_EXECUTION_FAILED`	该函数未能在GPU上启动
`CUBLAS_STATUS_INVALID_VALUE`	`alphaType` 或 `xType` 或 `executionType` 不受支持

参考资料请查阅NETLIB文档：

sscal(), dscal(), csscal(), cscal(), zdscal(), zscal()

3. 使用cuBLASLt API

3.1. 概述

cuBLASLt库是一个全新的轻量级库，专门用于通用矩阵乘法(GEMM)运算，并提供灵活的新API。这个新库在矩阵数据布局、输入类型、计算类型方面提供了更大的灵活性，同时通过参数可编程性实现了算法实现和启发式方法的选择。

一旦用户确定了一组用于目标GEMM运算的选项，这些选项可以针对不同的输入重复使用。这与cuFFT和FFTW首先创建计划，然后针对具有不同输入数据的相同大小和类型的FFT重复使用的方式类似。

注意

cuBLASLt库并不保证支持所有可能的尺寸和配置，但从CUDA 12.2更新2开始，关于m、n和批量大小的问题尺寸限制已基本解决。该库的主要目标是提供性能最优的内核，这可能会带来一些隐含的限制。某些非标准配置可能需要用户手动处理，通常通过将问题分解为更小的部分来解决（参见Problem Size Limitations）。

3.1.1. 问题规模限制

由于CUDA网格维度的限制，存在固有的问题规模限制。例如，由于网格z维度的限制，许多内核不支持批量大小超过65535。对于给定问题的m和n值也存在类似的限制。

如果某个问题无法通过单个内核运行解决，cuBLASLt会尝试将问题分解为多个子问题，并通过在每个子问题上运行内核来解决。

There are some restrictions on cuBLASLt internal problem decomposition which are summarized below:

不支持Amax计算。这意味着必须保持CUBLASLT_MATMUL_DESC_AMAX_D_POINTER和CUBLASLT_MATMUL_DESC_EPILOGUE_AUX_AMAX_POINTER未设置状态（参见cublasLtMatmulDescAttributes_t）
所有矩阵布局必须将CUBLASLT_MATRIX_LAYOUT_ORDER设置为CUBLASLT_ORDER_COL（参见cublasLtOrder_t）
当CUBLASLT_MATMUL_DESC_EPILOGUE设置为CUBLASLT_EPILOGUE_DRELU_BGRAD或CUBLASLT_EPILOGUE_DGELU_BGRAD时，cuBLASLt不会沿n维度进行分区（参见cublasLtEpilogue_t）

为了克服这些限制，用户可能希望自行对问题进行分区，为每个子问题启动内核，并计算必要的归约操作以合并结果。

3.1.2. 启发式缓存

cuBLASLt使用启发式算法，根据问题规模、GPU配置和其他参数选择最适合执行的矩阵乘法内核。这需要在主机CPU上执行一些计算，可能需要数十微秒。为了克服这种开销，建议使用cublasLtMatmulAlgoGetHeuristic()一次性查询启发式结果，然后在后续计算中通过cublasLtMatmul()复用该结果。

对于无法一次性查询启发式规则并重复使用的情况，cublaslt实现了一个启发式缓存，该缓存将矩阵乘法问题映射到先前通过启发式规则选定的内核。该启发式缓存采用类似LRU的淘汰策略，并且是线程安全的。

用户可以通过CUBLASLT_HEURISTICS_CACHE_CAPACITY环境变量或具有更高优先级的cublasLtHeuristicsCacheSetCapacity()函数来控制启发式缓存容量。容量以条目数计量，出于性能考虑可能会向上取整到某个因子的最近倍数。每个条目约占360字节（具体可能变动）。默认容量为8192个条目。

注意

将容量设置为零会完全禁用缓存。这对于没有稳定状态的工作负载非常有用，因为缓存操作的开销可能比常规启发式计算更高。

注意

出于性能考虑，该缓存并非理想方案，因此有时需要将其容量提升至预期唯一矩阵乘法问题数量的1.5-2倍，才能达到接近完美的命中率。

另请参阅: cublasLtHeuristicsCacheGetCapacity(), cublasLtHeuristicsCacheSetCapacity().

3.1.3. cuBLASLt 日志记录

可以通过在启动目标应用程序之前设置以下环境变量来启用cuBLASLt日志记录机制：

CUBLASLT_LOG_LEVEL= 其中为以下级别之一：
- 0 - 关闭 - 日志记录已禁用（默认）
- 1 - 错误 - 仅记录错误日志
- 2 - 跟踪 - 调用启动CUDA内核的API将记录其参数和重要信息
- 3 - 提示 - 可能提升应用性能的提示
- 4 - 信息 - 提供关于库执行的一般信息，可能包含启发式算法状态的详细信息
- 5 - API跟踪 - API调用将记录其参数和重要信息
CUBLASLT_LOG_MASK=，其中是以下标志的组合：
- 0 - 关闭
- 1 - 错误
- 2 - 追踪
- 4 - 提示
- 8 - 信息
- 16 - API跟踪
例如，使用CUBLASLT_LOG_MASK=5来启用错误和提示消息。
CUBLASLT_LOG_FILE=，其中是指向日志文件的路径。文件名可以包含 %i，它将被替换为进程ID。例如 file_name_%i.log。

如果未设置CUBLASLT_LOG_FILE，日志消息将打印到标准输出(stdout)。

另一个选项是使用实验性的cuBLASLt日志记录API。参见：

3.1.4. 窄精度数据类型使用

我们在此所称的窄精度数据类型最初是作为8位浮点数据类型(FP8)随Ada和Hopper GPU(计算能力8.9及以上)引入的，旨在进一步加速矩阵乘法运算。目前可用的FP8有两种类型：

CUDA_R_8F_E4M3 的设计目标是在比半精度更小的动态范围内保持精度。E4和M3分别表示4位指数和3位尾数。更多详情请参阅__nv__fp8_e4m3。
CUDA_R_8F_E5M2 的设计目标是在与半精度相似的动态范围内保持精度。E5和M2分别表示5位指数和2位尾数。更多信息请参阅__nv__fp8_e5m2。

注意

除非另有说明，FP8同时指代CUDA_R_8F_E4M3和CUDA_R_8F_E5M2。

随着Blackwell GPU（计算能力10.0及以上）的推出，cuBLAS新增了对4位浮点数据类型(FP4) CUDA_R_4F_E2M1的支持。其中E2和M1分别表示2位指数和1位尾数。更多详情请参阅__nv_fp4_e2m1。

为了保持精度，窄精度数据在计算前后需要进行缩放或反量化处理，并可能在计算后进行量化。cuBLAS提供了多种缩放因子应用模式，这些模式在cublasLtMatmulMatrixScale_t中定义，并通过CUBLASLT_MATMUL_DESC_X_SCALE_MODE属性进行配置（此处X代表A、B、C、D、D_OUT或EPILOGUE_AUX；详见cublasLtMatmulDescAttributes_t）。缩放模式概述如下表所示，更多细节将在后续章节中提供。

扩展模式支持概览
模式	支持的计算能力	张量值数据类型	缩放因子数据类型	缩放因子布局
Tensorwide 扩展	8.9+	`CUDA_R_8F_E4M3` / `CUDA_R_8F_E5M2`	`CUDA_R_32F`	标量
外部向量缩放	9.0	`CUDA_R_8F_E4M3` / `CUDA_R_8F_E5M2`	`CUDA_R_32F`	向量
128元素一维块缩放	9.0	`CUDA_R_8F_E4M3` / `CUDA_R_8F_E5M2`	`CUDA_R_32F`	Tensor
128x128元素二维块缩放	9.0	`CUDA_R_8F_E4M3` / `CUDA_R_8F_E5M2`	`CUDA_R_32F`	Tensor
32元素一维块缩放	10.0+	`CUDA_R_8F_E4M3` / `CUDA_R_8F_E5M2`	`CUDA_R_8F_UE8M0` 1	平铺张量 3
16元素一维块缩放	10.0+	`CUDA_R_4F_E2M1`	`CUDA_R_8F_UE4M3` 2	平铺张量 3

注意：

1: CUDA_R_8F_UE8M0 是一种8位无符号仅指数浮点数据类型。更多信息请参阅 __nv_fp8_e8m0。
2: CUDA_R_8F_UE4M3 是 CUDA_R_E4M3 的无符号版本。符号位被忽略，因此提供此枚举值是为了方便使用。
3(1,2): 更多详情请参阅1D Block Scaling Factors Layout。

注意

缩放因子仅适用于窄精度矩阵乘法。如果为非窄精度矩阵乘法设置了任何缩放因子，cuBLAS将返回错误。此外，缩放因子通常仅支持窄精度张量。如果为非窄精度张量设置了相应的缩放因子，该设置将被忽略。唯一的例外是：在Ada和Hopper GPU上，允许对非窄数据类型的张量C设置缩放因子。

注意

当任何矩阵的cublasLtBatchMode_t设置为CUBLASLT_BATCH_MODE_POINTER_ARRAY时，仅支持Tensorwide缩放。

3.1.4.1. FP8数据类型的张量级缩放

当所有FP8精度张量的CUBLASLT_MATMUL_DESC_X_SCALE_MODE属性（此处X代表A、B、C、D或EPILOGUE_AUX；参见cublasLtMatmulDescAttributes_t）设置为CUBLASLT_MATMUL_MATRIX_SCALE_SCALAR_32F（这是FP8张量的默认值）时，将启用张量宽缩放。在这种情况下，cuBLAS中的矩阵乘法运算按以下方式定义（为说明起见，假设所有张量都使用FP8精度）：

\[D = scale_D \cdot (\alpha \cdot scale_A \cdot scale_B \cdot \text{op}(A) \text{op}(B) + \beta \cdot scale_C \cdot C).\]

这里 $A$、$B$ 和 $C$ 是输入张量，$scale_A$、$scale_B$、$scale_C$、$scale_D$、$\alpha$ 和 $\beta$ 是输入标量。与其他矩阵乘法例程不同之处在于为每个矩阵添加了缩放因子。$scale_A$、$scale_B$ 和 $scale_C$ 用于反量化，而 $scale_D$ 用于量化。请注意所有缩放因子都是乘法应用的。这意味着根据应用场景的不同，有时需要使用缩放因子或其倒数。有关FP8的更多信息，请参阅 cublasLtMatmul() 和 cublasLtMatmulDescAttributes_t。

对于此类矩阵乘法，尾操作和中间值的绝对最大值计算如下：

\[\begin{split}Aux_{temp} & = \alpha \cdot scale_A \cdot scale_B \cdot \text{op}(A) \text{op}(B) + \beta \cdot scale_C \cdot C, \\ D_{temp} & = \mathop{Epilogue}(Aux_{temp}), \\ amax_{D} & = \mathop{absmax}(D_{temp}), \\ amax_{Aux} & = \mathop{absmax}(Aux_{temp}), \\ D & = scale_D * D_{temp}, \\ Aux & = scale_{Aux} * Aux_{temp}. \\\end{split}\]

这里的$Aux$是矩阵乘法(matmul)的辅助输出，包含传递给像GELU这样的后处理函数的值，$scale_{Aux}$是一个可选的比例因子，可以应用于$Aux$，而$amax_{Aux}$是缩放前$Aux$中的最大绝对值。更多信息，请参阅cublasLtMatmulDescAttributes_t中的属性CUBLASLT_MATMUL_DESC_AMAX_D_POINTER和CUBLASLT_MATMUL_DESC_EPILOGUE_AUX_AMAX_POINTER。

3.1.4.2. FP8数据类型的向量外积缩放

这种缩放模式（也称为通道缩放或行缩放）是对张量整体缩放的改进。不同于将矩阵乘以单个标量，这里每个$A$的行和每个$B$的列都关联一个缩放因子：

\[D_{ij} = \alpha \cdot scale_A^i \cdot scale_B^j \sum_{l=1}^k a_{il}\cdot b_{lj} + \beta \cdot scale_C \cdot C_{ij}.\]

值得注意的是，$scale_D$不受支持，因为$D$唯一支持的精度是CUDA_R_16F、CUDA_R_16BF和CUDA_R_32F。

要启用外部向量缩放，必须将CUBLASLT_MATMUL_DESC_A_SCALE_MODE和CUBLASLT_MATMUL_DESC_B_SCALE_MODE属性设置为CUBLASLT_MATMUL_MATRIX_SCALE_OUTER_VEC_32F，同时不得修改所有其他缩放模式。

使用此缩放模式时，$scale_A$和$scale_B$必须分别是长度为$M$和$N$的向量。

3.1.4.3. FP8和FP4数据类型的16/32元素一维块缩放

一维块缩放旨在克服使用单一标量对整个张量进行缩放的局限性。OCP MXFP规范中对此有更详细的描述，因此我们在此仅作简要概述。块缩放意味着相邻值的16或32元素块内的元素会被分配一个共享的缩放因子。

目前，仅支持FP8精度和FP4精度张量的块缩放，不支持混合精度。要启用块缩放功能，必须为所有FP8精度张量将CUBLASLT_MATMUL_DESC_X_SCALE_MODE属性（此处X代表A、B、C、D或EPILOGUE_AUX；参见cublasLtMatmulDescAttributes_t）设置为CUBLASLT_MATMUL_MATRIX_SCALE_VEC32_UE8M0，或为所有FP4精度张量设置为CUBLASLT_MATMUL_MATRIX_SCALE_VEC16_UE4M3。

通过块缩放，cuBLAS中的矩阵乘法(matmul)操作按以下方式定义（为说明起见，假设所有张量都使用窄精度）。我们大致遵循OCP MXFP规范表示法。

首先，一个缩放块(或在OCP MXFP规范中称为MX兼容格式向量)是一个元组$x = \left(S^x, \left[x^i\right]_{i=1}^k\right)$，其中$S^x$是共享的缩放因子，每个$x^i$使用FP8或FP4数据类型存储。

两个缩放块 $x = \left(S^x, \left[x^i\right]_{i=1}^{k}\right)$ 和 $y = \left(S^y, \left[y^i\right]_{i=1}^{k}\right)$ 的点积定义如下：

\[Dot(x, y) = S^x S^y \cdot \sum_{i=1}^{k} x^i y^i.\]

对于由$n$个块组成的序列$X = \{x_j\}_{j=1}^n$和$Y = \{y_j\}_{j=1}^n$，广义点积定义为：

\[DotGeneral(X, Y) = \sum_{j=1}^n Dot(x_j, y_j).\]

广义点积可用于定义矩阵乘法，方法是在$K$维度上为$A$和$B$的每$k$个元素组合一个缩放因子（为简单起见，假设$K$能被$k$整除且无余数）：

\[\begin{split}L & = \frac{K}{k}, \\ A_i & = \left\{{scale_A}_{i,b}, \left[A_{i,(b-1)k+l}\right]_{l=1}^{k}\right\}_{b=1}^L, \\ B_j & = \left\{{scale_B}_{i,b}, \left[B_{(b-1)k+l,j}\right]_{l=1}^{k}\right\}_{b=1}^L, \\ (\left\{scale_A, A\right\} \times \left\{scale_B, B\right\})_{i,j} & = DotGeneral(A_i, B_j).\end{split}\]

现在，完整的矩阵乘法可以写成：

\[\left\{scale_D^{out}, D\right\} = Quantize\left(scale_D^{in}\left(\alpha \cdot \left\{scale_A, \text{op}(A)\right\} \times \left\{scale_B, \text{op}(B)\right\} + \beta \cdot Dequantize(\left\{scale_C, C\right\})\right)\right).\]

$Quantize$ 在 1D Block Quantization 章节中有详细说明，而 $Dequantize$ 的定义如下：

\[Dequantize\left(\left\{scale_C, C\right\})\right)_{i,j} = {scale_C}_{i/k,j} \cdot C_{i,j}.\]

注意

除了在量化过程中计算的$scale_D^{out}$外，当缩放因子使用CUDA_R_8F_UE4M3数据类型时，还会有一个针对$D$的输入标量张量级缩放因子$scale_D^{in}$。该因子用于在量化前"压缩"计算值。

3.1.4.3.1. 一维块量化

考虑在$M$维度中$D$的$k$个元素组成的单个块：$D^b_{fp32} = \left[d^i_{fp32}\right]_{i=1}^k$。对部分块进行量化时，缺失值被视为零。设$Amax(DType)$为目标精度可表示的最大值。

以下计算步骤适用于所有输出和缩放因子数据类型的组合。

计算块的绝对最大值 $Amax(D^b_{fp32}) = max(\{|d_i|\}_{i=1}^k)$。
以单精度计算块缩放因子为 $S^b_{fp32} = \frac{Amax(D^b_{fp32})}{Amax(DType)}$。

为FP8与UE8M0比例计算缩放和转换因子

注意

除非另有说明，否则默认采用RNE舍入方式。

计算包含以下步骤：

从$S^b_{fp32}$中提取未经偏置调整的块缩放因子指数$E^b_{int}$（作为整数）和尾数$M^b_{fixp}$（作为定点数）（实际实现直接操作位表示）。
将块指数向上取整，使其保持在UE8M0可表示值的范围内：$E^b_{int} = \left\{\begin{array}{ll} E^b_{int} + 1, & \text{如果 } S^b_{fp32} \text{ 是规格化数且 } E^b_{int} < 254 \text{ 且 } M^b_{fixp} > 0 \\ E^b_{int} + 1, & \text{如果 } S^b_{fp32} \text{是非规格化数且 } M^b_{fixp} > 0.5, \\ E^b_{int}, & \text{其他情况.} \end{array}\right.$
计算块缩放因子为 $S^b_{ue8m0} = 2^{E^b_{int}}$。请注意，UE8M0 数据类型的指数偏置为127。
计算块转换因子 $R^b_{fp32} = \frac{1}{fp32(S^b_{ue8m0})}$。

注意

上述算法与OCP MXFP建议的舍入方案有所不同。

为FP4与UE4M3比例计算缩放和转换因子

我们假设算法提供了一个预先计算好的输入张量全局缩放因子$scale_D^{in}$，在一般情况下该因子计算公式为

\[scale_D^{in} = \frac{Amax(e2m1) \cdot Amax(e4m3)}{Amax(D_{temp})},\]

其中 $Amax(D_{temp})$ 表示量化前矩阵乘法结果的全局绝对最大值。由于计算该值需要知道整个运算的结果，实践中通常使用前一迭代的近似值来代替。

计算包含以下步骤：

计算块缩放因子$S^b_{e4m3} = e4m3(S^b_{fp32} \cdot scale_D^{in})$的窄精度值。
计算块转换因子 $R^b_{fp32} = \frac{scale_D^{in}}{fp32(S^b_{e4m3})}$。

应用转换因子

对于每个$i = 1 \ldots k$，计算$d^i = DType(d^i_{fp32} \cdot R^n_{fp32})$。量化后的结果块为$\left(S^b, \left[d^i\right]_{i=1}^k\right)$，其中$S^b$在FP8使用UE8M0缩放因子时为$S^b_{ue8m0}$，在FP4使用UE4M3缩放因子时为$S^b_{ue4m3}$。

3.1.4.3.2. 一维块缩放因子布局

缩放因子采用平铺布局存储。下图展示了每个128x4平铺块在内存中的布局方式。内存偏移量从左到右递增，然后从上到下递增。

_images/cublasLt_scaling_factors_layout_tile.png

以下伪代码可用于在inner（A和B的K，C或D的M）和outer（A的M，B、C和D的N）索引与图块内的线性offset之间进行相互转换：

// Indices -> offset
offset = (outer % 32) * 16 + (outer / 32) * 4 + inner

// Offset -> Indices
outer = ((offset % 16) / 4) * 32 + (offset / 16)
inner = (offset % 4)

当缩放模式为CUBLASLT_MATMUL_MATRIX_SCALE_VEC16_UE4M3时，单个缩放因子图块应用于128x64块；当模式为CUBLASLT_MATMUL_MATRIX_SCALE_VEC32_UE8M0时，则应用于128x128块。

多个块按行优先方式排列。下图展示了一个示例。内存中的偏移量从左到右递增，然后从上到下递增。

_images/cublasLt_scaling_factors_layout_global.png

通常，对于一个每行包含sf_inner_dim个缩放因子的张量，左上角坐标为(sf_outer, sf_inner)的块（使用与上述相同的矩阵坐标对应关系）的偏移量可以通过以下伪代码计算：

// Indices -> offset
//   note that sf_inner is a multiple of 4 due to the tiling layout
offset = (sf_inner + sf_outer * sf_inner_dim) * 128

注意

缩放因子的起始地址必须16字节对齐。

注意

请注意，上述描述的布局不支持转置操作。这意味着即使输入张量可以转置，缩放因子的布局也不会改变。

注意

请注意，当张量维度不是上述平铺大小的整数倍时，仍需要分配完整的平铺存储空间，并用零填充越界值。此外，在写入输出缩放因子时，内核可能会额外写入零值，因此最好不要对越界值的持久性做任何假设。

3.1.4.4. 针对FP8数据类型的128元素一维及128x128二维块缩放

这两种缩放模式将16/32元素一维块缩放方法(适用于FP8和FP4数据类型)的原理应用于Hopper GPU架构。不过这里的缩放数据类型是CUDA_R_32F，且$A$和$B$可以使用不同的缩放模式，而$D$唯一支持的精度为CUDA_R_16F、CUDA_R_16BF和CUDA_R_32F。

要启用此缩放模式，必须将CUBLASLT_MATMUL_DESC_X_SCALE_MODE属性（此处X代表A或B）设置为CUBLASLT_MATMUL_MATRIX_SCALE_VEC128_32F或CUBLASLT_MATMUL_MATRIX_SCALE_BLK128x128_32F，同时不得修改其他所有缩放模式。下表显示了支持的组合：

CUBLASLT_MATMUL_DESC_A_SCALE_MODE	CUBLASLT_MATMUL_DESC_B_SCALE_MODE	是否支持?
`CUBLASLT_MATMUL_MATRIX_SCALE_VEC128_32F`	`CUBLASLT_MATMUL_MATRIX_SCALE_VEC128_32F`	是
`CUBLASLT_MATMUL_MATRIX_SCALE_VEC128_32F`	`CUBLASLT_MATMUL_MATRIX_SCALE_BLK128x128_32F`	是
`CUBLASLT_MATMUL_MATRIX_SCALE_BLK128x128_32F`	`CUBLASLT_MATMUL_MATRIX_SCALE_VEC128_32F`	是
`CUBLASLT_MATMUL_MATRIX_SCALE_BLK128x128_32F`	`CUBLASLT_MATMUL_MATRIX_SCALE_BLK128x128_32F`	否

使用16/32元素1D块针对FP8和FP4数据类型的缩放中的表示法，我们可以按以下方式为$A$的第$i$行定义缩放块的序列：

\[\begin{split}L & = \lceil \frac{K}{128} \rceil, \\ A^{128}_i & = \left\{{scale_A}_{i,b}, \left[A_{i,(b-1)128+l}\right]_{l=1}^{128}\right\}_{b=1}^L, \text{(这是128元素一维块缩放)} \\ \\ p & = \lceil \frac{i}{128} \rceil, \\ A^{128 \times 128}_i & = \left\{{scale_A}_{p,b}, \left[A_{i,(b-1)128+l}\right]_{l=1}^{128}\right\}_{b=1}^L. \text{(这是128x128元素二维块缩放)} \\\end{split}\]

关于$B$的定义类似。矩阵乘法的定义与16/32-Element 1D Block Scaling for FP8 and FP4 Data Types中所述相同，显著区别在于使用2D块缩放时，整个128x128元素块采用单一缩放因子。

3.1.4.4.1. 缩放因子布局

注意

缩放因子的起始地址必须16字节对齐。

注意

$M$ 和 $N$ 必须是4的倍数。

对于CUBLASLT_MATMUL_MATRIX_SCALE_VEC128_32F缩放模式，缩放因子为：

$M$主序的$A$矩阵，形状为$M \times L$（$M$主序表示内存中沿$M$维度的元素是连续的），
$N$为主维度的$B$，形状为$N \times L$。

对于CUBLASLT_MATMUL_MATRIX_SCALE_BLK128x128_32F缩放模式，缩放因子采用$K$主序排列，且连续列之间的步长必须是4的倍数。设$L_4 = \lceil L \rceil_4$，其中$\lceil \cdot \rceil_4$表示向上取整至最近的4的倍数。因此

对于 $A$，缩放因子的形状为 $L_4 \times \lceil \frac{M}{128} \rceil$，
对于 $B$，缩放因子的形状为 $L_4 \times \lceil \frac{N}{128} \rceil$。

3.1.5. 禁用CPU指令

如启发式缓存部分所述，cuBLASLt启发式算法会在主机CPU上执行一些计算密集型操作。为了加速这些操作，该实现会检测CPU能力并可能使用特殊指令，例如x86-64 CPU上的高级矢量扩展(AVX)。但在极少数情况下，这可能不是理想选择。例如，使用高级指令可能导致CPU以较低频率运行，从而影响其他主机代码的性能。

用户可以选择性地通过CUBLASLT_DISABLE_CPU_INSTRUCTIONS_MASK环境变量或优先级更高的cublasLtDisableCpuInstructionsSetMask()函数，指示cuBLASLt库不使用某些CPU指令。默认掩码为0，表示没有任何限制。

更多信息请查看cublasLtDisableCpuInstructionsSetMask()。

3.1.6. 原子操作同步

原子同步通过使cublasLtMatmul()能够与另一个并发运行的内核建立生产者或消费者关系，从而优化矩阵乘法工作负载。这允许以更细的粒度重叠计算和通信。从概念上讲，矩阵乘法被提供一个包含32位整数计数器的数组，然后：

在消费者模式下，矩阵A可以按行分块，或者矩阵B可以按列分块4。只有当对应的原子计数器值达到0时，才能从内存中读取数据块并用于计算。生产者需要执行内存屏障操作，以确保写入的值对并行运行的矩阵乘法内核可见5。
在生产者模式下，输出矩阵C（或异地模式下的D）按行或列进行分区。当一个数据块计算完成后，对应的原子计数器会被重置为0。在矩阵乘法内核运行之前，每个计数器必须初始化为1。

4: 当前实现仅支持对矩阵的行或列进行分区，但不能同时进行。暂不支持批量处理的情况。
5: 内存屏障的一种可能实现方式是cuda::atomic_thread_fence(cuda::memory_order_seq_cst, cuda::thread_scope::thread_scope_device)（详见cuda::atomic_thread_fence()获取更多信息）。

计数器数组通过CUBLASLT_MATMUL_DESC_ATOMIC_SYNC_IN_COUNTERS_POINTER和CUBLASLT_MATMUL_DESC_ATOMIC_SYNC_OUT_COUNTERS_POINTER计算描述符属性分别传递给消费者和生产者模式的矩阵乘法6。这些数组必须包含足够数量的元素以覆盖所有数据块。

6: 当前实现仅允许启用生产者或消费者模式之一，但不能同时启用两者。如果输入和输出计数器指针均指向非NULL值，Matmul将返回错误。

分块数量由CUBLASLT_MATMUL_DESC_ATOMIC_SYNC_NUM_CHUNKS_D_ROWS和CUBLASLT_MATMUL_DESC_ATOMIC_SYNC_NUM_CHUNKS_D_COLS计算描述符属性控制。要启用此功能，这两个属性都必须设置为大于零的值。对于列优先布局，分块数量必须满足：

\[\begin{split}0 \leq \text{$\mathrm{NUM\_CHUNKS\_ROWS}$} \leq & \mathop{\text{floor}}\left( \frac{\text{M}}{\text{$\mathrm{TILE\_SIZE\_M}$} * \text{$\mathrm{CLUSTER\_SHAPE\_M}$}} \right) \\ 0 \leq \text{$\mathrm{NUM\_CHUNKS\_COLS}$} \leq & \mathop{\text{floor}}\left( \frac{\text{N}}{\text{$\mathrm{TILE\_SIZE\_N}$} * \text{$\mathrm{CLUSTER\_SHAPE\_N}$}} \right)\end{split}\]

对于行优先布局，需要交换分块尺寸和集群形状中的M和N。这些限制意味着必须首先通过cublasLtMatmulAlgoGetHeuristic()查询启发式结果，检查分块和集群形状，然后才能设置分块数量。

以下伪代码展示了其工作原理：

// The code below shows operation when partitioning over
// rows assuming column-major layout and TN case.
//
// The case when partitioning is done over columns or
// row-major case are handled in a similar fashion,
// with the main difference being the offsets
// computations.
//
// Note that the actual implementation does not
// guarantee in which order the chunks are computed,
// and may employ various optimizations to improve
// overall performance.
//
// Here:
//   - A, B, C -- input matrices in the column-major layout
//   - lda -- leading dimension of matrix A
//   - M, N, K -- the original problem dimensions
//   - counters_in[] and counters_out[] -- the arrays of
//     input and output atomic counters
//
for (int i = 0; i < NUM_CHUNKS_ROWS; i++) {
  // Consumer: wait for the input counter to become 0
  if (consumer) {
    while (counters_in[i] != 0); // spin
  }

  // compute chunk dimensions
  chunk_m_begin = floor((double)M / NUM_CHUNKS_ROWS * i);
  chunk_m_end = floor((double)M / NUM_CHUNKS_ROWS * (i + 1));
  chunk_m = chunk_m_end - chunk_m_begin;

  // Compute the current chunk
  matmul(chunk_m, N, K,
         A[chunk_m_begin * lda], // A is col-major transposed
         B, // B is not partitioned
         C[chunk_m_begin] // C is col-major non-transposed
         );

  // Producer: set the counter to 0 when done
  if (producer) {
    counters_out[i] = 0;
    // make the written value visible to the consumer kernel
    memory_fence();
  }
}

需要注意的是，通常情况下，CUDA编程模型对内核协同调度的保证较少。因此，使用此功能需要精心编排生产者和消费者内核的启动顺序及资源可用性，否则很容易造成死锁情况。在以下场景中可能出现死锁（非全部情况）：

如果生产者内核因消费者内核先启动并占用了部分SM（这些SM是生产者内核启动所需的）而无法启动。强烈建议设置CUBLASLT_MATMUL_DESC_SM_COUNT_TARGET来为非矩阵乘法（通常是通信）内核预留部分SM以供执行。
如果在消费者内核启动之后但在生产者内核启动之前调用cudaDeviceSynchronize()。
当启用延迟模块加载时，由于CUDA运行时库中的锁定，消费者内核运行时可能无法加载生产者内核。为避免这种情况，两个内核必须在同时运行前完成加载。使用CUDA Graphs是另一种避免因延迟加载导致死锁的方法。

注意

此功能面向高级用户，仅在Hopper架构上可用，适用于启用快速累加模式的FP8非批处理场景，由于使用限制较多，目前处于测试阶段。

3.2. cuBLASLt 代码示例

请访问 https://github.com/NVIDIA/CUDALibrarySamples/tree/master/cuBLASLt 获取最新的代码示例。

3.3. cuBLASLt 数据类型参考

3.3.1. cublasLtClusterShape_t

cublasLtClusterShape_t 是一个枚举类型，用于配置线程块集群的维度。线程块集群添加了一个可选的层次级别，由线程块组成。与线程块类似，这些集群可以是一维、二维或三维的。另请参阅Thread Block Clusters。

值	描述
`CUBLASLT_CLUSTER_SHAPE_AUTO`	集群形状会自动选择。
`CUBLASLT_CLUSTER_SHAPE_1x1x1`	集群形状为1 x 1 x 1。
`CUBLASLT_CLUSTER_SHAPE_1x2x1`	集群形状为1 x 2 x 1。
`CUBLASLT_CLUSTER_SHAPE_1x4x1`	集群形状为1 x 4 x 1。
`CUBLASLT_CLUSTER_SHAPE_2x1x1`	集群形状为2 x 1 x 1。
`CUBLASLT_CLUSTER_SHAPE_2x2x1`	集群形状为2 x 2 x 1。
`CUBLASLT_CLUSTER_SHAPE_2x4x1`	集群形状为2 x 4 x 1。
`CUBLASLT_CLUSTER_SHAPE_4x1x1`	集群形状为4 x 1 x 1。
`CUBLASLT_CLUSTER_SHAPE_4x2x1`	集群形状为4 x 2 x 1。
`CUBLASLT_CLUSTER_SHAPE_4x4x1`	集群形状为4 x 4 x 1。
`CUBLASLT_CLUSTER_SHAPE_1x8x1`	集群形状为1 x 8 x 1。
`CUBLASLT_CLUSTER_SHAPE_8x1x1`	集群形状为8 x 1 x 1。
`CUBLASLT_CLUSTER_SHAPE_2x8x1`	集群形状为2 x 8 x 1。
`CUBLASLT_CLUSTER_SHAPE_8x2x1`	集群形状为8 x 2 x 1。
`CUBLASLT_CLUSTER_SHAPE_1x16x1`	集群形状为1 x 16 x 1。
`CUBLASLT_CLUSTER_SHAPE_16x1x1`	集群形状为16 x 1 x 1。
`CUBLASLT_CLUSTER_SHAPE_1x3x1`	集群形状为1 x 3 x 1。
`CUBLASLT_CLUSTER_SHAPE_1x5x1`	集群形状为1 x 5 x 1。
`CUBLASLT_CLUSTER_SHAPE_1x6x1`	集群形状为1 x 6 x 1。
`CUBLASLT_CLUSTER_SHAPE_1x7x1`	集群形状为1 x 7 x 1。
`CUBLASLT_CLUSTER_SHAPE_1x9x1`	集群形状为1 x 9 x 1。
`CUBLASLT_CLUSTER_SHAPE_1x10x1`	集群形状为1 x 10 x 1。
`CUBLASLT_CLUSTER_SHAPE_1x11x1`	集群形状为1 x 11 x 1。
`CUBLASLT_CLUSTER_SHAPE_1x12x1`	集群形状为1 x 12 x 1。
`CUBLASLT_CLUSTER_SHAPE_1x13x1`	集群形状为1 x 13 x 1。
`CUBLASLT_CLUSTER_SHAPE_1x14x1`	集群形状为1 x 14 x 1。
`CUBLASLT_CLUSTER_SHAPE_1x15x1`	集群形状为1 x 15 x 1。
`CUBLASLT_CLUSTER_SHAPE_2x3x1`	集群形状为2 x 3 x 1。
`CUBLASLT_CLUSTER_SHAPE_2x5x1`	集群形状为2 x 5 x 1。
`CUBLASLT_CLUSTER_SHAPE_2x6x1`	集群形状为2 x 6 x 1。
`CUBLASLT_CLUSTER_SHAPE_2x7x1`	集群形状为2 x 7 x 1。
`CUBLASLT_CLUSTER_SHAPE_3x1x1`	集群形状为3 x 1 x 1。
`CUBLASLT_CLUSTER_SHAPE_3x2x1`	集群形状为3 x 2 x 1。
`CUBLASLT_CLUSTER_SHAPE_3x3x1`	集群形状为3 x 3 x 1。
`CUBLASLT_CLUSTER_SHAPE_3x4x1`	集群形状为3 x 4 x 1。
`CUBLASLT_CLUSTER_SHAPE_3x5x1`	集群形状为3 x 5 x 1。
`CUBLASLT_CLUSTER_SHAPE_4x3x1`	集群形状为4 x 3 x 1。
`CUBLASLT_CLUSTER_SHAPE_5x1x1`	集群形状为5 x 1 x 1。
`CUBLASLT_CLUSTER_SHAPE_5x2x1`	集群形状为5 x 2 x 1。
`CUBLASLT_CLUSTER_SHAPE_5x3x1`	集群形状为5 x 3 x 1。
`CUBLASLT_CLUSTER_SHAPE_6x1x1`	集群形状为6 x 1 x 1。
`CUBLASLT_CLUSTER_SHAPE_6x2x1`	集群形状为6 x 2 x 1。
`CUBLASLT_CLUSTER_SHAPE_7x1x1`	集群形状为7 x 1 x 1。
`CUBLASLT_CLUSTER_SHAPE_7x2x1`	集群形状为7 x 2 x 1。
`CUBLASLT_CLUSTER_SHAPE_9x1x1`	集群形状为9 x 1 x 1。
`CUBLASLT_CLUSTER_SHAPE_10x1x1`	集群形状为10 x 1 x 1。
`CUBLASLT_CLUSTER_SHAPE_11x1x1`	集群形状为11 x 1 x 1。
`CUBLASLT_CLUSTER_SHAPE_12x1x1`	集群形状为12 x 1 x 1。
`CUBLASLT_CLUSTER_SHAPE_13x1x1`	集群形状为13 x 1 x 1。
`CUBLASLT_CLUSTER_SHAPE_14x1x1`	集群形状为14 x 1 x 1。
`CUBLASLT_CLUSTER_SHAPE_15x1x1`	集群形状为15 x 1 x 1。

3.3.2. cublasLtEpilogue_t

cublasLtEpilogue_t 是一个枚举类型，用于设置后处理（epilogue）的选项。

值	描述
`CUBLASLT_EPILOGUE_DEFAULT = 1`	无需特殊后处理，仅在必要时对结果进行缩放和量化。
`CUBLASLT_EPILOGUE_RELU = 2`	对结果应用逐点的ReLU变换 (`x := max(x, 0)`)。
`CUBLASLT_EPILOGUE_RELU_AUX = CUBLASLT_EPILOGUE_RELU \| 128`	对结果应用逐点ReLU变换(`x := max(x, 0)`)。此结尾模式会产生额外输出，请参阅cublasLtMatmulDescAttributes_t中的`CUBLASLT_MATMUL_DESC_EPILOGUE_AUX_POINTER`。
`CUBLASLT_EPILOGUE_BIAS = 4`	应用（广播）偏置向量中的偏置。偏置向量的长度必须与矩阵D的行数匹配，且必须为打包格式（例如向量元素之间的跨距为1）。偏置向量会被广播到所有列，并在应用最终后处理之前进行加法运算。
`CUBLASLT_EPILOGUE_RELU_BIAS = CUBLASLT_EPILOGUE_RELU = CUBLASLT_EPILOGUE_BIAS`	应用偏置后进行ReLU变换。
`CUBLASLT_EPILOGUE_RELU_AUX_BIAS = CUBLASLT_EPILOGUE_RELU_AUX = CUBLASLT_EPILOGUE_BIAS`	应用偏置后进行ReLU变换。此结尾模式会产生一个额外输出，请参阅cublasLtMatmulDescAttributes_t中的`CUBLASLT_MATMUL_DESC_EPILOGUE_AUX_POINTER`。
`CUBLASLT_EPILOGUE_DRELU = 8 \| 128`	对矩阵乘法输出应用ReLu梯度。将ReLu梯度存储在输出矩阵中。此结尾模式需要一个额外输入，请参阅cublasLtMatmulDescAttributes_t中的`CUBLASLT_MATMUL_DESC_EPILOGUE_AUX_POINTER`。
`CUBLASLT_EPILOGUE_DRELU_BGRAD = CUBLASLT_EPILOGUE_DRELU \| 16`	对矩阵乘法输出独立应用ReLu和偏置梯度。将ReLu梯度存储在输出矩阵中，偏置梯度存储在偏置缓冲区中（参见`CUBLASLT_MATMUL_DESC_BIAS_POINTER`）。此结尾模式需要一个额外输入，详见cublasLtMatmulDescAttributes_t中的`CUBLASLT_MATMUL_DESC_EPILOGUE_AUX_POINTER`。
`CUBLASLT_EPILOGUE_GELU = 32`	对结果逐点应用GELU变换 (`x := GELU(x)`)。
`CUBLASLT_EPILOGUE_GELU_AUX = CUBLASLT_EPILOGUE_GELU \| 128`	对结果应用逐点的GELU变换(`x := GELU(x)`)。此结尾模式将GELU输入作为单独的矩阵输出（对训练很有用）。请参阅cublasLtMatmulDescAttributes_t中的`CUBLASLT_MATMUL_DESC_EPILOGUE_AUX_POINTER`。
`CUBLASLT_EPILOGUE_GELU_BIAS = CUBLASLT_EPILOGUE_GELU = CUBLASLT_EPILOGUE_BIAS`	应用偏置后进行GELU变换 7。
`CUBLASLT_EPILOGUE_GELU_AUX_BIAS = CUBLASLT_EPILOGUE_GELU_AUX = CUBLASLT_EPILOGUE_BIAS`	应用偏置后进行GELU变换7。此结尾模式将GELU输入作为单独矩阵输出（对训练很有用）。请参阅cublasLtMatmulDescAttributes_t中的`CUBLASLT_MATMUL_DESC_EPILOGUE_AUX_POINTER`。
`CUBLASLT_EPILOGUE_DGELU = 64 \| 128`	对矩阵乘法输出应用GELU梯度。将GELU梯度存储在输出矩阵中。此结尾模式需要一个额外输入，请参阅cublasLtMatmulDescAttributes_t中的`CUBLASLT_MATMUL_DESC_EPILOGUE_AUX_POINTER`。
`CUBLASLT_EPILOGUE_DGELU_BGRAD = CUBLASLT_EPILOGUE_DGELU \| 16`	对矩阵乘法输出独立应用GELU和偏置梯度。将GELU梯度存储在输出矩阵中，偏置梯度存储在偏置缓冲区（参见`CUBLASLT_MATMUL_DESC_BIAS_POINTER`）。此结尾模式需要一个额外输入，详见cublasLtMatmulDescAttributes_t中的`CUBLASLT_MATMUL_DESC_EPILOGUE_AUX_POINTER`。
`CUBLASLT_EPILOGUE_BGRADA = 256`	将偏置梯度应用于输入矩阵A。偏置大小对应于矩阵D的行数。归约操作发生在GEMM的"k"维度上。将偏置梯度存储在偏置缓冲区中，参见cublasLtMatmulDescAttributes_t的`CUBLASLT_MATMUL_DESC_BIAS_POINTER`。
`CUBLASLT_EPILOGUE_BGRADB = 512`	将偏置梯度应用于输入矩阵B。偏置大小对应于矩阵D的列数。归约操作发生在GEMM的"k"维度上。将偏置梯度存储在偏置缓冲区中，请参阅cublasLtMatmulDescAttributes_t的`CUBLASLT_MATMUL_DESC_BIAS_POINTER`。

注意：

7(1,2): GELU（高斯误差线性单元）的近似公式为：${0.5}x\left( 1 + \text{tanh}\left( \sqrt{2/\pi}\left( x + {0.044715}x^{3} \right) \right) \right)$

注意

当任何矩阵的cublasLtBatchMode_t设置为CUBLASLT_BATCH_MODE_POINTER_ARRAY时，仅支持CUBLASLT_EPILOGUE_DEFAULT。

3.3.3. cublasLtHandle_t

cublasLtHandle_t类型是一个指向不透明结构的指针类型，该结构保存着cuBLASLt库的上下文。使用cublasLtCreate()来初始化cuBLASLt库上下文并返回一个指向保存cuBLASLt库上下文的不透明结构的句柄，使用cublasLtDestroy()来销毁先前创建的cuBLASLt库上下文描述符并释放资源。

注意

cuBLAS句柄(cublasHandle_t)封装了一个cuBLASLt句柄。任何有效的cublasHandle_t都可以通过简单类型转换替代cublasLtHandle_t使用。然而与cuBLAS句柄不同，cuBLASLt句柄不绑定任何特定的CUDA上下文（绑定到图形上下文的CUDA上下文除外，从CUDA 12.8开始）。如果当前CUDA上下文绑定到图形上下文时创建cuBLASLt句柄，那么cuBLASLt会检测相应的共享内存限制并将其记录在句柄中。

3.3.4. cublasLtLoggerCallback_t

cublasLtLoggerCallback_t 是一个回调函数指针类型。可以通过 cublasLtLoggerSetCallback() 来设置回调函数。

参数:

参数	输入/输出	描述
`logLevel`	输出	参见 cuBLASLt Logging。
`functionName`	输出	记录此消息的API名称。
`message`	输出	日志消息。

3.3.5. cublasLtMatmulAlgo_t

cublasLtMatmulAlgo_t 是一个不透明结构体，用于描述矩阵乘法算法。该结构体可以轻松序列化，并在后续与相同版本的cuBLAS库一起使用时恢复，以避免重复选择正确的配置。

3.3.6. cublasLtMatmulAlgoCapAttributes_t

cublasLtMatmulAlgoCapAttributes_t 枚举了矩阵乘法算法的能力属性，这些属性可以通过cublasLtMatmulAlgoCapGetAttribute()函数从已初始化的cublasLtMatmulAlgo_t描述符中获取。

值	描述	数据类型
`CUBLASLT_ALGO_CAP_SPLITK_SUPPORT`	支持split-K功能。布尔值（0或1）表示是否支持split-K实现。0表示不支持，其他值表示支持。请参阅cublasLtMatmulAlgoConfigAttributes_t中的`CUBLASLT_ALGO_CONFIG_SPLITK_NUM`。	`int32_t`
`CUBLASLT_ALGO_CAP_REDUCTION_SCHEME_MASK`	掩码用于表示支持的不同归约方案类型，参见cublasLtReductionScheme_t。如果归约方案未被掩码排除则表示支持该方案。例如：`int isReductionSchemeComputeTypeSupported ? (reductionSchemeMask & CUBLASLT_REDUCTION_SCHEME_COMPUTE_TYPE) == CUBLASLT_REDUCTION_SCHEME_COMPUTE_TYPE ? 1 : 0;`	`uint32_t`
`CUBLASLT_ALGO_CAP_CTA_SWIZZLING_SUPPORT`	支持CTA-swizzling功能。布尔值(0或1)用于表示是否支持CTA-swizzling实现。0表示不支持，1表示支持；其他值保留。另请参阅cublasLtMatmulAlgoConfigAttributes_t中的`CUBLASLT_ALGO_CONFIG_CTA_SWIZZLING`。	`uint32_t`
`CUBLASLT_ALGO_CAP_STRIDED_BATCH_SUPPORT`	支持跨步批处理。0表示不支持，其他值表示支持。	`int32_t`
`CUBLASLT_ALGO_CAP_POINTER_ARRAY_BATCH_SUPPORT`	支持指针数组批量处理。0表示不支持，其他值表示支持。	`int32_t`
`CUBLASLT_ALGO_CAP_OUT_OF_PLACE_RESULT_SUPPORT`	支持结果位置不匹配（在D = alpha.A.B + beta.C公式中D不等于C）。0表示不支持，其他值表示支持。	`int32_t`
`CUBLASLT_ALGO_CAP_UPLO_SUPPORT`	Syrk（对称秩k更新）/herk（厄米特秩k更新）支持（基于常规gemm）。0表示不支持，其他值表示支持。	`int32_t`
`CUBLASLT_ALGO_CAP_TILE_IDS`	可使用的瓦片ID。参见cublasLtMatmulTile_t。如果不支持任何瓦片ID，则使用`CUBLASLT_MATMUL_TILE_UNDEFINED`。使用cublasLtMatmulAlgoCapGetAttribute()并设置`sizeInBytes = 0`来查询实际数量。	`uint32_t[]`
`CUBLASLT_ALGO_CAP_STAGES_IDS`	可使用的阶段ID。参见cublasLtMatmulStages_t。如果不支持任何阶段ID，则使用`CUBLASLT_MATMUL_STAGES_UNDEFINED`。使用cublasLtMatmulAlgoCapGetAttribute()并设置`sizeInBytes = 0`来查询实际数量。	`uint32_t[]`
`CUBLASLT_ALGO_CAP_CUSTOM_OPTION_MAX`	自定义选项的范围是从0到`CUBLASLT_ALGO_CAP_CUSTOM_OPTION_MAX`（包含边界值）。请参阅cublasLtMatmulAlgoConfigAttributes_t中的`CUBLASLT_ALGO_CONFIG_CUSTOM_OPTION`。	`int32_t`
`CUBLASLT_ALGO_CAP_MATHMODE_IMPL`	指示算法是使用常规计算还是张量运算。0表示常规计算，1表示张量运算。已弃用	`int32_t`
`CUBLASLT_ALGO_CAP_GAUSSIAN_IMPL`	指示该算法是否实现了复数矩阵乘法的高斯优化。0表示常规计算；1表示高斯优化。参见cublasMath_t。已弃用	`int32_t`
`CUBLASLT_ALGO_CAP_CUSTOM_MEMORY_ORDER`	指示算法是否支持自定义（非COL或ROW内存顺序）。0表示仅允许COL和ROW内存顺序，非零值表示算法可能有不同要求。详见cublasLtOrder_t。	`int32_t`
`CUBLASLT_ALGO_CAP_POINTER_MODE_MASK`	位掩码枚举算法支持的指针模式。参见 cublasLtPointerModeMask_t。	`uint32_t`
`CUBLASLT_ALGO_CAP_EPILOGUE_MASK`	位掩码枚举了在结尾部分支持的后处理算法类型。参见 cublasLtEpilogue_t。	`uint32_t`
`CUBLASLT_ALGO_CAP_LD_NEGATIVE`	支持所有矩阵的负前导维度。0表示不支持，其他值表示支持。	`uint32_t`
`CUBLASLT_ALGO_CAP_NUMERICAL_IMPL_FLAGS`	影响算法数值行为的实现细节。请参阅cublasLtNumericalImplFlags_t。	`uint64_t`
`CUBLASLT_ALGO_CAP_MIN_ALIGNMENT_A_BYTES`	A矩阵所需的最小对齐字节数。	`uint32_t`
`CUBLASLT_ALGO_CAP_MIN_ALIGNMENT_B_BYTES`	B矩阵所需的最小对齐字节数。	`uint32_t`
`CUBLASLT_ALGO_CAP_MIN_ALIGNMENT_C_BYTES`	C矩阵所需的最小对齐字节数。	`uint32_t`
`CUBLASLT_ALGO_CAP_MIN_ALIGNMENT_D_BYTES`	D矩阵所需的最小对齐字节数。	`uint32_t`
`CUBLASLT_ALGO_CAP_ATOMIC_SYNC`	支持通过原子计数器进行同步。参见原子同步。	`int32_t`
`CUBLASLT_ALGO_CAP_FLOATING_POINT_EMULATION_SUPPORT`	支持浮点运算模拟。参见Floating Point Emulation。	`int32_t`

3.3.7. cublasLtMatmulAlgoConfigAttributes_t

cublasLtMatmulAlgoConfigAttributes_t 是一个枚举类型，包含用于cuBLASLt矩阵乘法算法的配置属性。这些配置属性是算法特定的，并且可以设置。给定算法的属性配置应与其能力属性保持一致。使用cublasLtMatmulAlgoConfigGetAttribute()和cublasLtMatmulAlgoConfigSetAttribute()来获取和设置矩阵乘法算法描述符的属性值。

值	描述	数据类型
`CUBLASLT_ALGO_CONFIG_ID`	只读属性。算法索引。参见cublasLtMatmulAlgoGetIds()。由cublasLtMatmulAlgoInit()设置。	`int32_t`
`CUBLASLT_ALGO_CONFIG_TILE_ID`	瓦片ID。参见cublasLtMatmulTile_t。默认值：`CUBLASLT_MATMUL_TILE_UNDEFINED`。	`uint32_t`
`CUBLASLT_ALGO_CONFIG_STAGES_ID`	阶段ID，参见cublasLtMatmulStages_t。默认值：`CUBLASLT_MATMUL_STAGES_UNDEFINED`。	`uint32_t`
`CUBLASLT_ALGO_CONFIG_SPLITK_NUM`	K分割的数量。如果K分割的数量大于1，矩阵乘法的SPLITK_NUM部分将被并行计算。结果将根据`CUBLASLT_ALGO_CONFIG_REDUCTION_SCHEME`进行累积。	`uint32_t`
`CUBLASLT_ALGO_CONFIG_REDUCTION_SCHEME`	当splitK值大于1时使用的归约方案。默认值：`CUBLASLT_REDUCTION_SCHEME_NONE`。参见cublasLtReductionScheme_t。	`uint32_t`
`CUBLASLT_ALGO_CONFIG_CTA_SWIZZLING`	启用/禁用CTA交织。更改从CUDA网格坐标到矩阵部分的映射。可能的值：0和1；其他值保留。	`uint32_t`
`CUBLASLT_ALGO_CONFIG_CUSTOM_OPTION`	自定义选项值。每种算法可以支持一些不适合其他配置属性描述的自定义选项。具体情况下可接受的范围请参见cublasLtMatmulAlgoCapAttributes_t中的`CUBLASLT_ALGO_CAP_CUSTOM_OPTION_MAX`。	`uint32_t`
`CUBLASLT_ALGO_CONFIG_INNER_SHAPE_ID`	内部形状ID。参考`cublasLtMatmulInnerShape_t。` 默认值：`CUBLASLT_MATMUL_INNER_SHAPE_UNDEFINED`。	`uint16_t`
`CUBLASLT_ALGO_CONFIG_CLUSTER_SHAPE_ID`	集群形状ID。参考`cublasLtClusterShape_t。` 默认值：`CUBLASLT_CLUSTER_SHAPE_AUTO`。	`uint16_t`

3.3.8. cublasLtMatmulDesc_t

cublasLtMatmulDesc_t 是一个指向不透明结构的指针，该结构保存了矩阵乘法运算 cublasLtMatmul() 的描述信息。可以通过调用 cublasLtMatmulDescCreate() 创建描述符，并通过调用 cublasLtMatmulDescDestroy() 销毁描述符。

3.3.9. cublasLtMatmulDescAttributes_t

cublasLtMatmulDescAttributes_t 是一个描述符结构体，包含定义矩阵乘法操作具体细节的属性。使用 cublasLtMatmulDescGetAttribute() 和 cublasLtMatmulDescSetAttribute() 可以获取和设置矩阵乘法描述符的属性值。

值	描述	数据类型
`CUBLASLT_MATMUL_DESC_COMPUTE_TYPE`	计算类型。定义用于乘加运算的数据类型，以及矩阵乘法期间的累加器。参见cublasComputeType_t。	`int32_t`
`CUBLASLT_MATMUL_DESC_SCALE_TYPE`	缩放类型。定义缩放因子`alpha`和`beta`的数据类型。累加器值和矩阵`C`中的值通常在最终缩放前转换为缩放类型。该值随后会从缩放类型转换为矩阵`D`的类型，再存储到内存中。默认值取决于`CUBLASLT_MATMUL_DESC_COMPUTE_TYPE`。参见cudaDataType_t。	`int32_t`
`CUBLASLT_MATMUL_DESC_POINTER_MODE`	指定`alpha`和`beta`通过引用传递，无论它们是主机上的标量还是设备上的标量，或是设备向量。默认值为：`CUBLASLT_POINTER_MODE_HOST`（即在主机上）。参见cublasLtPointerMode_t。	`int32_t`
`CUBLASLT_MATMUL_DESC_TRANSA`	指定应对矩阵A执行的变换操作类型。默认值为：`CUBLAS_OP_N`（即非转置操作）。参见cublasOperation_t。	`int32_t`
`CUBLASLT_MATMUL_DESC_TRANSB`	指定应对矩阵B执行的变换操作类型。默认值为：`CUBLAS_OP_N`（即非转置操作）。参见cublasOperation_t。	`int32_t`
`CUBLASLT_MATMUL_DESC_TRANSC`	指定应对矩阵C执行的变换操作类型。目前仅支持`CUBLAS_OP_N`。默认值为：`CUBLAS_OP_N`（即非转置操作）。参见cublasOperation_t。	`int32_t`
`CUBLASLT_MATMUL_DESC_FILL_MODE`	指示密集矩阵的下部或上部是否已填充，因此应由函数使用。目前此标志不支持bfloat16或FP8数据类型，也不支持以下GPU：Hopper、Blackwell。默认值为：`CUBLAS_FILL_MODE_FULL`。参见cublasFillMode_t。	`int32_t`
`CUBLASLT_MATMUL_DESC_EPILOGUE`	收尾函数。参见 cublasLtEpilogue_t。默认值为：`CUBLASLT_EPILOGUE_DEFAULT`。	`uint32_t`
`CUBLASLT_MATMUL_DESC_BIAS_POINTER`	设备内存中的偏置或偏置梯度向量指针。当使用以下任一结尾操作时，输入向量的长度需与矩阵D的行数匹配：`CUBLASLT_EPILOGUE_BIAS`、`CUBLASLT_EPILOGUE_RELU_BIAS`、`CUBLASLT_EPILOGUE_RELU_AUX_BIAS`、`CUBLASLT_EPILOGUE_GELU_BIAS`、`CUBLASLT_EPILOGUE_GELU_AUX_BIAS`。当使用以下任一结尾操作时，输出向量的长度需与矩阵D的行数匹配：`CUBLASLT_EPILOGUE_DRELU_BGRAD`、`CUBLASLT_EPILOGUE_DGELU_BGRAD`、`CUBLASLT_EPILOGUE_BGRADA`。当使用以下任一结尾时，输出向量的长度需与矩阵D的列数匹配：`CUBLASLT_EPILOGUE_BGRADB`。当矩阵D的数据类型为`CUDA_R_8I`时，偏置向量元素与`alpha`和`beta`类型相同（参见本表中的`CUBLASLT_MATMUL_DESC_SCALE_TYPE`），否则与矩阵D的数据类型相同。详细映射关系请参阅cublasLtMatmul()下的数据类型表。默认值为：NULL。	`void ` / `const void `
`CUBLASLT_MATMUL_DESC_BIAS_BATCH_STRIDE`	在跨步批量操作中，到下一个偏置或偏置梯度向量的步长（以元素为单位）。默认值为0。	`int64_t`
`CUBLASLT_MATMUL_DESC_EPILOGUE_AUX_POINTER`	指向尾声辅助缓冲区的指针。当使用`CUBLASLT_EPILOGUE_RELU_AUX`或`CUBLASLT_EPILOGUE_RELU_AUX_BIAS`收尾操作时，前向传播中ReLU位掩码的输出向量。当使用`CUBLASLT_EPILOGUE_DRELU`或`CUBLASLT_EPILOGUE_DRELU_BGRAD`后置处理时，反向传播中ReLu位掩码的输入向量。当使用`CUBLASLT_EPILOGUE_GELU_AUX_BIAS`收尾操作时，前向传播中GELU输入矩阵的输出。当使用`CUBLASLT_EPILOGUE_DGELU`或`CUBLASLT_EPILOGUE_DGELU_BGRAD`收尾操作时，用于反向传播的GELU输入矩阵。关于辅助数据类型，请参阅`CUBLASLT_MATMUL_DESC_EPILOGUE_AUX_DATA_TYPE`。不对此指针进行解引用的例程（如cublasLtMatmulAlgoGetHeuristic()）依赖其值来确定预期的指针对齐方式。需要设置`CUBLASLT_MATMUL_DESC_EPILOGUE_AUX_LD`属性。	`void ` / `const void `
`CUBLASLT_MATMUL_DESC_EPILOGUE_AUX_LD`	epilogue辅助缓冲区的前导维度。当使用`CUBLASLT_EPILOGUE_RELU_AUX`、`CUBLASLT_EPILOGUE_RELU_AUX_BIAS`、`CUBLASLT_EPILOGUE_DRELU_BGRAD`或`CUBLASLT_EPILOGUE_DRELU_BGRAD`结尾操作时，ReLu位掩码矩阵的主维度以元素(即比特)为单位。必须能被128整除且不小于输出矩阵的行数。当使用`CUBLASLT_EPILOGUE_GELU_AUX_BIAS`、`CUBLASLT_EPILOGUE_DGELU`或`CUBLASLT_EPILOGUE_DGELU_BGRAD`收尾操作时，GELU输入矩阵的主维度（以元素为单位）。必须能被8整除且不小于输出矩阵的行数。	`int64_t`
`CUBLASLT_MATMUL_DESC_EPILOGUE_AUX_BATCH_STRIDE`	用于尾声辅助缓冲区的批量步长。当使用`CUBLASLT_EPILOGUE_RELU_AUX`、`CUBLASLT_EPILOGUE_RELU_AUX_BIAS`或`CUBLASLT_EPILOGUE_DRELU_BGRAD`收尾操作时，ReLU位掩码矩阵的批量步长（以元素为单位，即比特位）。该值必须能被128整除。当使用`CUBLASLT_EPILOGUE_GELU_AUX_BIAS`、`CUBLASLT_EPILOGUE_DRELU`或`CUBLASLT_EPILOGUE_DGELU_BGRAD`收尾操作时，GELU输入矩阵的批次步长（以元素为单位）。必须能被8整除。默认值: 0.	`int64_t`
`CUBLASLT_MATMUL_DESC_ALPHA_VECTOR_BATCH_STRIDE`	Alpha向量的批次步长。当矩阵D的`CUBLASLT_MATRIX_LAYOUT_BATCH_COUNT`大于1时，需与`CUBLASLT_POINTER_MODE_ALPHA_DEVICE_VECTOR_BETA_HOST`配合使用。若设置了`CUBLASLT_POINTER_MODE_ALPHA_DEVICE_VECTOR_BETA_ZERO`，则必须将`CUBLASLT_MATMUL_DESC_ALPHA_VECTOR_BATCH_STRIDE`设为0，因为此模式不支持批处理Alpha向量。若任何矩阵的cublasLtBatchMode_t设为CUBLASLT_BATCH_MODE_POINTER_ARRAY，则必须将`CUBLASLT_MATMUL_DESC_ALPHA_VECTOR_BATCH_STRIDE`设为0。默认值：0。	`int64_t`
`CUBLASLT_MATMUL_DESC_SM_COUNT_TARGET`	用于并行执行的目标SM数量。当用户预期并发流会占用部分设备资源时，可针对不同SM数量优化执行启发式算法。默认值：0。	`int32_t`
`CUBLASLT_MATMUL_DESC_A_SCALE_POINTER`	指向比例因子值的设备指针，该比例因子用于将矩阵A中的数据转换为计算数据类型范围。比例因子的类型必须与计算类型相同。如果未指定或设置为NULL，则假定比例因子为1。如果为不支持的矩阵数据、比例因子和计算类型组合设置此值，调用cublasLtMatmul()将返回`CUBLAS_INVALID_VALUE`。默认值：NULL	`const void *`
`CUBLASLT_MATMUL_DESC_B_SCALE_POINTER`	等同于矩阵B的`CUBLASLT_MATMUL_DESC_A_SCALE_POINTER`。默认值：NULL	`const void *`
`CUBLASLT_MATMUL_DESC_C_SCALE_POINTER`	等同于矩阵C的`CUBLASLT_MATMUL_DESC_A_SCALE_POINTER`。默认值：NULL	`const void *`
`CUBLASLT_MATMUL_DESC_D_SCALE_POINTER`	等同于矩阵D的`CUBLASLT_MATMUL_DESC_A_SCALE_POINTER`。默认值：NULL	`const void *`
`CUBLASLT_MATMUL_DESC_AMAX_D_POINTER`	指向内存位置的设备指针，完成后将被设置为输出矩阵中的绝对值的最大值。计算值的类型与计算类型相同。如果未指定或设置为NULL，则不计算最大绝对值。如果为不支持的矩阵数据、缩放比例和计算类型组合设置此参数，调用cublasLtMatmul()将返回`CUBLAS_INVALID_VALUE`。默认值：NULL	`void *`
`CUBLASLT_MATMUL_DESC_EPILOGUE_AUX_DATA_TYPE`	将存储在`CUBLASLT_MATMUL_DESC_EPILOGUE_AUX_POINTER`中的数据类型。如果未设置（或设置为默认值-1），则数据类型将设置为输出矩阵元素数据类型（DType），但存在一些例外情况： ReLu使用位掩码。对于输出类型(DType)为`CUDA_R_8F_E4M3`的FP8内核，在以下情况下可以将数据类型设置为非默认值： AType和BType是`CUDA_R_8F_E4M3`。偏置类型为 `CUDA_R_16F`。 CType 是 `CUDA_R_16BF` 或 `CUDA_R_16F` `CUBLASLT_MATMUL_DESC_EPILOGUE` 设置为 `CUBLASLT_EPILOGUE_GELU_AUX` 当CType为`CUDA_R_16F`时，数据类型可设置为`CUDA_R_16F`或`CUDA_R_8F_E4M3`。当CType为`CUDA_R_16BF`时，数据类型可设置为`CUDA_R_16BF`。否则，数据类型应保持未设置或设为默认值-1。如果为不支持的矩阵数据、比例和计算类型组合设置此参数，调用cublasLtMatmul()将返回`CUBLAS_INVALID_VALUE`。默认值：-1	`int32_t` (cudaDataType_t)
`CUBLASLT_MATMUL_DESC_EPILOGUE_AUX_SCALE_POINTER`	指向缩放因子值的设备指针，用于将通过`CUBLASLT_MATMUL_DESC_EPILOGUE_AUX_POINTER`设置的辅助矩阵中的计算结果从计算类型数据范围转换为存储数据范围。缩放因子值必须与计算类型具有相同的数据类型。如果未指定或设置为NULL，则假定缩放因子为1。如果为不支持的矩阵数据、缩放比例和计算类型组合设置此值，调用cublasLtMatmul()将返回`CUBLAS_INVALID_VALUE`。默认值：NULL	`void *`
`CUBLASLT_MATMUL_DESC_EPILOGUE_AUX_AMAX_POINTER`	指向内存位置的设备指针，完成后将被设置为通过`CUBLASLT_MATMUL_DESC_EPILOGUE_AUX_POINTER`设置的缓冲区中绝对值的最大值。计算值的类型与计算类型相同。如果未指定或设置为NULL，则不计算最大绝对值。如果为不支持的矩阵数据、缩放比例和计算类型组合设置此值，调用cublasLtMatmul()将返回CUBLAS_INVALID_VALUE。默认值：NULL	`void *`
`CUBLASLT_MATMUL_DESC_FAST_ACCUM`	用于管理FP8快速累加模式的标志。启用时，在某些GPU上问题执行速度可能更快，但代价是精度降低，因为中间结果不会定期提升到更高精度。目前此标志对以下GPU有效：Ada、Hopper。默认值：0 - 快速累加模式已禁用	`int8_t`
`CUBLASLT_MATMUL_DESC_BIAS_DATA_TYPE`	设备内存中偏置或偏置梯度向量的类型。偏置情况：参见`CUBLASLT_EPILOGUE_BIAS`。如果未设置（或设置为默认值-1），则偏置向量元素与输出矩阵（Dtype）元素类型相同，但以下情况例外：使用computeType=`CUDA_R_32I`和`Ctype=CUDA_R_8I`的IMMA内核，其中偏置向量元素与alpha、beta类型相同(`CUBLASLT_MATMUL_DESC_SCALE_TYPE=CUDA_R_32F`) 对于输出类型为`CUDA_R_32F`、`CUDA_R_8F_E4M3`或`CUDA_R_8F_E5M2`的FP8内核。更多详情请参阅cublasLtMatmul()。默认值: -1	`int32_t` (cudaDataType_t)
`CUBLASLT_MATMUL_DESC_ATOMIC_SYNC_IN_COUNTERS_POINTER`	指向由矩阵乘法消耗的输入原子计数器设备数组的指针。当计数器归零时，允许开始计算输出张量的相应块。默认值：NULL。参见原子同步。	`int32_t *`
`CUBLASLT_MATMUL_DESC_ATOMIC_SYNC_OUT_COUNTERS_POINTER`	指向由矩阵乘法生成的输出原子计数器设备数组的指针。当输出张量对应块的计算完成时，矩阵乘法内核会将计数器置零。在运行矩阵乘法内核前，所有计数器必须初始化为1。默认值：NULL。参见原子操作同步。	`int32_t *`
`CUBLASLT_MATMUL_DESC_ATOMIC_SYNC_NUM_CHUNKS_D_ROWS` [已弃用]	此模式已弃用，将在未来版本中移除。输出矩阵D行维度中的原子同步块数量。每个块对应一个原子计数器。默认值：0（禁用原子同步）。参见Atomics Synchronization。	`int32_t`
`CUBLASLT_MATMUL_DESC_ATOMIC_SYNC_NUM_CHUNKS_D_COLS` [已弃用]	此模式已弃用，将在未来版本中移除。输出矩阵D列维度中的原子同步块数量。每个块对应一个原子计数器。默认值：0（禁用原子同步）。参见Atomics Synchronization。	`int32_t`
`CUBLASLT_MATMUL_DESC_A_SCALE_MODE`	定义如何解释矩阵A的矩阵缩放因子的缩放模式。默认值：0。参见cublasLtMatmulMatrixScale_t。	`int32_t`
`CUBLASLT_MATMUL_DESC_B_SCALE_MODE`	定义如何解释矩阵B的矩阵缩放因子的缩放模式。默认值：0。参见cublasLtMatmulMatrixScale_t。	`int32_t`
`CUBLASLT_MATMUL_DESC_C_SCALE_MODE`	定义如何解释矩阵C的矩阵缩放因子的缩放模式。默认值：0。参见cublasLtMatmulMatrixScale_t。	`int32_t`
`CUBLASLT_MATMUL_DESC_D_SCALE_MODE`	定义如何解释矩阵D的矩阵缩放因子的缩放模式。默认值：0。参见cublasLtMatmulMatrixScale_t。	`int32_t`
`CUBLASLT_MATMUL_DESC_EPILOGUE_AUX_SCALE_MODE`	定义如何解释辅助矩阵的矩阵缩放因子的缩放模式。默认值：0。参见cublasLtMatmulMatrixScale_t。	`int32_t`
`CUBLASLT_MATMUL_DESC_D_OUT_SCALE_POINTER`	指向比例因子的设备指针，这些比例因子用于将矩阵D中的数据转换为计算数据类型范围。比例因子值类型由比例模式定义（参见`CUBLASLT_MATMUL_DESC_D_OUT_SCALE_MODE`）。如果为不支持的矩阵数据、比例、比例模式和计算类型组合设置此参数，或在支持的组合中缺失此参数，则调用cublasLtMatmul()将返回`CUBLAS_INVALID_VALUE`。默认值：NULL。	`void *`
`CUBLASLT_MATMUL_DESC_D_OUT_SCALE_MODE`	定义如何解释矩阵D的输出矩阵缩放因子的缩放模式。默认值：0。参见cublasLtMatmulMatrixScale_t。	`int32_t`

3.3.10. cublasLtMatmulHeuristicResult_t

cublasLtMatmulHeuristicResult_t 是一个描述符，用于保存已配置的矩阵乘法算法描述符及其运行时属性。

成员	描述
cublasLtMatmulAlgo_t algo	如果偏好设置CUBLASLT_MATMUL_PERF_SEARCH_MODE为CUBLASLT_SEARCH_LIMITED_BY_ALGO_ID，则必须使用cublasLtMatmulAlgoInit()进行初始化。详见cublasLtMatmulSearch_t。
`size_t` workspaceSize;	所需工作区内存的实际大小。
cublasStatus_t state;	结果状态。只有在调用cublasLtMatmulAlgoGetHeuristic()后，当此成员被设置为CUBLAS_STATUS_SUCCESS时，其他字段才有效。
`float` wavesCount;	波次计数(Waves count)是一种设备利用率指标。`wavesCount`值为1.0f表示当内核启动时，它将完全占用GPU。
`int` reserved[4];	保留。

3.3.11. cublasLtMatmulInnerShape_t

cublasLtMatmulInnerShape_t 是一个枚举类型，用于配置内部内核设计的各个方面。这不会影响CUDA网格大小。

值	描述
`CUBLASLT_MATMUL_INNER_SHAPE_UNDEFINED`	内部形状未定义。
`CUBLASLT_MATMUL_INNER_SHAPE_MMA884`	内部形状为MMA884。
`CUBLASLT_MATMUL_INNER_SHAPE_MMA1684`	内部形状为MMA1684。
`CUBLASLT_MATMUL_INNER_SHAPE_MMA1688`	内部形状为MMA1688。
`CUBLASLT_MATMUL_INNER_SHAPE_MMA16816`	内部形状为MMA16816。

3.3.12. cublasLtMatmulPreference_t

cublasLtMatmulPreference_t 是一个指向不透明结构的指针，该结构保存了cublasLtMatmulAlgoGetHeuristic()配置的偏好设置描述。使用cublasLtMatmulPreferenceCreate()创建描述符实例，使用cublasLtMatmulPreferenceDestroy()销毁先前创建的描述符并释放资源。

3.3.13. cublasLtMatmulPreferenceAttributes_t

cublasLtMatmulPreferenceAttributes_t 是一个枚举类型，用于在微调启发式函数时应用算法搜索偏好。使用 cublasLtMatmulPreferenceGetAttribute() 和 cublasLtMatmulPreferenceSetAttribute() 来获取和设置矩阵乘法偏好描述符的属性值。

值	描述	数据类型
`CUBLASLT_MATMUL_PREF_SEARCH_MODE`	搜索模式。参见 cublasLtMatmulSearch_t。默认为 `CUBLASLT_SEARCH_BEST_FIT`。	`uint32_t`
`CUBLASLT_MATMUL_PREF_MAX_WORKSPACE_BYTES`	允许的最大工作区内存。默认值为0（不允许使用工作区内存）。	`uint64_t`
`CUBLASLT_MATMUL_PREF_REDUCTION_SCHEME_MASK`	归约方案掩码。参见cublasLtReductionScheme_t。仅允许指定`CUBLASLT_ALGO_CONFIG_REDUCTION_SCHEME`且未被此属性屏蔽的算法配置。例如，掩码值为0x03时仅允许`INPLACE`和`COMPUTE_TYPE`归约方案。默认值为`CUBLASLT_REDUCTION_SCHEME_MASK`（即允许所有归约方案）。	`uint32_t`
`CUBLASLT_MATMUL_PREF_MIN_ALIGNMENT_A_BYTES`	矩阵A的最小缓冲区对齐（以字节为单位）。选择较小的值将排除无法处理矩阵A的算法，因为矩阵A的对齐方式不如算法要求的严格。默认值为256字节。	`uint32_t`
`CUBLASLT_MATMUL_PREF_MIN_ALIGNMENT_B_BYTES`	矩阵B的最小缓冲区对齐（以字节为单位）。选择较小的值将排除那些无法处理矩阵B的算法，因为这些算法对矩阵B的对齐要求不如算法本身严格。默认值为256字节。	`uint32_t`
`CUBLASLT_MATMUL_PREF_MIN_ALIGNMENT_C_BYTES`	矩阵C的最小缓冲区对齐（以字节为单位）。选择较小的值将排除那些无法处理矩阵C的算法，因为这些算法对矩阵C的对齐要求更为严格。默认值为256字节。	`uint32_t`
`CUBLASLT_MATMUL_PREF_MIN_ALIGNMENT_D_BYTES`	矩阵D的最小缓冲区对齐（以字节为单位）。选择较小的值将排除那些无法处理矩阵D的算法，因为这些算法对矩阵D的对齐要求更为严格。默认值为256字节。	`uint32_t`
`CUBLASLT_MATMUL_PREF_MAX_WAVES_COUNT`	最大波次数。参见cublasLtMatmulHeuristicResult_t`::wavesCount.` 选择非零值将排除报告设备利用率高于指定值的算法。默认值为`0.0f.`	`float`
`CUBLASLT_MATMUL_PREF_IMPL_MASK`	数值实现细节掩码。参见cublasLtNumericalImplFlags_t。过滤启发式结果，仅包含使用允许实现的算法。默认值：uint64_t(-1)（允许所有内容）	`uint64_t`

3.3.14. cublasLtMatmulSearch_t

cublasLtMatmulSearch_t 是一个枚举类型，包含启发式搜索类型的属性。

值	描述	数据类型
`CUBLASLT_SEARCH_BEST_FIT`	根据给定用例请求最佳算法的启发式方法。
`CUBLASLT_SEARCH_LIMITED_BY_ALGO_ID`	仅针对预配置算法ID请求启发式规则。

3.3.15. cublasLtMatmulTile_t

cublasLtMatmulTile_t 是一个枚举类型，用于设置行数 x 列数形式的矩阵分块尺寸。另请参阅CUTLASS: Fast Linear Algebra in CUDA C++。

值	描述
`CUBLASLT_MATMUL_TILE_UNDEFINED`	瓦片大小未定义。
`CUBLASLT_MATMUL_TILE_8x8`	瓦片大小为8行x8列。
`CUBLASLT_MATMUL_TILE_8x16`	瓦片大小为8行x16列。
`CUBLASLT_MATMUL_TILE_16x8`	瓦片大小为16行 x 8列。
`CUBLASLT_MATMUL_TILE_8x32`	瓦片大小为8行 x 32列。
`CUBLASLT_MATMUL_TILE_16x16`	瓦片大小为16行 x 16列。
`CUBLASLT_MATMUL_TILE_32x8`	瓦片大小为32行 x 8列。
`CUBLASLT_MATMUL_TILE_8x64`	瓦片大小为8行x64列。
`CUBLASLT_MATMUL_TILE_16x32`	瓦片大小为16行 x 32列。
`CUBLASLT_MATMUL_TILE_32x16`	瓦片大小为32行 x 16列。
`CUBLASLT_MATMUL_TILE_64x8`	瓦片大小为64行 x 8列。
`CUBLASLT_MATMUL_TILE_32x32`	瓦片大小为32行 x 32列。
`CUBLASLT_MATMUL_TILE_32x64`	瓦片大小为32行x64列。
`CUBLASLT_MATMUL_TILE_64x32`	瓦片大小为64行 x 32列。
`CUBLASLT_MATMUL_TILE_32x128`	瓦片大小为32行 x 128列。
`CUBLASLT_MATMUL_TILE_64x64`	瓦片大小为64行x64列。
`CUBLASLT_MATMUL_TILE_128x32`	瓦片大小为128行 x 32列。
`CUBLASLT_MATMUL_TILE_64x128`	瓦片大小为64行 x 128列。
`CUBLASLT_MATMUL_TILE_128x64`	瓦片大小为128行 x 64列。
`CUBLASLT_MATMUL_TILE_64x256`	瓦片大小为64行 x 256列。
`CUBLASLT_MATMUL_TILE_128x128`	瓦片大小为128行 x 128列。
`CUBLASLT_MATMUL_TILE_256x64`	瓦片大小为256行 x 64列。
`CUBLASLT_MATMUL_TILE_64x512`	分块大小为64行 x 512列。
`CUBLASLT_MATMUL_TILE_128x256`	区块大小为128行 x 256列。
`CUBLASLT_MATMUL_TILE_256x128`	区块大小为256行 x 128列。
`CUBLASLT_MATMUL_TILE_512x64`	区块大小为512行 x 64列。
`CUBLASLT_MATMUL_TILE_64x96`	瓦片大小为64行 x 96列。
`CUBLASLT_MATMUL_TILE_96x64`	瓦片大小为96行 x 64列。
`CUBLASLT_MATMUL_TILE_96x128`	瓦片大小为96行 x 128列。
`CUBLASLT_MATMUL_TILE_128x160`	分块大小为128行 x 160列。
`CUBLASLT_MATMUL_TILE_160x128`	区块大小为160行 x 128列。
`CUBLASLT_MATMUL_TILE_192x128`	瓦片大小为192行 x 128列。
`CUBLASLT_MATMUL_TILE_128x192`	瓦片大小为128行 x 192列。
`CUBLASLT_MATMUL_TILE_128x96`	瓦片大小为128行 x 96列。

3.3.16. cublasLtMatmulStages_t

cublasLtMatmulStages_t 是一个枚举类型，用于配置暂存输入元素的共享内存缓冲区的大小和数量。暂存缓冲区的数量决定了内核流水线的深度。

值	描述
`CUBLASLT_MATMUL_STAGES_UNDEFINED`	阶段大小未定义。
`CUBLASLT_MATMUL_STAGES_16x1`	阶段大小为16，阶段数量为1。
`CUBLASLT_MATMUL_STAGES_16x2`	阶段大小为16，阶段数量为2。
`CUBLASLT_MATMUL_STAGES_16x3`	阶段大小为16，阶段数量为3。
`CUBLASLT_MATMUL_STAGES_16x4`	阶段大小为16，阶段数量为4。
`CUBLASLT_MATMUL_STAGES_16x5`	阶段大小为16，阶段数量为5。
`CUBLASLT_MATMUL_STAGES_16x6`	阶段大小为16，阶段数量为6。
`CUBLASLT_MATMUL_STAGES_32x1`	阶段大小为32，阶段数量为1。
`CUBLASLT_MATMUL_STAGES_32x2`	阶段大小为32，阶段数量为2。
`CUBLASLT_MATMUL_STAGES_32x3`	阶段大小为32，阶段数量为3。
`CUBLASLT_MATMUL_STAGES_32x4`	阶段大小为32，阶段数量为4。
`CUBLASLT_MATMUL_STAGES_32x5`	阶段大小为32，阶段数量为5。
`CUBLASLT_MATMUL_STAGES_32x6`	阶段大小为32，阶段数量为6。
`CUBLASLT_MATMUL_STAGES_64x1`	阶段大小为64，阶段数量为1。
`CUBLASLT_MATMUL_STAGES_64x2`	阶段大小为64，阶段数量为2。
`CUBLASLT_MATMUL_STAGES_64x3`	阶段大小为64，阶段数量为3。
`CUBLASLT_MATMUL_STAGES_64x4`	阶段大小为64，阶段数量为4。
`CUBLASLT_MATMUL_STAGES_64x5`	阶段大小为64，阶段数量为5。
`CUBLASLT_MATMUL_STAGES_64x6`	阶段大小为64，阶段数量为6。
`CUBLASLT_MATMUL_STAGES_128x1`	阶段大小为128，阶段数量为1。
`CUBLASLT_MATMUL_STAGES_128x2`	阶段大小为128，阶段数量为2。
`CUBLASLT_MATMUL_STAGES_128x3`	阶段大小为128，阶段数量为3。
`CUBLASLT_MATMUL_STAGES_128x4`	阶段大小为128，阶段数量为4。
`CUBLASLT_MATMUL_STAGES_128x5`	阶段大小为128，阶段数量为5。
`CUBLASLT_MATMUL_STAGES_128x6`	阶段大小为128，阶段数量为6。
`CUBLASLT_MATMUL_STAGES_32x10`	阶段大小为32，阶段数量为10。
`CUBLASLT_MATMUL_STAGES_8x4`	阶段大小为8，阶段数量为4。
`CUBLASLT_MATMUL_STAGES_16x10`	阶段大小为16，阶段数量为10。
`CUBLASLT_MATMUL_STAGES_8x5`	阶段大小为8，阶段数量为5。
`CUBLASLT_MATMUL_STAGES_8x3`	阶段大小为8，阶段数量为3。
`CUBLASLT_MATMUL_STAGES_8xAUTO`	阶段大小为8，阶段数量自动选择。
`CUBLASLT_MATMUL_STAGES_16xAUTO`	阶段大小为16，阶段数量自动选择。
`CUBLASLT_MATMUL_STAGES_32xAUTO`	阶段大小为32，阶段数量自动选择。
`CUBLASLT_MATMUL_STAGES_64xAUTO`	阶段大小为64，阶段数量自动选择。
`CUBLASLT_MATMUL_STAGES_128xAUTO`	阶段大小为128，阶段数量自动选择。
`CUBLASLT_MATMUL_STAGES_256xAUTO`	阶段大小为256，阶段数量自动选择。

3.3.17. cublasLtNumericalImplFlags_t

cublasLtNumericalImplFlags_t: 一组位标志，可用于选择可能影响算法数值行为的实现细节。

以下标志可以通过按位或运算符“|”组合使用。

值	描述
`CUBLASLT_NUMERICAL_IMPL_FLAGS_FMA`	指定该实现基于[H,F,D]FMA（融合乘加）系列指令。
`CUBLASLT_NUMERICAL_IMPL_FLAGS_HMMA`	指定该实现基于HMMA（张量运算）系列指令。
`CUBLASLT_NUMERICAL_IMPL_FLAGS_IMMA`	指定该实现基于IMMA（整数张量运算）系列指令。
`CUBLASLT_NUMERICAL_IMPL_FLAGS_DMMA`	指定该实现基于DMMA（双精度张量运算）系列指令。
`CUBLASLT_NUMERICAL_IMPL_FLAGS_TENSOR_OP_MASK`	用于筛选使用上述任意类型张量运算实现的掩码。
`CUBLASLT_NUMERICAL_IMPL_FLAGS_OP_TYPE_MASK`	用于过滤有关所用乘加指令实现细节的掩码。

`CUBLASLT_NUMERICAL_IMPL_FLAGS_ACCUMULATOR_16F`	指定实现中的内部点积使用半精度累加器。
`CUBLASLT_NUMERICAL_IMPL_FLAGS_ACCUMULATOR_32F`	指定实现中的内积运算使用单精度累加器。
`CUBLASLT_NUMERICAL_IMPL_FLAGS_ACCUMULATOR_64F`	指定实现中的内部点积使用双精度累加器。
`CUBLASLT_NUMERICAL_IMPL_FLAGS_ACCUMULATOR_32I`	指定实现中的内部点积使用32位有符号整数精度累加器。
`CUBLASLT_NUMERICAL_IMPL_FLAGS_ACCUMULATOR_TYPE_MASK`	用于过滤累加器实现细节的掩码。

`CUBLASLT_NUMERICAL_IMPL_FLAGS_INPUT_16F`	指定实现中的内部点积乘加指令使用半精度输入。
`CUBLASLT_NUMERICAL_IMPL_FLAGS_INPUT_16BF`	指定实现中的内部点积乘加指令使用bfloat16输入。
`CUBLASLT_NUMERICAL_IMPL_FLAGS_INPUT_TF32`	指定实现内部点积乘加指令使用TF32输入。
`CUBLASLT_NUMERICAL_IMPL_FLAGS_INPUT_32F`	指定实现中的内部点积乘加指令使用单精度输入。
`CUBLASLT_NUMERICAL_IMPL_FLAGS_INPUT_64F`	指定实现内部点积乘加指令使用双精度输入。
`CUBLASLT_NUMERICAL_IMPL_FLAGS_INPUT_8I`	指定实现中的内部点积乘加指令使用8位整数输入。
`CUBLASLT_NUMERICAL_IMPL_FLAGS_OP_INPUT_TYPE_MASK`	用于筛选累加器输入实现细节的掩码。

`CUBLASLT_NUMERICAL_IMPL_FLAGS_GAUSSIAN`	指定该实现应用高斯复杂度降低算法来降低复数矩阵乘法问题的算术复杂度

3.3.18. cublasLtMatrixLayout_t

cublasLtMatrixLayout_t 是一个指向不透明结构的指针，该结构保存了矩阵布局的描述信息。使用 cublasLtMatrixLayoutCreate() 创建描述符实例，并使用 cublasLtMatrixLayoutDestroy() 销毁先前创建的描述符以释放资源。

3.3.19. cublasLt矩阵布局属性类型

cublasLtMatrixLayoutAttribute_t 是一个描述符结构体，包含定义矩阵运算细节的属性。使用 cublasLtMatrixLayoutGetAttribute() 和 cublasLtMatrixLayoutSetAttribute() 来获取和设置矩阵布局描述符的属性值。

值	描述	数据类型
`CUBLASLT_MATRIX_LAYOUT_TYPE`	指定数据精度类型。参见cudaDataType_t。	`uint32_t`
`CUBLASLT_MATRIX_LAYOUT_ORDER`	指定矩阵数据的内存顺序。默认值为`CUBLASLT_ORDER_COL`。参见cublasLtOrder_t。	`int32_t`
`CUBLASLT_MATRIX_LAYOUT_ROWS`	描述矩阵的行数。通常仅支持可以表示为`int32_t`的值。	`uint64_t`
`CUBLASLT_MATRIX_LAYOUT_COLS`	描述矩阵中的列数。通常仅支持可以表示为`int32_t`的值。	`uint64_t`
`CUBLASLT_MATRIX_LAYOUT_LD`	矩阵的主维度。对于`CUBLASLT_ORDER_COL`，这表示矩阵列的跨度（以元素为单位）。另请参阅cublasLtOrder_t。目前仅支持非负数值。必须足够大，以确保矩阵内存位置不会重叠（例如，在`CUBLASLT_ORDER_COL`情况下，需大于或等于`CUBLASLT_MATRIX_LAYOUT_ROWS`）。	`int64_t`
`CUBLASLT_MATRIX_LAYOUT_BATCH_COUNT`	批量执行的矩阵乘法运算数量。默认值为1。另请参阅cublasLtMatmulAlgoCapAttributes_t中的`CUBLASLT_ALGO_CAP_STRIDED_BATCH_SUPPORT`和`CUBLASLT_ALGO_CAP_POINTER_ARRAY_BATCH_SUPPORT`。	`int32_t`
`CUBLASLT_MATRIX_LAYOUT_STRIDED_BATCH_OFFSET`	跨步批处理操作中到下一个矩阵的元素步长。默认值为0。当矩阵类型为平面复数（`CUBLASLT_MATRIX_LAYOUT_PLANE_OFFSET` != 0）时，cublasLtMatmul()会将批处理步长解释为实值子元素的数量。例如，对于CUDA_C_16F类型的数据，1024字节的偏移量被编码为步长值512（因为实部和虚部矩阵的每个元素都是2字节（16位）浮点类型）。注意：cublasLtMatrixTransform()中存在一个错误，导致它将平面复数矩阵的批处理步长解释为复数元素的数量。因此，在调用cublasLtMatrixTransform()时，1024字节的偏移量必须编码为步长值256（每个复数元素为4字节，实部和虚部各占2字节）。此行为预计将在下一个主要cuBLAS版本中修正。	`int64_t`
`CUBLASLT_MATRIX_LAYOUT_PLANE_OFFSET`	平面复数布局中到虚数平面的步长（以字节为单位）。默认值为0，表示布局是常规的（复数的实部和虚部在内存中为每个元素交错排列）。	`int64_t`
`CUBLASLT_MATRIX_LAYOUT_BATCH_MODE`	矩阵的批量模式。默认值为CUBLASLT_BATCH_MODE_STRIDED。参见cublasLtBatchMode_t。	`int32_t`

3.3.20. cublasLtMatrixTransformDesc_t

cublasLtMatrixTransformDesc_t 是一个指向不透明结构的指针，用于保存矩阵变换操作的描述信息。使用 cublasLtMatrixTransformDescCreate() 创建描述符实例，并通过 cublasLtMatrixTransformDescDestroy() 销毁先前创建的描述符以释放资源。

3.3.21. cublasLtMatrixTransformDescAttributes_t

cublasLtMatrixTransformDescAttributes_t 是一个描述符结构体，包含定义矩阵变换操作具体细节的属性。使用 cublasLtMatrixTransformDescGetAttribute() 和 cublasLtMatrixTransformDescSetAttribute() 来设置矩阵变换描述符的属性值。

值	描述	数据类型
`CUBLASLT_MATRIX_TRANSFORM_DESC_SCALE_TYPE`	缩放类型。输入数据会被转换为指定的缩放类型进行缩放和求和运算，随后结果再转换回输出类型存储到内存中。有关支持的数据类型，请参阅cudaDataType_t。	`int32_t`
`CUBLASLT_MATRIX_TRANSFORM_DESC_POINTER_MODE`	指定标量alpha和beta是通过主机还是设备上的引用传递。默认值为：CUBLASLT_POINTER_MODE_HOST（即在主机上）。参见cublasLtPointerMode_t。	`int32_t`
`CUBLASLT_MATRIX_TRANSFORM_DESC_TRANSA`	指定应对矩阵A执行的操作类型。默认值为：CUBLAS_OP_N（即非转置操作）。参见cublasOperation_t。	`int32_t`
`CUBLASLT_MATRIX_TRANSFORM_DESC_TRANSB`	指定应对矩阵B执行的操作类型。默认值为：CUBLAS_OP_N（即非转置操作）。参见cublasOperation_t。	`int32_t`

3.3.22. cublasLtOrder_t

cublasLtOrder_t 是一个枚举类型，用于表示矩阵的数据排列顺序。

值	描述
`CUBLASLT_ORDER_COL`	数据以列优先格式排列。主维度是内存中到下一列起始位置的步长（以元素为单位）。
`CUBLASLT_ORDER_ROW`	数据按行优先格式排列。主维度是指内存中到下一行起始位置的跨度（以元素为单位）。
`CUBLASLT_ORDER_COL32`	数据按32列的列主序块排列。前导维度是指到下一组32列起始位置的跨度（以元素为单位）。例如，如果矩阵有33列和2行，那么前导维度必须至少为`32 * 2 = 64`。
`CUBLASLT_ORDER_COL4_4R2_8C`	数据以列优先顺序排列在复合图块中，每个复合图块包含32列和8行。一个图块由交错的内层图块组成，每个内层图块包含4列，分布在4个偶数或奇数行中，呈交替模式。前导维度是指到达下一个32列组中第一个32列×8行图块起始位置的跨度（以元素为单位）。例如，如果矩阵有33列和1行，前导维度必须至少为`(32 * 8) * 1 = 256`。
`CUBLASLT_ORDER_COL32_2R_4R4`	数据以列优先顺序排列在复合图块中，每个图块共32列32行。图块内元素偏移量计算公式为`(((row % 8) / 2 * 4 + row / 8) * 2 + row % 2) * 32 + col`。前导维度是指到达下一个32列组中第一个32列x32行图块起始位置的跨度（以元素为单位）。例如，若矩阵有33列1行，则其前导维度至少需为`(32 * 32) * 1 = 1024`。

3.3.23. cublasLtPointerMode_t

cublasLtPointerMode_t 是一个枚举类型，用于设置缩放因子 alpha 和 beta 的指针模式。

值	描述
`CUBLASLT_POINTER_MODE_HOST` = `CUBLAS_POINTER_MODE_HOST`	匹配 `CUBLAS_POINTER_MODE_HOST`，且指针指向主机内存中的单个值。
`CUBLASLT_POINTER_MODE_DEVICE` = `CUBLAS_POINTER_MODE_DEVICE`	匹配 `CUBLAS_POINTER_MODE_DEVICE`，且指针指向设备内存中的单个值。
`CUBLASLT_POINTER_MODE_DEVICE_VECTOR` = 2	指针指向长度等于矩阵D行数的设备内存向量。
`CUBLASLT_POINTER_MODE_ALPHA_DEVICE_VECTOR_BETA_ZERO` = 3	`alpha` 指针指向一个设备内存向量，其长度等于矩阵 D 的行数，而 `beta` 为零。
`CUBLASLT_POINTER_MODE_ALPHA_DEVICE_VECTOR_BETA_HOST` = 4	`alpha` 指针指向一个长度等于矩阵D行数的设备内存向量，而 `beta` 是主机内存中的单个值。

注意

当任何矩阵的cublasLtBatchMode_t设置为CUBLASLT_BATCH_MODE_POINTER_ARRAY时，仅支持指针模式CUBLASLT_POINTER_MODE_HOST和CUBLASLT_POINTER_MODE_DEVICE。

3.3.24. cublasLtPointerModeMask_t

cublasLtPointerModeMask_t 是一个枚举类型，用于定义和查询指针模式能力。

值	描述
`CUBLASLT_POINTER_MODE_MASK_HOST = 1`	参见cublasLtPointerMode_t中的`CUBLASLT_POINTER_MODE_HOST`。
`CUBLASLT_POINTER_MODE_MASK_DEVICE = 2`	参见cublasLtPointerMode_t中的`CUBLASLT_POINTER_MODE_DEVICE`。
`CUBLASLT_POINTER_MODE_MASK_DEVICE_VECTOR = 4`	参见cublasLtPointerMode_t中的`CUBLASLT_POINTER_MODE_DEVICE_VECTOR`
`CUBLASLT_POINTER_MODE_MASK_ALPHA_DEVICE_VECTOR_BETA_ZERO = 8`	参见cublasLtPointerMode_t中的`CUBLASLT_POINTER_MODE_ALPHA_DEVICE_VECTOR_BETA_ZERO`
`CUBLASLT_POINTER_MODE_MASK_ALPHA_DEVICE_VECTOR_BETA_HOST = 16`	参见cublasLtPointerMode_t中的`CUBLASLT_POINTER_MODE_ALPHA_DEVICE_VECTOR_BETA_HOST`

3.3.25. cublasLtReductionScheme_t

cublasLtReductionScheme_t 是一个枚举类型，用于指定并行计算点积部分（即"split-K"）的归约方案。

值	描述
`CUBLASLT_REDUCTION_SCHEME_NONE`	不应用归约操作。点积将在单个序列中完成计算。
`CUBLASLT_REDUCTION_SCHEME_INPLACE`	归约操作是"就地"使用输出缓冲区执行的，各部分在输出数据类型中相加。工作空间仅用于保证顺序性的计数器。
`CUBLASLT_REDUCTION_SCHEME_COMPUTE_TYPE`	在用户提供的工作空间中进行异地归约操作。中间结果以计算类型存储在工作空间中，并在单独的步骤中进行归约。
`CUBLASLT_REDUCTION_SCHEME_OUTPUT_TYPE`	在用户提供的工作空间中进行异地归约操作。中间结果存储在输出类型的工作空间中，并在单独的步骤中进行归约。
`CUBLASLT_REDUCTION_SCHEME_MASK`	允许所有归约方案。

3.3.26. cublasLtMatmulMatrixScale_t

cublasLtMatmulMatrixScale_t 是一个枚举类型，用于指定缩放模式，该模式定义了如何解释缩放因子指针。

值	描述
`CUBLASLT_MATMUL_MATRIX_SCALE_SCALAR_32F`	缩放因子是应用于整个张量的单精度标量（这是fp8的默认模式）。当D张量使用窄精度数据类型时，这是`CUBLASLT_MATMUL_DESC_D_SCALE_MODE`唯一有效的值。
`CUBLASLT_MATMUL_MATRIX_SCALE_VEC16_UE4M3`	缩放因子是张量，其中包含一个专用的缩放因子，存储为8位`CUDA_R_8F_UE4M3`值，对应数据张量最内层维度中的每个16元素块。
`CUBLASLT_MATMUL_MATRIX_SCALE_VEC32_UE8M0`	缩放因子是张量，其中包含针对对应数据张量最内维度中每个32元素块的专用缩放因子，存储为8位`CUDA_R_8F_UE8M0`值。
`CUBLASLT_MATMUL_MATRIX_SCALE_OUTER_VEC_32F`	缩放因子是CUDA_R_32F值的向量。此模式仅适用于矩阵A和B，在这种情况下，向量应分别具有M和N个元素，并且A和B乘积的每个(i,j)元素将乘以A缩放的第i个元素和B缩放的第j个元素。
`CUBLASLT_MATMUL_MATRIX_SCALE_VEC128_32F`	缩放因子是张量，其中包含对应数据张量最内层维度中每个128元素块的专用CUDA_R_32F缩放因子。
`CUBLASLT_MATMUL_MATRIX_SCALE_BLK128x128_32F`	缩放因子是张量，其中包含对应数据张量中每个128x128元素块的专用CUDA_R_32F缩放因子。

3.3.27. cublasLtBatchMode_t

值	描述
`CUBLASLT_BATCH_MODE_STRIDED`	批次中每个实例的矩阵都位于前一个实例位置的固定元素偏移量处。
`CUBLASLT_BATCH_MODE_POINTER_ARRAY`	批次中每个实例矩阵的地址是从指针数组中读取的。

3.4. cuBLASLt API参考

3.4.1. cublasLtCreate()

cublasStatus_t
      cublasLtCreate(cublasLtHandle_t *lighthandle)

此函数初始化cuBLASLt库，并创建一个指向持有cuBLASLt库上下文的不透明结构的句柄。它会在主机和设备上分配轻量级硬件资源，必须在调用任何其他cuBLASLt库函数之前调用。

cuBLASLt库上下文与当前CUDA设备绑定。要在多个设备上使用该库，必须为每个设备创建一个cuBLASLt句柄。此外，在调用与特定设备绑定的cuBLASLt函数之前，必须先将该设备设置为当前设备。

另请参阅：cuBLAS Context。

参数：

参数	内存	输入/输出	描述
`lightHandle`		输出	指向已创建的cuBLASLt上下文中分配的cuBLASLt句柄的指针。

返回：

返回值	描述
`CUBLAS_STATUS_SUCCESS`	分配成功完成。
`CUBLAS_STATUS_NOT_INITIALIZED`	cuBLASLt 库未初始化。这通常发生在以下情况：当未首先调用cublasLtCreate()时 cuBLASLt例程调用的CUDA Runtime API中的错误，或硬件设置中的错误。
`CUBLAS_STATUS_ALLOC_FAILED`	cuBLASLt库内部资源分配失败。这通常由`cudaMalloc()`失败引起。更正：在函数调用之前，尽可能释放之前分配的内存。
`CUBLAS_STATUS_INVALID_VALUE`	`lighthandle` 为空

查看cublasStatus_t获取完整的状态返回码列表。

3.4.2. cublasLtDestroy()

cublasStatus_t
      cublasLtDestroy(cublasLtHandle_t lightHandle)

此函数释放由cuBLASLt库使用的硬件资源。该函数通常是针对特定cuBLASLt库句柄的最后一次调用。由于cublasLtCreate()会分配一些内部资源，而通过调用cublasLtDestroy()释放这些资源将隐式调用cudaDeviceSynchronize()，建议尽量减少这些函数的调用次数。

参数:

参数	内存	输入/输出	描述
`lightHandle`		输入	指向待销毁的cuBLASLt句柄的指针。

返回:

返回值	含义
`CUBLAS_STATUS_SUCCESS`	cuBLASLt上下文已成功销毁。
`CUBLAS_STATUS_NOT_INITIALIZED`	cuBLASLt 库未初始化。
`CUBLAS_STATUS_INVALID_VALUE`	`lightHandle` 为空

查看cublasStatus_t获取完整有效返回码列表。

3.4.3. cublasLtDisableCpuInstructionsSetMask()

unsigned cublasLtDisableCpuInstructionsSetMask(unsigned mask);

指示cuBLASLt库不使用mask中标志指定的CPU指令。该函数优先于CUBLASLT_DISABLE_CPU_INSTRUCTIONS_MASK环境变量。

参数： mask – 通过按位OR(|)运算符组合的标志，用于指定不应使用哪些CPU指令。

支持的标志：

值	描述
`0x1`	x86-64 AVX512指令集架构。

返回值： mask 的前一个值。

3.4.4. cublasLtGetCudartVersion()

size_t cublasLtGetCudartVersion(void);

该函数返回CUDA运行时库的版本号。

参数： 无。

返回值：size_t - CUDA运行时库的版本号。

3.4.5. cublasLtGetProperty()

cublasStatus_t cublasLtGetProperty(libraryPropertyType type, int *value);

该函数通过将请求的属性值写入由value参数指向的内存位置来返回该值。

参数:

参数	内存	输入/输出	描述
`type`		输入	类型为`libraryPropertyType`，其值从属性中请求。参见libraryPropertyType_t。
`value`		输出	指向应写入所请求信息的主机内存位置的指针。

返回:

返回值	含义
`CUBLAS_STATUS_SUCCESS`	请求的`libraryPropertyType`信息已成功写入提供的地址。
`CUBLAS_STATUS_INVALID_VALUE`	如果`type`输入参数的值无效，或如果 `value` 为 NULL

查看cublasStatus_t获取完整的状态返回码列表。

3.4.6. cublasLtGetStatusName()

const char* cublasLtGetStatusName(cublasStatus_t status);

返回给定状态的字符串表示形式。

参数: cublasStatus_t - 状态值。

返回： const char* - 以NULL结尾的字符串。

3.4.7. cublasLtGetStatusString()

const char* cublasLtGetStatusString(cublasStatus_t status);

返回给定状态的描述字符串。

参数: cublasStatus_t - 状态值。

返回值： const char* - 以NULL结尾的字符串。

3.4.8. cublasLtHeuristicsCacheGetCapacity()

cublasStatus_t cublasLtHeuristicsCacheGetCapacity(size_t* capacity);

返回Heuristics Cache的容量。

参数：

参数	描述
`capacity`	指向返回容量值的指针。

返回：

返回值	描述
`CUBLAS_STATUS_SUCCESS`	容量已成功写入。
`CUBLAS_STATUS_INVALID_VALUE`	容量已成功设置。

3.4.9. cublasLtHeuristicsCacheSetCapacity()

cublasStatus_t cublasLtHeuristicsCacheSetCapacity(size_t capacity);

设置启发式缓存的容量。将容量设为0可禁用启发式缓存。

该函数优先级高于CUBLASLT_HEURISTICS_CACHE_CAPACITY环境变量。

参数：

参数	描述
`capacity`	理想的启发式缓存容量。

返回：

返回值	描述
`CUBLAS_STATUS_SUCCESS`	容量已成功设置。

3.4.10. cublasLtGetVersion()

size_t cublasLtGetVersion(void);

该函数返回cuBLASLt库的版本号。

参数： 无。

返回：size_t - cuBLASLt库的版本号。

3.4.11. cublasLtLoggerSetCallback()

cublasStatus_t cublasLtLoggerSetCallback(cublasLtLoggerCallback_t callback);

实验性功能：此函数用于设置日志记录回调函数。

参数:

参数	内存	输入/输出	描述
`callback`		输入	指向回调函数的指针。参见 cublasLtLoggerCallback_t。

返回:

返回值	描述
`CUBLAS_STATUS_SUCCESS`	如果回调函数设置成功。

请参阅cublasStatus_t获取完整的有效返回代码列表。

3.4.12. cublasLtLoggerSetFile()

cublasStatus_t cublasLtLoggerSetFile(FILE* file);

实验性功能：此函数用于设置日志输出文件。注意：一旦通过此函数调用注册后，除非再次调用该函数切换至不同的文件句柄，否则不得关闭所提供的文件句柄。

参数:

参数	内存	输入/输出	描述
`file`		输入	指向一个已打开文件的指针。该文件应具有写入权限。

返回:

返回值	描述
`CUBLAS_STATUS_SUCCESS`	如果日志文件设置成功。

查看cublasStatus_t获取完整有效返回码列表。

3.4.13. cublasLtLoggerOpenFile()

cublasStatus_t cublasLtLoggerOpenFile(const char* logFile);

实验性功能：此函数在指定路径下打开一个日志输出文件。

参数:

参数	内存	输入/输出	描述
`logFile`		输入	日志输出文件的路径。

返回:

返回值	描述
`CUBLAS_STATUS_SUCCESS`	如果日志文件成功打开。

查看cublasStatus_t获取完整有效返回码列表。

3.4.14. cublasLtLoggerSetLevel()

cublasStatus_t cublasLtLoggerSetLevel(int level);

实验性功能：此函数用于设置日志记录级别的值。

参数:

参数	内存	输入/输出	描述
`level`		输入	日志记录级别的值。请参阅cuBLASLt Logging。

返回:

返回值	描述
`CUBLAS_STATUS_INVALID_VALUE`	如果该值不是有效的日志级别。请参阅cuBLASLt Logging。
`CUBLAS_STATUS_SUCCESS`	如果日志级别设置成功。

查看cublasStatus_t获取完整有效返回码列表。

3.4.15. cublasLtLoggerSetMask()

cublasStatus_t cublasLtLoggerSetMask(int mask);

实验性功能：此函数用于设置日志掩码的值。

参数:

参数	内存	输入/输出	描述
`mask`		输入	日志掩码的值。请参阅cuBLASLt Logging。

返回:

返回值	描述
`CUBLAS_STATUS_SUCCESS`	如果日志掩码设置成功。

查看cublasStatus_t获取完整有效返回码列表。

3.4.16. cublasLtLoggerForceDisable()

cublasStatus_t cublasLtLoggerForceDisable();

实验性功能：此函数会禁用整个运行过程中的日志记录。

返回:

返回值	描述
`CUBLAS_STATUS_SUCCESS`	如果日志记录已成功禁用。

查看cublasStatus_t获取完整有效返回码列表。

3.4.17. cublasLtMatmul()

cublasStatus_t cublasLtMatmul(
      cublasLtHandle_t               lightHandle,
      cublasLtMatmulDesc_t           computeDesc,
      const void                    *alpha,
      const void                    *A,
      cublasLtMatrixLayout_t         Adesc,
      const void                    *B,
      cublasLtMatrixLayout_t         Bdesc,
      const void                    *beta,
      const void                    *C,
      cublasLtMatrixLayout_t         Cdesc,
      void                          *D,
      cublasLtMatrixLayout_t         Ddesc,
      const cublasLtMatmulAlgo_t    *algo,
      void                          *workspace,
      size_t                         workspaceSizeInBytes,
      cudaStream_t                   stream);

该函数根据以下运算计算矩阵A和B的矩阵乘法，生成输出矩阵D：

D = alpha*(A*B) + beta*(C),

其中 A, B 和 C 是输入矩阵，alpha 和 beta 是输入标量。

注意

该函数支持原地矩阵乘法（C == D 和 Cdesc == Ddesc）以及非原地矩阵乘法（C != D，两个矩阵必须具有相同的数据类型、行数、列数、批处理大小和内存顺序）。在非原地情况下，C的主维度可以与D的主维度不同。具体来说，C的主维度可以设为0以实现行或列广播。如果省略Cdesc，该函数会假定其等于Ddesc。

workspace 指针必须至少对齐到256字节的倍数。关于workspaceSizeInBytes的建议与cublasSetWorkspace()部分提到的相同。

支持的数据类型：

cublasLtMatmul() 支持以下 computeType、scaleType、Atype/Btype 和 Ctype。脚注可在本节末尾找到。

表1. 当A、B、C和D是常规列主序或行主序矩阵时
计算类型	缩放类型	A类型/B类型	C类型	偏置类型 8
`CUBLAS_COMPUTE_16F` 或 `CUBLAS_COMPUTE_16F_PEDANTIC`	`CUDA_R_16F`	`CUDA_R_16F`	`CUDA_R_16F`	`CUDA_R_16F` 8
`CUBLAS_COMPUTE_32I` 或 `CUBLAS_COMPUTE_32I_PEDANTIC`	`CUDA_R_32I`	`CUDA_R_8I`	`CUDA_R_32I`	不支持尾声部分。
`CUBLAS_COMPUTE_32I` 或 `CUBLAS_COMPUTE_32I_PEDANTIC`	`CUDA_R_32F`	`CUDA_R_8I`	`CUDA_R_8I`	不支持尾声部分。
`CUBLAS_COMPUTE_32F` 或 `CUBLAS_COMPUTE_32F_PEDANTIC`	`CUDA_R_32F`	`CUDA_R_16BF`	`CUDA_R_16BF`	`CUDA_R_16BF` 8
		`CUDA_R_16F`	`CUDA_R_16F`	`CUDA_R_16F` 8
		`CUDA_R_8I`	`CUDA_R_32F`	不支持尾声部分。
		`CUDA_R_16BF`	`CUDA_R_32F`	`CUDA_R_32F` 8
		`CUDA_R_16F`	`CUDA_R_32F`	`CUDA_R_32F` 8
		`CUDA_R_32F`	`CUDA_R_32F`	`CUDA_R_32F` 8
	`CUDA_C_32F` 9	`CUDA_C_8I` 9	`CUDA_C_32F` 9	不支持尾声部分。
	`CUDA_C_32F` 9	`CUDA_C_32F` 9	`CUDA_C_32F` 9	不支持尾声部分。
`CUBLAS_COMPUTE_32F_FAST_16F` 或 `CUBLAS_COMPUTE_32F_FAST_16BF` 或 `CUBLAS_COMPUTE_32F_FAST_TF32` 或 `CUBLAS_COMPUTE_32F_EMULATED_16BFX9`	`CUDA_R_32F`	`CUDA_R_32F`	`CUDA_R_32F`	`CUDA_R_32F` 8
	`CUDA_C_32F` 9	`CUDA_C_32F` 9	`CUDA_C_32F` 9	不支持尾声部分。
`CUBLAS_COMPUTE_64F` 或 `CUBLAS_COMPUTE_64F_PEDANTIC`	`CUDA_R_64F`	`CUDA_R_64F`	`CUDA_R_64F`	`CUDA_R_64F` 8
`CUBLAS_COMPUTE_64F` 或 `CUBLAS_COMPUTE_64F_PEDANTIC`	`CUDA_C_64F` 9	`CUDA_C_64F` 9	`CUDA_C_64F` 9	不支持尾声部分。

要使用IMMA内核，必须满足以下任一要求集，其中首选第一个：

使用常规数据排序：
- 所有矩阵指针必须4字节对齐。为了获得更好的性能，建议将对齐条件提升至16字节而非4字节。
- 矩阵A、B、C的前导维度必须是4的倍数。
- 仅支持“TN”格式 - 矩阵A必须转置，矩阵B不能转置。
- 指针模式可以是CUBLASLT_POINTER_MODE_HOST、CUBLASLT_POINTER_MODE_DEVICE或CUBLASLT_POINTER_MODE_ALPHA_DEVICE_VECTOR_BETA_HOST。在后一种模式下，内核支持CUBLASLT_MATMUL_DESC_ALPHA_VECTOR_BATCH_STRIDE属性。
- 维度m和k必须是4的倍数。
在Ampere（计算能力8.0）或Turing（计算能力7.5）架构（但不包括Hopper，计算能力9.0或更高版本）上使用IMMA特定的数据排序 - 对于矩阵A、C、D使用CUBLASLT_ORDER_COL32`，对于矩阵B使用CUBLASLT_ORDER_COL4_4R2_8C（在Turing或Ampere架构上）或CUBLASLT_ORDER_COL32_2R_4R4（在Ampere架构上）：
- 矩阵A、B、C的前导维度必须满足内存排序的特定条件（参见cublasLtOrder_t）。
- 矩阵乘法描述符必须在矩阵B上指定CUBLAS_OP_T，在矩阵A和C上指定CUBLAS_OP_N（默认）。
- 如果使用 scaleType CUDA_R_32I，则 alpha 和 beta 唯一支持的值是 0 或 1。
- 指针模式可以是CUBLASLT_POINTER_MODE_HOST、CUBLASLT_POINTER_MODE_DEVICE、CUBLASLT_POINTER_MODE_DEVICE_VECTOR或CUBLASLT_POINTER_MODE_ALPHA_DEVICE_VECTOR_BETA_ZERO。这些内核不支持CUBLASLT_MATMUL_DESC_ALPHA_VECTOR_BATCH_STRIDE。
- 仅支持“NT”格式 - A必须转置而B不转置。

表2. 当A、B、C和D使用IMMA布局时
计算类型	缩放类型	A类型/B类型	C类型	偏置类型
CUBLAS_COMPUTE_32I 或 CUBLAS_COMPUTE_32I_PEDANTIC	CUDA_R_32I	CUDA_R_8I	CUDA_R_32I	不支持非默认结尾操作。
CUBLAS_COMPUTE_32I 或 CUBLAS_COMPUTE_32I_PEDANTIC	CUDA_R_32I	CUDA_R_8I	CUDA_R_32I	不支持非默认结尾操作。	CUDA_R_32F	CUDA_R_8I	CUDA_R_8I	CUDA_R_32F

要使用张量或块缩放的FP8内核，必须满足以下要求：

所有矩阵维度必须满足Tensor Core Usage中列出的最优要求（即指针和矩阵维度必须支持16字节对齐）。
缩放模式必须符合缩放模式支持概述表格中列出的限制条件。
在Ada（计算能力8.9）、Hopper（计算能力9.0）和Blackwell GeForce（计算能力12.x）GPU上，矩阵A必须转置而矩阵B不转置（"TN"格式）。
计算类型必须为 CUBLAS_COMPUTE_32F。
缩放类型必须为 CUDA_R_32F。

使用FP8内核时请参考下表：

表3. 当A、B、C和D使用FP8布局时
AType	BType	CType	DType	Bias Type
`CUDA_R_8F_E4M3`	`CUDA_R_8F_E4M3`	`CUDA_R_16BF`	`CUDA_R_16BF`	`CUDA_R_16BF` 8
		`CUDA_R_16BF`	`CUDA_R_8F_E4M3` 10	`CUDA_R_16BF` 8
		`CUDA_R_16F`	`CUDA_R_16F`	`CUDA_R_16F` 8
		`CUDA_R_16F`	`CUDA_R_8F_E4M3` 10	`CUDA_R_16F` 8
		`CUDA_R_32F`	`CUDA_R_32F`	`CUDA_R_16BF` 8
	`CUDA_R_8F_E5M2`	`CUDA_R_16BF`	`CUDA_R_16BF`	`CUDA_R_16BF` 8
			`CUDA_R_8F_E4M3` 10	`CUDA_R_16BF` 8
			`CUDA_R_8F_E5M2` 10	`CUDA_R_16BF` 8
		`CUDA_R_16F`	`CUDA_R_16F`	`CUDA_R_16F` 8
			`CUDA_R_8F_E4M3` 10	`CUDA_R_16F` 8
			`CUDA_R_8F_E5M2` 10	`CUDA_R_16F` 8
		`CUDA_R_32F`	`CUDA_R_32F`	`CUDA_R_16BF` 8
`CUDA_R_8F_E5M2`	`CUDA_R_8F_E4M3`	`CUDA_R_16BF`	`CUDA_R_16BF`	`CUDA_R_16BF` 8
			`CUDA_R_8F_E4M3` 10	`CUDA_R_16BF` 8
			`CUDA_R_8F_E5M2` 10	`CUDA_R_16BF` 8
		`CUDA_R_16F`	`CUDA_R_16F`	`CUDA_R_16F` 8
			`CUDA_R_8F_E4M3` 10	`CUDA_R_16F` 8
			`CUDA_R_8F_E5M2` 10	`CUDA_R_16F` 8
		`CUDA_R_32F`	`CUDA_R_32F`	`CUDA_R_16BF` 8

要使用块级缩放的FP4内核，必须满足以下要求：

所有矩阵维度必须满足Tensor Core Usage中列出的最优要求（即指针和矩阵维度必须支持16字节对齐）。
缩放模式必须为 CUBLASLT_MATMUL_MATRIX_SCALE_VEC16_UE4M3
A必须转置而B不转置（"TN"格式）
计算类型必须为 CUBLAS_COMPUTE_32F。
缩放类型必须为 CUDA_R_32F。

表4. 当A、B、C和D使用FP4布局时
AType	BType	CType	DType	Bias Type
`CUDA_R_4F_E2M1`	`CUDA_R_4F_E2M1`	`CUDA_R_16BF`	`CUDA_R_16BF`	`CUDA_R_16BF` 8
		`CUDA_R_16BF`	`CUDA_R_4F_E2M1`	`CUDA_R_16BF` 8
		`CUDA_R_16F`	`CUDA_R_16F`	`CUDA_R_16F` 8
		`CUDA_R_16F`	`CUDA_R_4F_E2M1`	`CUDA_R_16F` 8
		`CUDA_R_32F`	`CUDA_R_32F`	`CUDA_R_16BF` 8

最后，当A、B、C、D为平面复数矩阵时（CUBLASLT_MATRIX_LAYOUT_PLANE_OFFSET != 0，参见cublasLtMatrixLayoutAttribute_t），请查看下表以利用混合精度张量核心加速。

表5. 当A、B、C和D为平面复数矩阵时
计算类型	缩放类型	A类型/B类型	C类型
`CUBLAS_COMPUTE_32F`	`CUDA_C_32F`	`CUDA_C_16F` 9	`CUDA_C_16F` 9
		`CUDA_C_16F` 9	`CUDA_C_32F` 9
		`CUDA_C_16BF` 9	`CUDA_C_16BF` 9
		`CUDA_C_16BF` 9	`CUDA_C_32F` 9

注意：

8(1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33): 当D矩阵内存顺序定义为CUBLASLT_ORDER_ROW时，不支持ReLU、dReLu、GELU、dGELU和Bias收尾模式（参见cublasLtMatmulDescAttributes_t中的CUBLASLT_MATMUL_DESC_EPILOGUE）。使用偏置向量时，为获得最佳性能，建议将beta设为零并将指针模式设置为CUBLASLT_POINTER_MODE_HOST。
9(1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17): 不支持同时使用CUBLAS_ORDER_ROW和CUBLAS_OP_C(厄米特算子)，除非A、B、C和D矩阵都采用CUBLAS_ORDER_ROW排序方式。
10(1,2,3,4,5,6,7,8,9,10): 当缩放模式为CUBLASLT_MATMUL_MATRIX_SCALE_OUTER_VEC_32F、CUBLASLT_MATMUL_MATRIX_SCALE_VEC128_32F或CUBLASLT_MATMUL_MATRIX_SCALE_BLK128x128_32F时，不支持FP8数据类型。

参数：

参数	内存	输入/输出	描述
`lightHandle`		输入	指向为cuBLASLt上下文分配的cuBLASLt句柄的指针。参见cublasLtHandle_t。
`computeDesc`		输入	指向先前创建的cublasLtMatmulDesc_t类型矩阵乘法描述符的句柄。
`alpha`, `beta`	设备或主机	输入	指向乘法运算中使用的标量的指针。
`A`, `B`, 和 `C`	设备	输入	指向与对应描述符`Adesc`、`Bdesc`和`Cdesc`相关联的GPU内存的指针。
`Adesc`, `Bdesc` 和 `Cdesc`		输入	指向之前创建的cublasLtMatrixLayout_t类型描述符的句柄。
`D`	设备	输出	指向与描述符`Ddesc`关联的GPU内存的指针。
`描述`		输入	指向先前创建的cublasLtMatrixLayout_t类型描述符的句柄。
`algo`		输入	用于矩阵乘法算法的句柄。参见cublasLtMatmulAlgo_t。当为NULL时，将执行带有默认搜索偏好的隐式启发式查询以确定实际使用的算法。
`workspace`	设备		指向GPU内存中分配的工作区缓冲区的指针。必须256字节对齐（即地址的最低8位必须为0）。
`workspaceSizeInBytes`		输入	工作区的大小。
`stream`	主机	输入	所有GPU工作将被提交到的CUDA流。

返回：

返回值	描述
`CUBLAS_STATUS_NOT_INITIALIZED`	如果cuBLASLt句柄尚未初始化。
`CUBLAS_STATUS_INVALID_VALUE`	如果参数意外为NULL、存在冲突或处于不可能的配置中。例如，当`workspaceSizeInBytes`小于配置算法所需的工作空间时。
`CUBLAS_STATUS_NOT_SUPPORTED`	如果所选设备上的当前实现不支持配置的操作。
`CUBLAS_STATUS_ARCH_MISMATCH`	如果无法使用所选设备运行配置的操作。
`CUBLAS_STATUS_EXECUTION_FAILED`	如果CUDA报告设备执行错误。
`CUBLAS_STATUS_SUCCESS`	如果操作成功完成。

查看cublasStatus_t获取完整有效返回码列表。

3.4.18. cublasLtMatmulAlgoCapGetAttribute()

cublasStatus_t cublasLtMatmulAlgoCapGetAttribute(
      const cublasLtMatmulAlgo_t *algo,
      cublasLtMatmulAlgoCapAttributes_t attr,
      void *buf,
      size_t sizeInBytes,
      size_t *sizeWritten);

该函数返回已初始化的cublasLtMatmulAlgo_t描述符结构所查询能力属性的值。该能力属性值从枚举类型cublasLtMatmulAlgoCapAttributes_t中获取。

例如，要获取支持的Tile ID列表：

cublasLtMatmulTile_t tiles[CUBLASLT_MATMUL_TILE_END];
size_t num_tiles, size_written;
if (cublasLtMatmulAlgoCapGetAttribute(algo, CUBLASLT_ALGO_CAP_TILE_IDS, tiles, sizeof(tiles), &size_written) == CUBLAS_STATUS_SUCCESS) {
  num_tiles = size_written / sizeof(tiles[0]);}

参数:

参数	输入/输出	描述
`algo`	输入	指向先前创建的不透明结构的指针，该结构保存矩阵乘法算法描述符。参见cublasLtMatmulAlgo_t。
`attr`	输入	该函数将获取的能力属性值。参见cublasLtMatmulAlgoCapAttributes_t。
`buf`	输出	该函数返回的属性值。
`sizeInBytes`	输入	`buf`缓冲区的大小（以字节为单位），用于验证。
`sizeWritten`	输出	仅当返回值为CUBLAS_STATUS_SUCCESS时有效。如果`sizeInBytes`非零：则`sizeWritten`表示实际写入的字节数；如果`sizeInBytes`为零：则`sizeWritten`表示写入完整内容所需的字节数。

返回:

返回值	描述
`CUBLAS_STATUS_INVALID_VALUE`	如果 `sizeInBytes` 为 0 且 `sizeWritten` 为 NULL，或者如果 `sizeInBytes` 不为零且 `buf` 为 NULL，或者如果 `sizeInBytes` 与所选属性的内部存储大小不匹配
`CUBLAS_STATUS_SUCCESS`	如果属性值成功写入用户内存。

查看cublasStatus_t获取完整有效返回码列表。

3.4.19. cublasLtMatmulAlgoCheck()

cublasStatus_t cublasLtMatmulAlgoCheck(
      cublasLtHandle_t lightHandle,
      cublasLtMatmulDesc_t operationDesc,
      cublasLtMatrixLayout_t Adesc,
      cublasLtMatrixLayout_t Bdesc,
      cublasLtMatrixLayout_t Cdesc,
      cublasLtMatrixLayout_t Ddesc,
      const cublasLtMatmulAlgo_t *algo,
      cublasLtMatmulHeuristicResult_t *result);

该函数对矩阵乘法算法描述符执行正确性检查，用于cublasLtMatmul()函数与给定输入矩阵A、B、C以及输出矩阵D的矩阵乘法运算。它会检查当前设备是否支持该描述符，并返回包含所需工作空间和计算波数的结果。

注意

CUBLAS_STATUS_SUCCESS并不能完全保证算法能够运行。例如，如果缓冲区未正确对齐，算法将会失败。然而，如果cublasLtMatmulAlgoCheck()失败，算法将不会运行。

参数:

参数	输入/输出	描述
`lightHandle`	输入	指向为cuBLASLt上下文分配的cuBLASLt句柄的指针。参见cublasLtHandle_t。
`操作描述`	输入	指向先前创建的cublasLtMatmulDesc_t类型矩阵乘法描述符的句柄。
`Adesc`, `Bdesc`, `Cdesc`, 和 `Ddesc`	输入	指向之前创建的cublasLtMatrixLayout_t类型矩阵布局描述符的句柄。
`algo`	输入	描述符，用于指定应使用哪种矩阵乘法算法。参见cublasLtMatmulAlgo_t。可能指向`result->algo`。
`result`	输出	指向保存此函数返回结果的结构体指针。结果包含所需的工作空间和计算得出的波次数。`algo`字段不会被更新。详见cublasLtMatmulHeuristicResult_t。

返回:

返回值	描述
`CUBLAS_STATUS_INVALID_VALUE`	如果矩阵布局描述符或操作描述符与`algo`描述符不匹配。
`CUBLAS_STATUS_NOT_SUPPORTED`	如果给定的设备当前不支持`algo`配置或数据类型组合。
`CUBLAS_STATUS_ARCH_MISMATCH`	如果无法使用所选设备运行`algo`配置。
`CUBLAS_STATUS_SUCCESS`	如果检查成功。

查看cublasStatus_t获取完整有效返回码列表。

3.4.20. cublasLtMatmulAlgoConfigGetAttribute()

cublasStatus_t cublasLtMatmulAlgoConfigGetAttribute(
      const cublasLtMatmulAlgo_t *algo,
      cublasLtMatmulAlgoConfigAttributes_t attr,
      void *buf,
      size_t sizeInBytes,
      size_t *sizeWritten);

此函数返回已初始化的cublasLtMatmulAlgo_t描述符所查询配置属性的值。配置属性值从枚举类型cublasLtMatmulAlgoConfigAttributes_t中获取。

参数:

参数	输入/输出	描述
`algo`	输入	指向先前创建的不透明结构的指针，该结构保存矩阵乘法算法描述符。参见cublasLtMatmulAlgo_t。
`attr`	输入	该函数将获取其值的配置属性。参见cublasLtMatmulAlgoConfigAttributes_t。
`buf`	输出	该函数返回的属性值。
`sizeInBytes`	输入	`buf`缓冲区的大小（以字节为单位），用于验证。
`sizeWritten`	输出	仅在返回值为CUBLAS_STATUS_SUCCESS时有效。如果`sizeInBytes`非零：则`sizeWritten`表示实际写入的字节数；如果`sizeInBytes`为零：则`sizeWritten`表示写入完整内容所需的字节数。

返回:

返回值	描述
`CUBLAS_STATUS_INVALID_VALUE`	如果 `sizeInBytes` 为 0 且 `sizeWritten` 为 NULL，或者如果 `sizeInBytes` 非零且 `buf` 为 NULL，或如果 `sizeInBytes` 与所选属性的内部存储大小不匹配
`CUBLAS_STATUS_SUCCESS`	如果属性值成功写入用户内存。

查看cublasStatus_t获取完整有效返回码列表。

3.4.21. cublasLtMatmulAlgoConfigSetAttribute()

cublasStatus_t cublasLtMatmulAlgoConfigSetAttribute(
      cublasLtMatmulAlgo_t *algo,
      cublasLtMatmulAlgoConfigAttributes_t attr,
      const void *buf,
      size_t sizeInBytes);

此函数为已初始化的cublasLtMatmulAlgo_t描述符设置指定配置属性的值。该配置属性是cublasLtMatmulAlgoConfigAttributes_t类型的枚举值。

参数:

参数	输入/输出	描述
`algo`	输入	指向先前创建的不透明结构的指针，该结构保存矩阵乘法算法描述符。参见cublasLtMatmulAlgo_t。
`attr`	输入	该函数将设置其值的配置属性。参见cublasLtMatmulAlgoConfigAttributes_t。
`buf`	输入	配置属性应设置的值。
`sizeInBytes`	输入	`buf`缓冲区的大小（以字节为单位），用于验证。

返回:

返回值	描述
`CUBLAS_STATUS_INVALID_VALUE`	如果`buf`为NULL或`sizeInBytes`与所选属性的内部存储大小不匹配。
`CUBLAS_STATUS_SUCCESS`	如果属性设置成功。

查看cublasStatus_t获取完整有效返回码列表。

3.4.22. cublasLtMatmulAlgoGetHeuristic()

cublasStatus_t cublasLtMatmulAlgoGetHeuristic(
      cublasLtHandle_t lightHandle,
      cublasLtMatmulDesc_t operationDesc,
      cublasLtMatrixLayout_t Adesc,
      cublasLtMatrixLayout_t Bdesc,
      cublasLtMatrixLayout_t Cdesc,
      cublasLtMatrixLayout_t Ddesc,
      cublasLtMatmulPreference_t preference,
      int requestedAlgoCount,
      cublasLtMatmulHeuristicResult_t heuristicResultsArray[],
      int *returnAlgoCount);

该函数根据给定的输入矩阵A、B和C以及输出矩阵D，获取矩阵乘法运算cublasLtMatmul()可能的算法。输出结果按预估计算时间递增的顺序存放在heuristicResultsArray[]中。

参数:

参数	输入/输出	描述
`lightHandle`	输入	指向为cuBLASLt上下文分配的cuBLASLt句柄的指针。参见cublasLtHandle_t。
`操作描述`	输入	指向先前创建的cublasLtMatmulDesc_t类型矩阵乘法描述符的句柄。
`Adesc`, `Bdesc`, `Cdesc`, 和 `Ddesc`	输入	指向之前创建的cublasLtMatrixLayout_t类型矩阵布局描述符的句柄。
`preference`	输入	指向保存启发式搜索偏好描述符的结构体指针。参见cublasLtMatmulPreference_t。
`requestedAlgoCount`	输入	`heuristicResultsArray`的大小（以元素为单位）。这是请求返回的最大算法数量。
`heuristicResultsArray[]`	输出	该函数返回的数组包含算法启发式方法和相关的运行时特征，按估计计算时间递增的顺序排列。
`returnAlgoCount`	输出	此函数返回的算法数量。这是写入的`heuristicResultsArray`元素数量。

返回:

返回值	描述
`CUBLAS_STATUS_INVALID_VALUE`	如果 `requestedAlgoCount` 小于或等于零。
`CUBLAS_STATUS_NOT_SUPPORTED`	如果当前配置没有可用的启发式函数。
`CUBLAS_STATUS_SUCCESS`	如果查询成功。检查`heuristicResultsArray[0 to (returnAlgoCount -1)].state`以获取结果状态。

查看cublasStatus_t获取完整有效返回码列表。

注意

此函数可能会使用CUDA Driver API加载一些内核，当没有可用的GPU内存时可能会失败。在运行cublasLtMatmulAlgoGetHeuristic()之前，请勿分配整个VRAM。

3.4.23. cublasLtMatmulAlgoGetIds()

cublasStatus_t cublasLtMatmulAlgoGetIds(
      cublasLtHandle_t lightHandle,
      cublasComputeType_t computeType,
      cudaDataType_t scaleType,
      cudaDataType_t Atype,
      cudaDataType_t Btype,
      cudaDataType_t Ctype,
      cudaDataType_t Dtype,
      int requestedAlgoCount,
      int algoIdsArray[],
      int *returnAlgoCount);

此函数检索所有有效且可能由cublasLtMatmul()函数运行的矩阵乘法算法ID，适用于给定输入矩阵A、B和C以及输出矩阵D的类型。

注意

返回的ID没有特定顺序。为确保列表中包含最佳算法，请将requestedAlgoCount设置得足够大以获取完整列表。如果满足returnAlgoCount < requestedAlgoCount条件，则保证该列表是完整的。

参数:

参数	输入/输出	描述
lightHandle	输入	指向已分配的cuBLASLt上下文句柄的指针。参见cublasLtHandle_t。
`computeType`, `scaleType`, `Atype`, `Btype`, `Ctype`, 和 `Dtype`	输入	计算类型、缩放因子和操作数矩阵的数据类型。参见cudaDataType_t。
`requestedAlgoCount`	输入	请求的算法数量。必须大于0。
`algoIdsArray[]`	输出	包含此函数返回的算法ID的数组。
`returnAlgoCount`	输出	此函数实际返回的算法数量。

返回:

返回值	描述
`CUBLAS_STATUS_INVALID_VALUE`	如果 `requestedAlgoCount` 小于或等于零。
`CUBLAS_STATUS_SUCCESS`	如果查询成功。检查`returnAlgoCount`以获取实际可用的ID数量。

查看cublasStatus_t获取完整有效返回码列表。

3.4.24. cublasLtMatmulAlgoInit()

cublasStatus_t cublasLtMatmulAlgoInit(
      cublasLtHandle_t lightHandle,
      cublasComputeType_t computeType,
      cudaDataType_t scaleType,
      cudaDataType_t Atype,
      cudaDataType_t Btype,
      cudaDataType_t Ctype,
      cudaDataType_t Dtype,
      int algoId,
      cublasLtMatmulAlgo_t *algo);

该函数为cublasLtMatmul()初始化矩阵乘法算法结构，针对指定的矩阵乘法算法及输入矩阵A、B、C和输出矩阵D。

参数:

参数	输入/输出	描述
`lightHandle`	输入	指向为cuBLASLt上下文分配的cuBLASLt句柄的指针。参见cublasLtHandle_t。
`computeType`	输入	计算类型。请参阅cublasLtMatmulDescAttributes_t中的`CUBLASLT_MATMUL_DESC_COMPUTE_TYPE`。
`scaleType`	输入	缩放类型。请参阅cublasLtMatmulDescAttributes_t中的`CUBLASLT_MATMUL_DESC_SCALE_TYPE`。通常与computeType相同。
`Atype`, `Btype`, `Ctype`, 和 `Dtype`	输入	输入和输出矩阵的数据类型精度。参见 cudaDataType_t 。
`algoId`	输入	指定要初始化的算法。应为cublasLtMatmulAlgoGetIds()函数返回的有效`algoId`。
`algo`	输入	指向待初始化的不透明结构的指针。参见 cublasLtMatmulAlgo_t。

返回:

返回值	描述
`CUBLAS_STATUS_INVALID_VALUE`	如果 `algo` 为 NULL 或 `algoId` 超出可识别范围。
`CUBLAS_STATUS_NOT_SUPPORTED`	如果给定的数据类型组合不支持`algoId`。
`CUBLAS_STATUS_SUCCESS`	如果结构体初始化成功。

查看cublasStatus_t获取完整有效返回码列表。

3.4.25. cublasLtMatmulDescCreate()

cublasStatus_t cublasLtMatmulDescCreate( cublasLtMatmulDesc_t *matmulDesc,
                                         cublasComputeType_t computeType,
                                         cudaDataType_t scaleType);

该函数通过分配所需内存来保存其不透明结构，从而创建一个矩阵乘法描述符。

参数:

参数	输入/输出	描述
`matmulDesc`	输出	指向该函数创建的矩阵乘法描述符结构的指针。参见cublasLtMatmulDesc_t。
`computeType`	输入	枚举值，用于指定该函数创建的矩阵乘法描述符的数据精度。参见cublasComputeType_t。
`scaleType`	输入	枚举值，用于指定该函数创建的矩阵变换描述符的数据精度。参见cudaDataType_t。

返回:

返回值	描述
`CUBLAS_STATUS_ALLOC_FAILED`	如果无法分配内存。
`CUBLAS_STATUS_SUCCESS`	如果描述符创建成功。

查看cublasStatus_t获取完整有效返回码列表。

3.4.26. cublasLtMatmulDescInit()

cublasStatus_t cublasLtMatmulDescInit( cublasLtMatmulDesc_t matmulDesc,
                                       cublasComputeType_t computeType,
                                       cudaDataType_t scaleType);

该函数在预先分配的矩阵乘法描述符中进行初始化。

参数:

参数	输入/输出	描述
`matmulDesc`	输出	指向该函数初始化的矩阵乘法描述符结构的指针。参见 cublasLtMatmulDesc_t。
`computeType`	输入	枚举值，用于指定该函数初始化的矩阵乘法描述符的数据精度。参见cublasComputeType_t。
`scaleType`	输入	枚举值，用于指定该函数初始化的矩阵变换描述符的数据精度。参见 cudaDataType_t。

返回:

返回值	描述
`CUBLAS_STATUS_ALLOC_FAILED`	如果无法分配内存。
`CUBLAS_STATUS_SUCCESS`	如果描述符创建成功。

查看cublasStatus_t获取完整有效返回码列表。

3.4.27. cublasLtMatmulDescDestroy()

cublasStatus_t cublasLtMatmulDescDestroy(
      cublasLtMatmulDesc_t matmulDesc);

该函数销毁先前创建的矩阵乘法描述符对象。

参数:

参数	内存	输入/输出	描述
`matmulDesc`		输入	指向应由此函数销毁的矩阵乘法描述符结构的指针。请参阅cublasLtMatmulDesc_t。

返回:

返回值	描述
`CUBLAS_STATUS_SUCCESS`	如果操作成功。

查看cublasStatus_t获取完整有效返回码列表。

3.4.28. cublasLtMatmulDescGetAttribute()

cublasStatus_t cublasLtMatmulDescGetAttribute(
      cublasLtMatmulDesc_t matmulDesc,
      cublasLtMatmulDescAttributes_t attr,
      void *buf,
      size_t sizeInBytes,
      size_t *sizeWritten);

该函数返回先前创建的矩阵乘法描述符中查询属性的值。

参数:

参数	输入/输出	描述
`matmulDesc`	输入	指向之前创建的矩阵乘法描述符结构的指针，该结构由本函数查询。参见cublasLtMatmulDesc_t。
`attr`	输入	该函数将获取的属性。参见cublasLtMatmulDescAttributes_t。
`buf`	输出	包含此函数检索到的属性值的内存地址。
`sizeInBytes`	输入	`buf`缓冲区的大小（以字节为单位），用于验证。
`sizeWritten`	输出	仅在返回值为CUBLAS_STATUS_SUCCESS时有效。如果`sizeInBytes`非零：则`sizeWritten`表示实际写入的字节数；如果`sizeInBytes`为零：则`sizeWritten`表示写入完整内容所需的字节数。

返回:

返回值	描述
`CUBLAS_STATUS_INVALID_VALUE`	如果 `sizeInBytes` 为 0 且 `sizeWritten` 为 NULL，或者如果 `sizeInBytes` 非零且 `buf` 为 NULL，或者 `sizeInBytes` 与所选属性的内部存储大小不匹配
`CUBLAS_STATUS_SUCCESS`	如果属性值成功写入用户内存。

查看cublasStatus_t获取完整有效返回码列表。

3.4.29. cublasLtMatmulDescSetAttribute()

cublasStatus_t cublasLtMatmulDescSetAttribute(
      cublasLtMatmulDesc_t matmulDesc,
      cublasLtMatmulDescAttributes_t attr,
      const void *buf,
      size_t sizeInBytes);

此函数用于设置先前创建的矩阵乘法描述符中指定属性的值。

参数:

参数	输入/输出	描述
`matmulDesc`	输入	指向之前创建的结构体指针，该结构体包含本函数查询的矩阵乘法描述符。详见cublasLtMatmulDesc_t。
`attr`	输入	该函数将设置的属性。参见cublasLtMatmulDescAttributes_t。
`buf`	输入	要将指定属性设置的值。
`sizeInBytes`	输入	`buf`缓冲区的大小（以字节为单位），用于验证。

返回:

返回值	描述
`CUBLAS_STATUS_INVALID_VALUE`	如果`buf`为NULL或`sizeInBytes`与所选属性的内部存储大小不匹配。
`CUBLAS_STATUS_SUCCESS`	如果属性设置成功。

查看cublasStatus_t获取完整有效返回码列表。

3.4.30. cublasLtMatmulPreferenceCreate()

cublasStatus_t cublasLtMatmulPreferenceCreate(
      cublasLtMatmulPreference_t *pref);

该函数通过分配所需内存来保存其不透明结构，从而创建一个矩阵乘法启发式搜索偏好描述符。

参数:

参数	内存	输入/输出	描述
`pref`		输出	指向该函数创建的矩阵乘法偏好描述符结构的指针。参见cublasLtMatrixLayout_t。

返回:

返回值	描述
`CUBLAS_STATUS_ALLOC_FAILED`	如果无法分配内存。
`CUBLAS_STATUS_SUCCESS`	如果描述符创建成功。

查看cublasStatus_t获取完整有效返回码列表。

3.4.31. cublasLtMatmulPreferenceInit()

cublasStatus_t cublasLtMatmulPreferenceInit(
      cublasLtMatmulPreference_t pref);

该函数在预先分配的矩阵乘法启发式搜索偏好描述符中进行初始化。

参数:

参数	内存	输入/输出	描述
`pref`		输出	指向该函数创建的矩阵乘法偏好描述符结构的指针。参见cublasLtMatrixLayout_t。

返回:

返回值	描述
`CUBLAS_STATUS_ALLOC_FAILED`	如果无法分配内存。
`CUBLAS_STATUS_SUCCESS`	如果描述符创建成功。

查看cublasStatus_t获取完整有效返回码列表。

3.4.32. cublasLtMatmulPreferenceDestroy()

cublasStatus_t cublasLtMatmulPreferenceDestroy(
      cublasLtMatmulPreference_t pref);

该函数销毁先前创建的矩阵乘法偏好描述符对象。

参数:

参数	内存	输入/输出	描述
`pref`		输入	指向应由此函数销毁的矩阵乘法偏好描述符结构的指针。参见cublasLtMatmulPreference_t。

返回:

返回值	描述
`CUBLAS_STATUS_SUCCESS`	如果操作成功。

查看cublasStatus_t获取完整有效返回码列表。

3.4.33. cublasLtMatmulPreferenceGetAttribute()

cublasStatus_t cublasLtMatmulPreferenceGetAttribute(
      cublasLtMatmulPreference_t pref,
      cublasLtMatmulPreferenceAttributes_t attr,
      void *buf,
      size_t sizeInBytes,
      size_t *sizeWritten);

该函数返回先前创建的矩阵乘法启发式搜索偏好描述符中查询属性的值。

参数:

参数	输入/输出	描述
`pref`	输入	指向之前创建的结构体指针，该结构体保存了由本函数查询的矩阵乘法启发式搜索偏好描述符。参见cublasLtMatmulPreference_t。
`attr`	输入	该函数将要查询的属性。请参阅cublasLtMatmulPreferenceAttributes_t。
`buf`	输出	包含此函数检索到的属性值的内存地址。
`sizeInBytes`	输入	`buf`缓冲区的大小（以字节为单位），用于验证。
`sizeWritten`	输出	仅在返回值为CUBLAS_STATUS_SUCCESS时有效。如果`sizeInBytes`非零：则`sizeWritten`表示实际写入的字节数；如果`sizeInBytes`为零：则`sizeWritten`表示写入完整内容所需的字节数。

返回:

返回值	描述
`CUBLAS_STATUS_INVALID_VALUE`	如果 `sizeInBytes` 为 0 且 `sizeWritten` 为 NULL，或者如果 `sizeInBytes` 不为零且 `buf` 为 NULL，或 `sizeInBytes` 与所选属性的内部存储大小不匹配
`CUBLAS_STATUS_SUCCESS`	如果属性值成功写入用户内存。

查看cublasStatus_t获取完整有效返回码列表。

3.4.34. cublasLtMatmulPreferenceSetAttribute()

cublasStatus_t cublasLtMatmulPreferenceSetAttribute(
      cublasLtMatmulPreference_t pref,
      cublasLtMatmulPreferenceAttributes_t attr,
      const void *buf,
      size_t sizeInBytes);

此函数用于设置先前创建的矩阵乘法偏好描述符中指定属性的值。

参数:

参数	输入/输出	描述
`pref`	输入	指向之前创建的结构体指针，该结构体保存了本函数查询的矩阵乘法偏好描述符。参见cublasLtMatmulPreference_t。
`attr`	输入	该函数将设置的属性。参见cublasLtMatmulPreferenceAttributes_t。
`buf`	输入	要将指定属性设置的值。
`sizeInBytes`	输入	`buf`缓冲区的大小（以字节为单位），用于验证。

返回:

返回值	描述
`CUBLAS_STATUS_INVALID_VALUE`	如果buf为NULL或`sizeInBytes`与所选属性的内部存储大小不匹配。
`CUBLAS_STATUS_SUCCESS`	如果属性设置成功。

查看cublasStatus_t获取完整有效返回码列表。

3.4.35. cublasLtMatrixLayoutCreate()

cublasStatus_t cublasLtMatrixLayoutCreate( cublasLtMatrixLayout_t *matLayout,
                                           cudaDataType type,
                                           uint64_t rows,
                                           uint64_t cols,
                                           int64_t ld);

该函数通过分配所需内存来保存其不透明结构，从而创建一个矩阵布局描述符。

参数:

参数	输入/输出	描述
`matLayout`	输出	指向该函数创建的矩阵布局描述符结构的指针。参见cublasLtMatrixLayout_t。
`type`	输入	枚举值，用于指定此函数创建的矩阵布局描述符的数据精度。参见cudaDataType_t。
`rows`, `cols`	输入	矩阵的行数和列数。
`ld`	输入	矩阵的主维度。在列主序布局中，这表示跳转到下一列需要跨越的元素个数。因此 `ld >= m` (行数)。

返回:

返回值	描述
`CUBLAS_STATUS_ALLOC_FAILED`	如果无法分配内存。
`CUBLAS_STATUS_SUCCESS`	如果描述符创建成功。

查看cublasStatus_t获取完整有效返回码列表。

3.4.36. cublasLtMatrixLayoutInit()

cublasStatus_t cublasLtMatrixLayoutInit( cublasLtMatrixLayout_t matLayout,
                                         cudaDataType type,
                                         uint64_t rows,
                                         uint64_t cols,
                                         int64_t ld);

该函数在预先分配的矩阵布局描述符中进行初始化。

参数:

参数	输入/输出	描述
`matLayout`	输出	指向该函数初始化的矩阵布局描述符结构的指针。参见 cublasLtMatrixLayout_t。
`type`	输入	枚举值，用于指定该函数初始化的矩阵布局描述符的数据精度。参见cudaDataType_t。
`rows`, `cols`	输入	矩阵的行数和列数。
`ld`	输入	矩阵的主维度。在列主序布局中，这是跳到下一列需要跨越的元素数量。因此 `ld >= m` (行数)。

返回:

返回值	描述
`CUBLAS_STATUS_ALLOC_FAILED`	如果无法分配内存。
`CUBLAS_STATUS_SUCCESS`	如果描述符创建成功。

查看cublasStatus_t获取完整有效返回码列表。

3.4.37. cublasLtMatrixLayoutDestroy()

cublasStatus_t cublasLtMatrixLayoutDestroy(
      cublasLtMatrixLayout_t matLayout);

该函数销毁先前创建的矩阵布局描述符对象。

参数:

参数	内存	输入/输出	描述
`matLayout`		输入	指向应由此函数销毁的矩阵布局描述符结构的指针。参见cublasLtMatrixLayout_t。

返回:

返回值	描述
`CUBLAS_STATUS_SUCCESS`	如果操作成功。

查看cublasStatus_t获取完整有效返回码列表。

3.4.38. cublasLtMatrixLayoutGetAttribute()

cublasStatus_t cublasLtMatrixLayoutGetAttribute(
      cublasLtMatrixLayout_t matLayout,
      cublasLtMatrixLayoutAttribute_t attr,
      void *buf,
      size_t sizeInBytes,
      size_t *sizeWritten);

该函数返回指定矩阵布局描述符中查询属性的值。

参数:

参数	输入/输出	描述
`matLayout`	输入	指向之前创建的结构体指针，该结构体保存了此函数查询的矩阵布局描述符。参见cublasLtMatrixLayout_t。
`attr`	输入	要查询的属性。请参阅cublasLtMatrixLayoutAttribute_t。
`buf`	输出	该函数返回的属性值。
`sizeInBytes`	输入	`buf`缓冲区的大小（以字节为单位），用于验证。
`sizeWritten`	输出	仅在返回值为CUBLAS_STATUS_SUCCESS时有效。如果`sizeInBytes`非零：则`sizeWritten`表示实际写入的字节数；如果`sizeInBytes`为零：则`sizeWritten`表示写入完整内容所需的字节数。

返回:

返回值	描述
CUBLAS_STATUS_INVALID_VALUE	如果 `sizeInBytes` 为 0 且 `sizeWritten` 为 NULL，或者如果 `sizeInBytes` 不为零且 `buf` 为 NULL，或者 `sizeInBytes` 与所选属性的内部存储大小不匹配
CUBLAS_STATUS_SUCCESS	如果属性值成功写入用户内存。

查看cublasStatus_t获取完整有效返回码列表。

3.4.39. cublasLtMatrixLayoutSetAttribute()

cublasStatus_t cublasLtMatrixLayoutSetAttribute(
      cublasLtMatrixLayout_t matLayout,
      cublasLtMatrixLayoutAttribute_t attr,
      const void *buf,
      size_t sizeInBytes);

此函数用于设置先前创建的矩阵布局描述符中指定属性的值。

参数:

参数	输入/输出	描述
`matLayout`	输入	指向之前创建的结构体指针，该结构体保存了此函数查询的矩阵布局描述符。参见cublasLtMatrixLayout_t。
`attr`	输入	该函数将设置的属性。参见cublasLtMatrixLayoutAttribute_t。
`buf`	输入	要将指定属性设置的值。
`sizeInBytes`	输入	`buf`的大小，即属性缓冲区。

返回:

返回值	描述
`CUBLAS_STATUS_INVALID_VALUE`	如果 `buf` 为 NULL 或 `sizeInBytes` 与所选属性的内部存储大小不匹配。
`CUBLAS_STATUS_SUCCESS`	如果属性设置成功。

查看cublasStatus_t获取完整有效返回码列表。

3.4.40. cublasLtMatrixTransform()

cublasStatus_t cublasLtMatrixTransform(
      cublasLtHandle_t lightHandle,
      cublasLtMatrixTransformDesc_t transformDesc,
      const void *alpha,
      const void *A,
      cublasLtMatrixLayout_t Adesc,
      const void *beta,
      const void *B,
      cublasLtMatrixLayout_t Bdesc,
      void *C,
      cublasLtMatrixLayout_t Cdesc,
      cudaStream_t stream);

该函数根据以下运算对输入矩阵A和B执行矩阵变换操作，生成输出矩阵C：

C = alpha*transformation(A) + beta*transformation(B),

其中 A 和 B 是输入矩阵，alpha 和 beta 是输入标量。转换操作由 transformDesc 指针定义。此函数可用于更改数据的内存顺序，或对值进行缩放和偏移。

参数:

参数	内存	输入/输出	描述
`lightHandle`		输入	指向为cuBLASLt上下文分配的cuBLASLt句柄的指针。参见cublasLtHandle_t。
`transformDesc`		输入	指向保存矩阵变换操作的不透明描述符的指针。参见 cublasLtMatrixTransformDesc_t。
`alpha`, `beta`	设备或主机	输入	指向乘法运算中使用的标量的指针。
`A`, `B`	设备	输入	指向与对应描述符`Adesc`和`Bdesc`相关联的GPU内存的指针。
`C`	设备	输出	指向与`Cdesc`描述符关联的GPU内存的指针。
`Adesc`, `Bdesc` 和 `Cdesc`		输入	指向之前创建的cublasLtMatrixLayout_t类型描述符的句柄。 `Adesc` 或 `Bdesc` 可以为 NULL，前提是对应的指针为 NULL 且对应的标量为零。
`stream`	主机	输入	所有GPU工作将被提交到的CUDA流。

返回:

返回值	描述
`CUBLAS_STATUS_NOT_INITIALIZED`	如果cuBLASLt句柄尚未初始化。
`CUBLAS_STATUS_INVALID_VALUE`	如果参数存在冲突或配置不可行。例如，当`A`不为NULL时，但`Adesc`为NULL。
`CUBLAS_STATUS_NOT_SUPPORTED`	如果所选设备上的当前实现不支持配置的操作。
`CUBLAS_STATUS_ARCH_MISMATCH`	如果无法使用所选设备运行配置的操作。
`CUBLAS_STATUS_EXECUTION_FAILED`	如果CUDA报告设备执行错误。
`CUBLAS_STATUS_SUCCESS`	如果操作成功完成。

查看cublasStatus_t获取完整有效返回码列表。

3.4.41. cublasLtMatrixTransformDescCreate()

cublasStatus_t cublasLtMatrixTransformDescCreate(
      cublasLtMatrixTransformDesc_t *transformDesc,
      cudaDataType scaleType);

该函数通过分配所需内存来保存其不透明结构，从而创建一个矩阵变换描述符。

参数:

参数	内存	输入/输出	描述
`transformDesc`		输出	指向该函数创建的矩阵变换描述符结构的指针。参见cublasLtMatrixTransformDesc_t。
`scaleType`		输入	枚举值，用于指定该函数创建的矩阵变换描述符的数据精度。参见cudaDataType_t。

返回:

返回值	描述
`CUBLAS_STATUS_ALLOC_FAILED`	如果无法分配内存。
`CUBLAS_STATUS_SUCCESS`	如果描述符创建成功。

查看cublasStatus_t获取完整有效返回码列表。

3.4.42. cublasLtMatrixTransformDescInit()

cublasStatus_t cublasLtMatrixTransformDescInit(
      cublasLtMatrixTransformDesc_t transformDesc,
      cudaDataType scaleType);

该函数在预先分配的矩阵变换描述符中进行初始化。

参数:

参数	内存	输入/输出	描述
`transformDesc`		输出	指向该函数初始化的矩阵变换描述符结构的指针。参见 cublasLtMatrixTransformDesc_t。
`scaleType`		输入	枚举值，用于指定该函数初始化的矩阵变换描述符的数据精度。参见 cudaDataType_t。

返回:

返回值	描述
`CUBLAS_STATUS_ALLOC_FAILED`	如果无法分配内存。
`CUBLAS_STATUS_SUCCESS`	如果描述符创建成功。

查看cublasStatus_t获取完整有效返回码列表。

3.4.43. cublasLtMatrixTransformDescDestroy()

cublasStatus_t cublasLtMatrixTransformDescDestroy(
      cublasLtMatrixTransformDesc_t transformDesc);

该函数销毁先前创建的矩阵变换描述符对象。

参数:

参数	内存	输入/输出	描述
`transformDesc`		输入	指向应被此函数销毁的矩阵变换描述符结构的指针。参见cublasLtMatrixTransformDesc_t。

返回:

返回值	描述
`CUBLAS_STATUS_SUCCESS`	如果操作成功。

查看cublasStatus_t获取完整有效返回码列表。

3.4.44. cublasLtMatrixTransformDescGetAttribute()

cublasStatus_t cublasLtMatrixTransformDescGetAttribute(
      cublasLtMatrixTransformDesc_t transformDesc,
      cublasLtMatrixTransformDescAttributes_t attr,
      void *buf,
      size_t sizeInBytes,
      size_t *sizeWritten);

该函数返回先前创建的矩阵变换描述符中查询属性的值。

参数:

参数	输入/输出	描述
`transformDesc`	输入	指向之前创建的结构体指针，该结构体保存了本函数查询的矩阵变换描述符。参见cublasLtMatrixTransformDesc_t。
`attr`	输入	该函数将获取的属性。参见cublasLtMatrixTransformDescAttributes_t。
`buf`	输出	包含此函数检索到的属性值的内存地址。
`sizeInBytes`	输入	`buf`缓冲区的大小（以字节为单位），用于验证。
`sizeWritten`	输出	仅在返回值为CUBLAS_STATUS_SUCCESS时有效。如果`sizeInBytes`非零：则`sizeWritten`表示实际写入的字节数；如果`sizeInBytes`为零：则`sizeWritten`表示写入完整内容所需的字节数。

返回:

返回值	描述
`CUBLAS_STATUS_INVALID_VALUE`	如果 `sizeInBytes` 为零且 `sizeWritten` 为 NULL，或者如果 `sizeInBytes` 非零且 `buf` 为 NULL，或如果 `sizeInBytes` 与所选属性的内部存储大小不匹配
`CUBLAS_STATUS_SUCCESS`	如果属性值成功写入用户内存。

查看cublasStatus_t获取完整有效返回码列表。

3.4.45. cublasLtMatrixTransformDescSetAttribute()

cublasStatus_t cublasLtMatrixTransformDescSetAttribute(
      cublasLtMatrixTransformDesc_t transformDesc,
      cublasLtMatrixTransformDescAttributes_t attr,
      const void *buf,
      size_t sizeInBytes);

此函数用于设置先前创建的矩阵变换描述符中指定属性的值。

参数:

参数	输入/输出	描述
`transformDesc`	输入	指向之前创建的结构体指针，该结构体保存了本函数查询的矩阵变换描述符。参见cublasLtMatrixTransformDesc_t。
`attr`	输入	该函数将设置的属性。参见cublasLtMatrixTransformDescAttributes_t。
`buf`	输入	要将指定属性设置的值。
`sizeInBytes`	输入	`buf`缓冲区的大小（以字节为单位），用于验证。

返回:

返回值	描述
`CUBLAS_STATUS_INVALID_VALUE`	如果`buf`为NULL或`sizeInBytes`与所选属性的内部存储大小不匹配。
`CUBLAS_STATUS_SUCCESS`	如果属性设置成功。

查看cublasStatus_t获取完整有效返回码列表。

4. 使用cuBLASXt API

4.1. 概述

cuBLAS的cuBLASXt API提供了一个支持多GPU的主机接口：使用此API时，应用程序只需在主机内存空间中分配所需的矩阵。此外，当前实现在Linux上支持计算能力6.x或更高版本的GPU设备的托管内存，但将其视为主机内存。Windows不支持托管内存。只要矩阵大小能容纳在主机内存中，就没有限制。cuBLASXt API负责在指定的GPU之间分配内存并分发工作负载，最终将结果检索回主机。cuBLASXt API仅支持计算密集型的BLAS3例程（例如矩阵-矩阵运算），其中可以分摊来回GPU的PCI传输。cuBLASXt API有自己的头文件cublasXt.h。

从8.0版本开始，cuBLASXt API允许将任何矩阵放置在GPU设备上。

注意

当使用流序内存分配器提供GPU上分配的矩阵时，通过使用cudaMemPoolSetAccess确保所有设备间的可见性。

注意

cuBLASXt API 仅支持64位平台。

4.1.1. 分块设计方法

为了能在多个GPU之间分担工作负载，cuBLASXt API采用了一种分块策略：每个矩阵被划分为用户可控制尺寸的BlockDim x BlockDim方形块。由此产生的矩阵分块定义了静态调度策略：每个结果块以轮询方式分配给一个GPU。每个GPU会创建一个CPU线程，负责执行正确的内存传输和cuBLAS操作来计算其负责的所有分块。从性能角度来看，由于这种静态调度策略，最好每个GPU的计算能力和PCI带宽都相同。下图展示了3个GPU之间的分块分布情况。为了计算C中的第一个分块G0，负责GPU0的CPU线程0需要以流水线方式从A的第一行加载3个分块和B的第一列分块，以便重叠内存传输和计算，并将结果累加到C的第一个分块G0中，然后再处理下一个G0分块。

Example of cublasXt<t>gemm() tiling for 3 Gpus — 针对3个GPU的cublasXtgemm()分块示例

当分块维度不是C维度的精确倍数时，部分分块会在右边界或/和下边界出现未填满的情况。当前实现方案不会对不完整分块进行填充，而是通过执行正确的精简cuBLAS操作来跟踪这些不完整分块：这种方式不会产生额外计算量。不过当所有GPU需要处理的不完整分块数量不一致时，仍可能导致负载不均衡问题。

当一个或多个矩阵位于某些GPU设备上时，会采用相同的分块方法和工作负载分配。在这种情况下，内存传输是在设备之间进行的。然而，当某个分块的计算和相关数据位于同一GPU设备上时，会绕过与本地数据之间的内存传输，GPU直接对本地数据进行操作。这可以显著提高性能，特别是当仅使用一个GPU进行计算时。

矩阵可以位于任何GPU设备上，且不必位于同一GPU设备上。此外，矩阵甚至可以位于不参与计算的GPU设备上。

与cuBLAS API相反，即使所有矩阵都位于同一设备上，从主机的角度来看，cuBLASXt API仍然是一个阻塞式API：无论数据位于何处，在调用返回时结果都将有效，且不需要设备同步。

4.1.2. 混合CPU-GPU计算

对于非常大的问题，cuBLASXt API提供了将部分计算任务卸载到主机CPU的可能性。此功能可以通过cublasXtSetCpuRoutine()和cublasXtSetCpuRatio()例程进行设置。分配给CPU的工作负载会被单独处理：它只是从结果矩阵的底部和右侧（取较大维度的一侧）提取一定百分比的数据。GPU的平铺操作随后会在缩减后的结果矩阵上执行。

如果任何矩阵位于GPU设备上，该特性将被忽略，所有计算将仅在GPU上完成

此功能应谨慎使用，因为它可能会干扰负责向GPU提供数据的CPU线程。

目前，只有例程cublasXtgemm()支持此功能。

4.1.3. 结果可复现性

目前，当满足以下条件时，来自给定工具包版本的所有cuBLASXt API例程都会生成相同的位级结果：

参与计算的所有GPU具有相同的计算能力和相同数量的流式多处理器(SMs)。
每次运行时瓦片大小保持一致。
要么不使用CPU混合计算，要么提供的CPU Blas也保证能产生可重现的结果。

4.2. cuBLASXt API 数据类型参考

4.2.1. cublasXtHandle_t

cublasXtHandle_t类型是一个指向不透明结构的指针类型，该结构保存了cuBLASXt API上下文。必须使用cublasXtCreate()初始化cuBLASXt API上下文，并且返回的句柄必须传递给所有后续的cuBLASXt API函数调用。最后应使用cublasXtDestroy()销毁该上下文。

4.2.2. cublasXtOpType_t

cublasOpType_t 枚举了BLAS例程支持的四种可能类型。该枚举用作例程 cublasXtSetCpuRoutine 和 cublasXtSetCpuRatio 的参数，用于设置混合配置。

值	含义
`CUBLASXT_FLOAT`	浮点数或单精度类型
`CUBLASXT_DOUBLE`	双精度类型
`CUBLASXT_COMPLEX`	单精度复数
`CUBLASXT_DOUBLECOMPLEX`	双精度复数

4.2.3. cublasXtBlasOp_t

cublasXtBlasOp_t 类型枚举了 cuBLASXt API 支持的 BLAS3 或类 BLAS 例程。该枚举用作例程 cublasXtSetCpuRoutine 和 cublasXtSetCpuRatio 的参数，用于设置混合配置。

值	含义
`CUBLASXT_GEMM`	GEMM例程
`CUBLASXT_SYRK`	SYRK 例程
`CUBLASXT_HERK`	HERK 例程
`CUBLASXT_SYMM`	SYMM 例程
`CUBLASXT_HEMM`	HEMM 例程
`CUBLASXT_TRSM`	TRSM 例程
`CUBLASXT_SYR2K`	SYR2K 例程
`CUBLASXT_HER2K`	HER2K 例程
`CUBLASXT_SPMM`	SPMM例程
`CUBLASXT_SYRKX`	SYRKX 例程
`CUBLASXT_HERKX`	HERKX 例程

4.2.4. cublasXtPinningMemMode_t

该类型用于通过例程cubasMgSetPinningMemMode启用或禁用内存固定模式

值	含义
`CUBLASXT_PINNING_DISABLED`	固定内存模式已禁用
`CUBLASXT_PINNING_ENABLED`	已启用固定内存模式

4.3. cuBLASXt API 辅助函数参考

4.3.1. cublasXtCreate()

cublasStatus_t
cublasXtCreate(cublasXtHandle_t *handle)

该函数用于初始化cuBLASXt API并创建一个指向不透明结构的句柄，该结构保存了cuBLASXt API上下文。它会在主机和设备上分配硬件资源，必须在调用任何其他cuBLASXt API函数之前执行。

返回值	含义
`CUBLAS_STATUS_SUCCESS`	初始化成功
`CUBLAS_STATUS_ALLOC_FAILED`	无法分配资源
`CUBLAS_STATUS_NOT_SUPPORTED`	cuBLASXt API 仅支持64位平台

4.3.2. cublasXtDestroy()

cublasStatus_t
cublasXtDestroy(cublasXtHandle_t handle)

此函数释放由cuBLASXt API上下文使用的硬件资源。GPU资源的释放可能会延迟到应用程序退出时。此函数通常是针对特定cuBLASXt API句柄的最后一次调用。

返回值	含义
`CUBLAS_STATUS_SUCCESS`	关闭成功
`CUBLAS_STATUS_NOT_INITIALIZED`	库未初始化

4.3.3. cublasXtDeviceSelect()

cublasXtDeviceSelect(cublasXtHandle_t handle, int nbDevices, int deviceId[])

此函数允许用户指定参与后续cuBLASXt API数学函数调用的GPU设备数量及其对应的ID。该函数将为列表中提供的每个GPU创建一个cuBLAS上下文。当前设备配置是静态的，不能在数学函数调用之间更改。因此，该函数应在cublasXtCreate之后仅调用一次。若要运行多种配置，应创建多个cuBLASXt API上下文。

返回值	含义
`CUBLAS_STATUS_SUCCESS`	用户调用成功
`CUBLAS_STATUS_INVALID_VALUE`	无法访问至少一个设备，或者无法在至少一个设备上创建 cuBLAS 上下文
`CUBLAS_STATUS_ALLOC_FAILED`	部分资源无法分配。

4.3.4. cublasXtSetBlockDim()

cublasXtSetBlockDim(cublasXtHandle_t handle, int blockDim)

此函数允许用户为后续数学函数调用设置用于矩阵分块的块维度。矩阵会被分割为blockDim x blockDim维度的方形块。该函数可随时调用，并对后续数学函数调用生效。选择块维度时应以优化数学运算并确保PCI传输与计算良好重叠为目标。

返回值	含义
`CUBLAS_STATUS_SUCCESS`	调用已成功
`CUBLAS_STATUS_INVALID_VALUE`	blockDim <= 0

4.3.5. cublasXtGetBlockDim()

cublasXtGetBlockDim(cublasXtHandle_t handle, int *blockDim)

该函数允许用户查询用于矩阵分块的块维度。

返回值	含义
`CUBLAS_STATUS_SUCCESS`	调用已成功

4.3.6. cublasXtSetCpuRoutine()

cublasXtSetCpuRoutine(cublasXtHandle_t handle, cublasXtBlasOp_t blasOp, cublasXtOpType_t type, void *blasFunctor)

此函数允许用户提供相应BLAS例程的CPU实现。该函数可与cublasXtSetCpuRatio()函数配合使用，以定义CPU与GPU之间的混合计算。目前混合计算功能仅支持xGEMM例程。

返回值	含义
`CUBLAS_STATUS_SUCCESS`	调用已成功
`CUBLAS_STATUS_INVALID_VALUE`	blasOp或类型定义了无效的组合
`CUBLAS_STATUS_NOT_SUPPORTED`	该例程不支持CPU-GPU混合计算

4.3.7. cublasXtSetCpuRatio()

cublasXtSetCpuRatio(cublasXtHandle_t handle, cublasXtBlasOp_t blasOp, cublasXtOpType_t type, float ratio )

此函数允许用户在混合计算场景下定义应在CPU上完成的工作负载百分比。该函数可与cublasXtSetCpuRoutine()函数配合使用，以定义CPU与GPU之间的混合计算。目前混合特性仅支持xGEMM例程。

返回值	含义
`CUBLAS_STATUS_SUCCESS`	调用已成功
`CUBLAS_STATUS_INVALID_VALUE`	blasOp或类型定义了无效的组合
`CUBLAS_STATUS_NOT_SUPPORTED`	该例程不支持CPU-GPU混合计算

4.3.8. cublasXtSetPinningMemMode()

cublasXtSetPinningMemMode(cublasXtHandle_t handle, cublasXtPinningMemMode_t mode)

此功能允许用户启用或禁用内存固定模式。启用后，在后续cuBLASXt API调用中传入的矩阵若尚未固定，将分别通过CUDART例程cudaHostRegister()和cudaHostUnregister()进行固定/解固定操作。若矩阵仅部分固定，则同样不会执行固定操作。内存固定可提升PCI传输性能，并实现PCI内存传输与计算的重叠。但固定/解固定操作本身耗时可能无法被分摊。建议用户自行通过cudaMallocHost()或cudaHostRegister()固定内存，并在计算序列完成后解除固定。默认情况下，内存固定模式处于禁用状态。

注意

当用于不同cuBLASXt API调用的矩阵存在重叠时，不应启用固定内存模式。cuBLASXt通过cudaHostGetFlags()判断矩阵的第一个地址是否被固定，因此无法知晓该矩阵是否已被部分固定。这种情况在多线程应用中尤为明显，当一个线程正在访问某块内存时，其他线程可能已对该内存进行部分或全部固定/解固定操作。

返回值	含义
`CUBLAS_STATUS_SUCCESS`	调用已成功
`CUBLAS_STATUS_INVALID_VALUE`	模式值与 `CUBLASXT_PINNING_DISABLED` 和 `CUBLASXT_PINNING_ENABLED` 不同

4.3.9. cublasXtGetPinningMemMode()

cublasXtGetPinningMemMode(cublasXtHandle_t handle, cublasXtPinningMemMode_t *mode)

此函数允许用户查询固定内存模式。默认情况下，固定内存模式处于禁用状态。

返回值	含义
`CUBLAS_STATUS_SUCCESS`	调用已成功

4.4. cuBLASXt API 数学函数参考

本章我们将介绍cuBLASXt API支持的实际线性代数例程。为简洁清晰地展示所实现的函数，我们将使用缩写<type>表示数据类型，<t>表示对应的短类型。除非另有说明，<type>和<t>具有以下含义：

<type>	<t>	含义
`float`	's' 或 'S'	实数单精度
`double`	'd' 或 'D'	真实双精度
`cuComplex`	'c' 或 'C'	复数单精度
`cuDoubleComplex`	'z' 或 'Z'	复数双精度

缩写$\mathbf{Re}(\cdot)$和$\mathbf{Im}(\cdot)$分别表示一个数的实部和虚部。由于实数不存在虚部，我们将其视为零，通常可以直接从使用它的方程中省略。此外，$\bar{\alpha}$表示$\alpha$的复共轭。

在文档的通用约定中，小写希腊字母符号$\alpha$和$\beta$表示标量，粗体的小写英文字母$\mathbf{x}$和$\mathbf{y}$表示向量，大写的英文字母$A$、$B$和$C$表示矩阵。

4.4.1. cublasXtgemm()

cublasStatus_t cublasXtSgemm(cublasXtHandle_t handle,
                           cublasOperation_t transa, cublasOperation_t transb,
                           size_t m, size_t n, size_t k,
                           const float           *alpha,
                           const float           *A, int lda,
                           const float           *B, int ldb,
                           const float           *beta,
                           float           *C, int ldc)
cublasStatus_t cublasXtDgemm(cublasXtHandle_t handle,
                           cublasOperation_t transa, cublasOperation_t transb,
                           int m, int n, int k,
                           const double          *alpha,
                           const double          *A, int lda,
                           const double          *B, int ldb,
                           const double          *beta,
                           double          *C, int ldc)
cublasStatus_t cublasXtCgemm(cublasXtHandle_t handle,
                           cublasOperation_t transa, cublasOperation_t transb,
                           int m, int n, int k,
                           const cuComplex       *alpha,
                           const cuComplex       *A, int lda,
                           const cuComplex       *B, int ldb,
                           const cuComplex       *beta,
                           cuComplex       *C, int ldc)
cublasStatus_t cublasXtZgemm(cublasXtHandle_t handle,
                           cublasOperation_t transa, cublasOperation_t transb,
                           int m, int n, int k,
                           const cuDoubleComplex *alpha,
                           const cuDoubleComplex *A, int lda,
                           const cuDoubleComplex *B, int ldb,
                           const cuDoubleComplex *beta,
                           cuDoubleComplex *C, int ldc)

该函数执行矩阵与矩阵的乘法运算

$C = \alpha\text{op}(A)\text{op}(B) + \beta C$

其中$\alpha$和$\beta$是标量，$A$、$B$和$C$是以列主序格式存储的矩阵，其维度分别为$\text{op}(A)$$m \times k$、$\text{op}(B)$$k \times n$和$C$$m \times n$。同样地，对于矩阵$A$

$\text{op}(A) = \left\{ \begin{matrix} A & {\text{如果 }\textsf{transa == $\mathrm{CUBLAS\_OP\_N}$}} \\ A^{T} & {\text{如果 }\textsf{transa == $\mathrm{CUBLAS\_OP\_T}$}} \\ A^{H} & {\text{如果 }\textsf{transa == $\mathrm{CUBLAS\_OP\_C}$}} \\ \end{matrix} \right.$

并且矩阵 $B$ 的 $\text{op}(B)$ 也以类似方式定义。

参数	内存	输入/输出	含义
`handle`		输入	cuBLASXt API 上下文的句柄。
`transa`		输入	操作op(`A`)可以是非转置或(conj.)转置。
`transb`		输入	操作op(`B`)表示非转置或共轭转置。
`m`		输入	矩阵 op(`A`) 和 `C` 的行数。
`n`		输入	矩阵 op(`B`) 和 `C` 的列数。
`k`		输入	op(`A`)的列数与op(`B`)的行数。
`alpha`	主机	输入	<type> 用于乘法的标量。
`A`	主机或设备	输入	<类型> 维度数组 `lda x k`，当 `transa == CUBLAS_OP_N` 时要求 `lda >= max(1, m)`，否则为 `lda x m` 且 `lda >= max(1, k)`。
`lda`		输入	用于存储矩阵 `A` 的二维数组的主维度。
`B`	主机或设备	输入	<类型> 维度为 `ldb x n` 的数组，当 `transb == CUBLAS_OP_N` 时要求 `ldb >= max(1, k)`，否则为 `ldb x k` 维度且要求 `ldb >= max(1, n)`。
`ldb`		输入	用于存储矩阵`B`的二维数组的主维度。
`beta`	主机	输入	<类型> 用于乘法的标量。如果 `beta == 0`，则 `C` 不需要是有效输入。
`C`	主机或设备	输入/输出	<类型> 维度数组 `ldc x n`，其中 `ldc >= max(1, m)`。
`ldc`		输入	用于存储矩阵`C`的二维数组的主维度。

该函数可能返回的错误值及其含义如下所示。

错误值	含义
`CUBLAS_STATUS_SUCCESS`	操作成功完成
`CUBLAS_STATUS_NOT_INITIALIZED`	库未初始化
`CUBLAS_STATUS_INVALID_VALUE`	参数 `m,n,k<0`
`CUBLAS_STATUS_EXECUTION_FAILED`	该函数无法在GPU上启动

参考资料请查阅NETLIB文档：

sgemm(), dgemm(), cgemm(), zgemm()

4.4.2. cublasXthemm()

cublasStatus_t cublasXtChemm(cublasXtHandle_t handle,
                           cublasSideMode_t side, cublasFillMode_t uplo,
                           size_t m, size_t n,
                           const cuComplex       *alpha,
                           const cuComplex       *A, size_t lda,
                           const cuComplex       *B, size_t ldb,
                           const cuComplex       *beta,
                           cuComplex       *C, size_t ldc)
cublasStatus_t cublasXtZhemm(cublasXtHandle_t handle,
                           cublasSideMode_t side, cublasFillMode_t uplo,
                           size_t m, size_t n,
                           const cuDoubleComplex *alpha,
                           const cuDoubleComplex *A, size_t lda,
                           const cuDoubleComplex *B, size_t ldb,
                           const cuDoubleComplex *beta,
                           cuDoubleComplex *C, size_t ldc)

该函数执行厄米特矩阵-矩阵乘法

$C = \left\{ \begin{matrix} {\alpha AB + \beta C} & {\text{如果 }\textsf{side == $\mathrm{CUBLAS\_SIDE\_LEFT}$}} \\ {\alpha BA + \beta C} & {\text{如果 }\textsf{side == $\mathrm{CUBLAS\_SIDE\_RIGHT}$}} \\ \end{matrix} \right.$

其中$A$是一个以低位或高位模式存储的埃尔米特矩阵，$B$和$C$是$m \times n$矩阵，$\alpha$和$\beta$是标量。

参数	内存	输入/输出	含义
`handle`		输入	cuBLASXt API 上下文的句柄。
`side`		输入	指示矩阵 `A` 位于 `B` 的左侧还是右侧。
`uplo`		输入	指示矩阵 `A` 的下三角或上三角部分是否被存储，另一侧的共轭对称部分不会被引用，而是从存储的元素中推断得出。
`m`		输入	矩阵`C`和`B`的行数，矩阵`A`的大小相应调整。
`n`		输入	矩阵`C`和`B`的列数，矩阵`A`的大小相应调整。
`alpha`	主机	输入	<type> 用于乘法的标量。
`A`	主机或设备	输入	<类型> 维度为 `lda x m` 的数组，当 `side==CUBLAS_SIDE_LEFT` 时要求 `lda >= max(1, m)`，否则为 `lda x n` 且 `lda >= max(1, n)`。假定对角线元素的虚部为零。
`lda`		输入	用于存储矩阵`A`的二维数组的主维度。
`B`	主机或设备	输入	<类型> 维度为 `ldb x n` 的数组，其中 `ldb >= max(1, m)`。
`ldb`		输入	用于存储矩阵`B`的二维数组的主维度。
`beta`	主机	输入	<type> 用于乘法的标量，如果 `beta == 0` 则 `C` 不需要是有效输入。
`C`	主机或设备	输入/输出	<类型> 维度数组 `ldc x n`，其中 `ldc >= max(1, m)`。
`ldc`		输入	用于存储矩阵`C`的二维数组的主维度。

该函数可能返回的错误值及其含义如下所示。

错误值	含义
`CUBLAS_STATUS_SUCCESS`	操作成功完成
`CUBLAS_STATUS_NOT_INITIALIZED`	库未初始化
`CUBLAS_STATUS_INVALID_VALUE`	参数 `m < 0` 或 `n < 0`
`CUBLAS_STATUS_EXECUTION_FAILED`	该函数无法在GPU上启动

参考资料请查阅NETLIB文档：

chemm(), zhemm()

4.4.3. cublasXtsymm()

cublasStatus_t cublasXtSsymm(cublasXtHandle_t handle,
                           cublasSideMode_t side, cublasFillMode_t uplo,
                           size_t m, size_t n,
                           const float           *alpha,
                           const float           *A, size_t lda,
                           const float           *B, size_t ldb,
                           const float           *beta,
                           float           *C, size_t ldc)
cublasStatus_t cublasXtDsymm(cublasXtHandle_t handle,
                           cublasSideMode_t side, cublasFillMode_t uplo,
                           size_t m, size_t n,
                           const double          *alpha,
                           const double          *A, size_t lda,
                           const double          *B, size_t ldb,
                           const double          *beta,
                           double          *C, size_t ldc)
cublasStatus_t cublasXtCsymm(cublasXtHandle_t handle,
                           cublasSideMode_t side, cublasFillMode_t uplo,
                           size_t m, size_t n,
                           const cuComplex       *alpha,
                           const cuComplex       *A, size_t lda,
                           const cuComplex       *B, size_t ldb,
                           const cuComplex       *beta,
                           cuComplex       *C, size_t ldc)
cublasStatus_t cublasXtZsymm(cublasXtHandle_t handle,
                           cublasSideMode_t side, cublasFillMode_t uplo,
                           size_t m, size_t n,
                           const cuDoubleComplex *alpha,
                           const cuDoubleComplex *A, size_t lda,
                           const cuDoubleComplex *B, size_t ldb,
                           const cuDoubleComplex *beta,
                           cuDoubleComplex *C, size_t ldc)

该函数执行对称矩阵-矩阵乘法

$C = \left\{ \begin{matrix} {\alpha AB + \beta C} & {\text{如果 }\textsf{side == $\mathrm{CUBLAS\_SIDE\_LEFT}$}} \\ {\alpha BA + \beta C} & {\text{如果 }\textsf{side == $\mathrm{CUBLAS\_SIDE\_RIGHT}$}} \\ \end{matrix} \right.$

其中$A$是以下三角或上三角模式存储的对称矩阵，$A$和$A$是$m \times n$矩阵，$\alpha$和$\beta$是标量。

参数	内存	输入/输出	含义
`handle`		输入	cuBLASXt API 上下文的句柄。
`side`		输入	指示矩阵 `A` 位于 `B` 的左侧还是右侧。
`uplo`		输入	指示矩阵`A`的下三角部分或上三角部分是否被存储，另一对称部分未被引用，而是从存储的元素中推断得出。
`m`		输入	矩阵`A`和`B`的行数，其中矩阵`A`的大小相应调整。
`n`		输入	矩阵`C`和`A`的列数，其中矩阵`A`的大小相应调整。
`alpha`	主机	输入	<type> 用于乘法的标量。
`A`	主机或设备	输入	类型维度为 `lda x m` 的数组，当 `side == CUBLAS_SIDE_LEFT` 时要求 `lda >= max(1, m)`；否则为 `lda x n` 且 `lda >= max(1, n)`。
`lda`		输入	用于存储矩阵`A`的二维数组的主维度。
`B`	主机或设备	输入	<类型> 维度为 `ldb x n` 的数组，其中 `ldb >= max(1, m)`。
`ldb`		输入	用于存储矩阵`B`的二维数组的主维度。
`beta`	主机	输入	<type> 用于乘法的标量，如果 `beta == 0` 则 `C` 不需要是有效输入。
`C`	主机或设备	输入/输出	<类型> 维度为 `ldc x n` 的数组，其中 `ldc >= max(1, m)`。
`ldc`		输入	用于存储矩阵`C`的二维数组的主维度。

该函数可能返回的错误值及其含义如下所示。

错误值	含义
`CUBLAS_STATUS_SUCCESS`	操作成功完成
`CUBLAS_STATUS_NOT_INITIALIZED`	库未初始化
`CUBLAS_STATUS_INVALID_VALUE`	参数 `m < 0` 或 `n < 0`
`CUBLAS_STATUS_EXECUTION_FAILED`	该函数无法在GPU上启动

参考资料请查阅NETLIB文档：

ssymm(), dsymm(), csymm(), zsymm()

4.4.4. cublasXtsyrk()

cublasStatus_t cublasXtSsyrk(cublasXtHandle_t handle,
                           cublasFillMode_t uplo, cublasOperation_t trans,
                           int n, int k,
                           const float           *alpha,
                           const float           *A, int lda,
                           const float           *beta,
                           float           *C, int ldc)
cublasStatus_t cublasXtDsyrk(cublasXtHandle_t handle,
                           cublasFillMode_t uplo, cublasOperation_t trans,
                           int n, int k,
                           const double          *alpha,
                           const double          *A, int lda,
                           const double          *beta,
                           double          *C, int ldc)
cublasStatus_t cublasXtCsyrk(cublasXtHandle_t handle,
                           cublasFillMode_t uplo, cublasOperation_t trans,
                           int n, int k,
                           const cuComplex       *alpha,
                           const cuComplex       *A, int lda,
                           const cuComplex       *beta,
                           cuComplex       *C, int ldc)
cublasStatus_t cublasXtZsyrk(cublasXtHandle_t handle,
                           cublasFillMode_t uplo, cublasOperation_t trans,
                           int n, int k,
                           const cuDoubleComplex *alpha,
                           const cuDoubleComplex *A, int lda,
                           const cuDoubleComplex *beta,
                           cuDoubleComplex *C, int ldc)

该函数执行对称秩-$k$更新

$C = \alpha\text{op}(A)\text{op}(A)^{T} + \beta C$

其中 $\alpha$ 和 $\beta$ 是标量，$C$ 是以下三角或上三角模式存储的对称矩阵，$A$ 是一个维度为 $\text{op}(A)$ $n \times k$ 的矩阵。同样地，对于矩阵 $A$

$\text{op}(A) = \left\{ \begin{matrix} A & {\text{如果 }\textsf{transa == $\mathrm{CUBLAS\_OP\_N}$}} \\ A^{T} & {\text{如果 }\textsf{transa == $\mathrm{CUBLAS\_OP\_T}$}} \\ \end{matrix} \right.$

参数	内存	输入/输出	含义
`handle`		输入	cuBLASXt API 上下文的句柄。
`uplo`		输入	指示矩阵`C`的下三角或上三角部分是否被存储，另一对称部分未被引用，而是从存储的元素中推断得出。
`trans`		输入	操作op(`A`)可以是非转置或转置。
`n`		输入	矩阵 op(`A`) 和 `C` 的行数。
`k`		输入	矩阵 op(`A`) 的列数。
`alpha`	主机	输入	<type> 用于乘法的标量。
`A`	主机或设备	输入	类型维度为 `lda x k` 的数组，当 `trans == CUBLAS_OP_N` 时要求 `lda >= max(1, n)`；否则为 `lda x n` 的数组且要求 `lda >= max(1, k)`。
`lda`		输入	用于存储矩阵A的二维数组的主维度。
`beta`	主机	输入	<type> 用于乘法的标量，如果 `beta == 0` 则 `C` 不需要是有效输入。
`C`	主机或设备	输入/输出	<类型> 维度为 `ldc x n` 的数组，其中 `ldc >= max(1, n)`。
`ldc`		输入	用于存储矩阵`C`的二维数组的主维度。

该函数可能返回的错误值及其含义如下所示。

错误值	含义
`CUBLAS_STATUS_SUCCESS`	操作成功完成
`CUBLAS_STATUS_NOT_INITIALIZED`	库未初始化
`CUBLAS_STATUS_INVALID_VALUE`	参数 `n < 0` 或 `k < 0`
`CUBLAS_STATUS_EXECUTION_FAILED`	该函数无法在GPU上启动

参考资料请查阅NETLIB文档：

4.4.5. cublasXtsyr2k()

cublasStatus_t cublasXtSsyr2k(cublasXtHandle_t handle,
                            cublasFillMode_t uplo, cublasOperation_t trans,
                            size_t n, size_t k,
                            const float           *alpha,
                            const float           *A, size_t lda,
                            const float           *B, size_t ldb,
                            const float           *beta,
                            float           *C, size_t ldc)
cublasStatus_t cublasXtDsyr2k(cublasXtHandle_t handle,
                            cublasFillMode_t uplo, cublasOperation_t trans,
                            size_t n, size_t k,
                            const double          *alpha,
                            const double          *A, size_t lda,
                            const double          *B, size_t ldb,
                            const double          *beta,
                            double          *C, size_t ldc)
cublasStatus_t cublasXtCsyr2k(cublasXtHandle_t handle,
                            cublasFillMode_t uplo, cublasOperation_t trans,
                            size_t n, size_t k,
                            const cuComplex       *alpha,
                            const cuComplex       *A, size_t lda,
                            const cuComplex       *B, size_t ldb,
                            const cuComplex       *beta,
                            cuComplex       *C, size_t ldc)
cublasStatus_t cublasXtZsyr2k(cublasXtHandle_t handle,
                            cublasFillMode_t uplo, cublasOperation_t trans,
                            size_t n, size_t k,
                            const cuDoubleComplex *alpha,
                            const cuDoubleComplex *A, size_t lda,
                            const cuDoubleComplex *B, size_t ldb,
                            const cuDoubleComplex *beta,
                            cuDoubleComplex *C, size_t ldc)

该函数执行对称秩$2k$更新

$C = \alpha(\text{op}(A)\text{op}(B)^{T} + \text{op}(B)\text{op}(A)^{T}) + \beta C$

其中 $\alpha$ 和 $\beta$ 是标量，$C$ 是以下三角或上三角模式存储的对称矩阵，$A$ 和 $B$ 分别是维度为 $\text{op}(A)$ $n \times k$ 和 $\text{op}(B)$ $n \times k$ 的矩阵。此外，对于矩阵 $A$ 和 $B$

$\text{op(}A\text{) 和 op(}B\text{)} = \left\{ \begin{matrix} {A\text{ 和 }B} & {\text{如果 }\textsf{trans == $\mathrm{CUBLAS\_OP\_N}$}} \\ {A^{T}\text{ 和 }B^{T}} & {\text{如果 }\textsf{trans == $\mathrm{CUBLAS\_OP\_T}$}} \\ \end{matrix} \right.$

参数	内存	输入/输出	含义
`handle`		输入	cuBLASXt API 上下文的句柄。
`uplo`		输入	表示矩阵`C`的下三角或上三角部分是否被存储，另一对称部分未被引用，而是从存储的元素中推断得出。
`trans`		输入	操作op(`A`)可以是非转置或转置。
`n`		输入	矩阵op(`A`)、op(`B`)和`C`的行数。
`k`		输入	矩阵 op(`A`) 和 op(`B`) 的列数。
`alpha`	主机	输入	<type> 用于乘法的标量。
`A`	主机或设备	输入	<类型> 维度为 `lda x k` 的数组，当 `transa == CUBLAS_OP_N` 时要求 `lda >= max(1, n)`，否则为 `lda x n` 且 `lda >= max(1, k)`。
`lda`		输入	用于存储矩阵`A`的二维数组的主维度。
`B`	主机或设备	输入	<类型> 维度数组 `ldb x k`，当 `transb == CUBLAS_OP_N` 时需满足 `ldb >= max(1, n)`，否则为 `ldb x n` 且 `ldb >= max(1, k)`。
`ldb`		输入	用于存储矩阵`B`的二维数组的主维度。
`beta`	主机	输入	<类型> 用于乘法的标量，如果 `beta == 0`，则 `C` 不需要是有效输入。
`C`	主机或设备	输入/输出	<类型> 维度为 `ldc x n` 的数组，其中 `ldc >= max(1, n)`。
`ldc`		输入	用于存储矩阵`C`的二维数组的主维度。

该函数可能返回的错误值及其含义如下所示。

错误值	含义
`CUBLAS_STATUS_SUCCESS`	操作成功完成
`CUBLAS_STATUS_NOT_INITIALIZED`	库未初始化
`CUBLAS_STATUS_INVALID_VALUE`	参数 `n < 0` 或 `k < 0`
`CUBLAS_STATUS_EXECUTION_FAILED`	该函数无法在GPU上启动

参考资料请查阅NETLIB文档：

4.4.6. cublasXtsyrkx()

cublasStatus_t cublasXtSsyrkx(cublasXtHandle_t handle,
                            cublasFillMode_t uplo, cublasOperation_t trans,
                            size_t n, size_t k,
                            const float           *alpha,
                            const float           *A, size_t lda,
                            const float           *B, size_t ldb,
                            const float           *beta,
                            float           *C, size_t ldc)
cublasStatus_t cublasXtDsyrkx(cublasXtHandle_t handle,
                            cublasFillMode_t uplo, cublasOperation_t trans,
                            size_t n, size_t k,
                            const double          *alpha,
                            const double          *A, size_t lda,
                            const double          *B, size_t ldb,
                            const double          *beta,
                            double          *C, size_t ldc)
cublasStatus_t cublasXtCsyrkx(cublasXtHandle_t handle,
                            cublasFillMode_t uplo, cublasOperation_t trans,
                            size_t n, size_t k,
                            const cuComplex       *alpha,
                            const cuComplex       *A, size_t lda,
                            const cuComplex       *B, size_t ldb,
                            const cuComplex       *beta,
                            cuComplex       *C, size_t ldc)
cublasStatus_t cublasXtZsyrkx(cublasXtHandle_t handle,
                            cublasFillMode_t uplo, cublasOperation_t trans,
                            size_t n, size_t k,
                            const cuDoubleComplex *alpha,
                            const cuDoubleComplex *A, size_t lda,
                            const cuDoubleComplex *B, size_t ldb,
                            const cuDoubleComplex *beta,
                            cuDoubleComplex *C, size_t ldc)

该函数执行对称秩$k$更新的变体

$C = \alpha(\text{op}(A)\text{op}(B)^{T} + \beta C$

其中 $\alpha$ 和 $\beta$ 是标量，$C$ 是以下三角或上三角模式存储的对称矩阵，$A$ 和 $B$ 分别是维度为 $\text{op}(A)$ $n \times k$ 和 $\text{op}(B)$ $n \times k$ 的矩阵。此外，对于矩阵 $A$ 和 $B$

$\text{op(}A\text{) 和 op(}B\text{)} = \left\{ \begin{matrix} {A\text{ 和 }B} & {\text{如果 }\textsf{trans == $\mathrm{CUBLAS\_OP\_N}$}} \\ {A^{T}\text{ 和 }B^{T}} & {\text{如果 }\textsf{trans == $\mathrm{CUBLAS\_OP\_T}$}} \\ \end{matrix} \right.$

当矩阵B满足结果保证对称的条件时，可以使用此例程。常见的情况是矩阵B为矩阵A的缩放形式：这相当于矩阵B是矩阵A与对角矩阵的乘积。

参数	内存	输入/输出	含义
`handle`		输入	cuBLASXt API 上下文的句柄。
`uplo`		输入	指示矩阵`C`的下三角或上三角部分是否被存储，另一对称部分未被引用，而是从存储的元素中推断得出。
`trans`		输入	操作op(`A`)可以是非转置或转置。
`n`		输入	矩阵op(`A`)、op(`B`)和`C`的行数。
`k`		输入	矩阵 op(`A`) 和 op(`B`) 的列数。
`alpha`	主机	输入	<type> 用于乘法的标量。
`A`	主机或设备	输入	<类型> 维度为 `lda x k` 的数组，当 `transa == CUBLAS_OP_N` 时要求 `lda >= max(1, n)`，否则为 `lda x n` 且 `lda >= max(1, k)`。
`lda`		输入	用于存储矩阵`A`的二维数组的主维度。
`B`	主机或设备	输入	<类型> 维度数组 `ldb x k`，当 `transb == CUBLAS_OP_N` 时需满足 `ldb >= max(1, n)`，否则为 `ldb x n` 且 `ldb >= max(1, k)`。
`ldb`		输入	用于存储矩阵`B`的二维数组的主维度。
`beta`	主机	输入	<type> 用于乘法的标量，如果 `beta == 0`，则 `C` 不需要是有效输入。
`C`	主机或设备	输入/输出	<类型> 维度为 `ldc x n` 的数组，其中 `ldc >= max(1, n)`。
`ldc`		输入	用于存储矩阵`C`的二维数组的主维度。

该函数可能返回的错误值及其含义如下所示。

错误值	含义
`CUBLAS_STATUS_SUCCESS`	操作成功完成
`CUBLAS_STATUS_NOT_INITIALIZED`	库未初始化
`CUBLAS_STATUS_INVALID_VALUE`	参数 `n < 0` 或 `k < 0`
`CUBLAS_STATUS_EXECUTION_FAILED`	该函数无法在GPU上启动

参考资料请查阅NETLIB文档：

ssyrk(), dsyrk(), csyrk(), zsyrk() 和

4.4.7. cublasXtherk()

cublasStatus_t cublasXtCherk(cublasXtHandle_t handle,
                           cublasFillMode_t uplo, cublasOperation_t trans,
                           int n, int k,
                           const float  *alpha,
                           const cuComplex       *A, int lda,
                           const float  *beta,
                           cuComplex       *C, int ldc)
cublasStatus_t cublasXtZherk(cublasXtHandle_t handle,
                           cublasFillMode_t uplo, cublasOperation_t trans,
                           int n, int k,
                           const double *alpha,
                           const cuDoubleComplex *A, int lda,
                           const double *beta,
                           cuDoubleComplex *C, int ldc)

该函数执行埃尔米特秩-$k$更新

$C = \alpha\text{op}(A)\text{op}(A)^{H} + \beta C$

其中 $\alpha$ 和 $\beta$ 是标量，$C$ 是以下三角或上三角模式存储的厄米特矩阵，$A$ 是一个维度为 $\text{op}(A)$ $n \times k$ 的矩阵。同样地，对于矩阵 $A$

$\text{op}(A) = \left\{ \begin{matrix} A & {\text{如果 }\textsf{transa == $\mathrm{CUBLAS\_OP\_N}$}} \\ A^{H} & {\text{如果 }\textsf{transa == $\mathrm{CUBLAS\_OP\_C}$}} \\ \end{matrix} \right.$

参数	内存	输入/输出	含义
`handle`		输入	cuBLASXt API 上下文的句柄。
`uplo`		输入	指示矩阵 `C` 的下三角或上三角部分是否被存储，另一侧的共轭对称部分不会被引用。
`trans`		输入	操作op(`A`)可以是非转置或(conj.)转置。
`n`		输入	矩阵 op(`A`) 和 `C` 的行数。
`k`		输入	矩阵 op(`A`) 的列数。
`alpha`	主机	输入	<type> 用于乘法的标量。
`A`	主机或设备	输入	<类型> 维度为 `lda x k` 的数组，当 `transa == CUBLAS_OP_N` 时要求 `lda >= max(1, n)`，否则为 `lda x n` 且 `lda >= max(1, k)`。
`lda`		输入	用于存储矩阵`A`的二维数组的主维度。
`beta`	主机	输入	<type> 用于乘法的标量，如果 `beta == 0` 则 `C` 不需要是有效输入。
`C`	主机或设备	输入/输出	<类型> 维度为 `ldc x n` 的数组，其中 `ldc >= max(1, n)`。对角线元素的虚部被假定并设为零。
`ldc`		输入	用于存储矩阵`C`的二维数组的主维度。

该函数可能返回的错误值及其含义如下所示。

错误值	含义
`CUBLAS_STATUS_SUCCESS`	操作成功完成
`CUBLAS_STATUS_NOT_INITIALIZED`	库未初始化
`CUBLAS_STATUS_INVALID_VALUE`	参数 `n < 0` 或 `k < 0`
`CUBLAS_STATUS_EXECUTION_FAILED`	该函数无法在GPU上启动

参考资料请查阅NETLIB文档：

cherk(), zherk()

4.4.8. cublasXther2k()

cublasStatus_t cublasXtCher2k(cublasXtHandle_t handle,
                            cublasFillMode_t uplo, cublasOperation_t trans,
                            size_t n, size_t k,
                            const cuComplex       *alpha,
                            const cuComplex       *A, size_t lda,
                            const cuComplex       *B, size_t ldb,
                            const float  *beta,
                            cuComplex       *C, size_t ldc)
cublasStatus_t cublasXtZher2k(cublasXtHandle_t handle,
                            cublasFillMode_t uplo, cublasOperation_t trans,
                            size_t n, size_t k,
                            const cuDoubleComplex *alpha,
                            const cuDoubleComplex *A, size_t lda,
                            const cuDoubleComplex *B, size_t ldb,
                            const double *beta,
                            cuDoubleComplex *C, size_t ldc)

该函数执行埃尔米特秩$2k$更新

$C = \alpha\text{op}(A)\text{op}(B)^{H} + \overset{ˉ}{\alpha}\text{op}(B)\text{op}(A)^{H} + \beta C$

其中 $\alpha$ 和 $\beta$ 是标量，$C$ 是以下三角或上三角模式存储的埃尔米特矩阵，$A$ 和 $B$ 是维度分别为 $\text{op}(A)$ $n \times k$ 和 $\text{op}(B)$ $n \times k$ 的矩阵。此外，对于矩阵 $A$ 和 $B$

$\text{op(}A\text{) and op(}B\text{)} = \left\{ \begin{matrix} {A\text{ and }B} & {\text{如果 }\textsf{trans == $\mathrm{CUBLAS\_OP\_N}$}} \\ {A^{H}\text{ and }B^{H}} & {\text{如果 }\textsf{trans == $\mathrm{CUBLAS\_OP\_C}$}} \\ \end{matrix} \right.$

参数	内存	输入/输出	含义
`handle`		输入	cuBLASXt API 上下文的句柄。
`uplo`		输入	指示矩阵 `C` 的下三角或上三角部分是否被存储，另一侧的共轭对称部分不会被引用。
`trans`		输入	操作op(`A`)可以是非转置或(conj.)转置。
`n`		输入	矩阵op(`A`)、op(`B`)和`C`的行数。
`k`		输入	矩阵 op(`A`) 和 op(`B`) 的列数。
`alpha`	主机	输入	<type> 用于乘法的标量。
`A`	主机或设备	输入	<类型> 维度为 `lda x k` 的数组，当 `transa == CUBLAS_OP_N` 时要求 `lda >= max(1, n)`，否则为 `lda x n` 且 `lda >= max(1, k)`。
`lda`		输入	用于存储矩阵`A`的二维数组的主维度。
`B`	主机或设备	输入	<类型> 维度为 `ldb x k` 的数组，当 `transb == CUBLAS_OP_N` 时要求 `ldb >= max(1, n)`，否则为 `ldb x n` 且 `ldb >= max(1, k)`。
`ldb`		输入	用于存储矩阵`B`的二维数组的主维度。
`beta`	主机	输入	<type> 用于乘法的标量，如果 `beta == 0` 则 `C` 不需要是有效输入。
`C`	主机或设备	输入/输出	<类型> 维度为 `ldc x n` 的数组，其中 `ldc >= max(1, n)`。对角线元素的虚部被假定并设为零。
`ldc`		输入	用于存储矩阵`C`的二维数组的主维度。

该函数可能返回的错误值及其含义如下所示。

错误值	含义
`CUBLAS_STATUS_SUCCESS`	操作成功完成
`CUBLAS_STATUS_NOT_INITIALIZED`	库未初始化
`CUBLAS_STATUS_INVALID_VALUE`	参数 `n < 0` 或 `k < 0`
`CUBLAS_STATUS_EXECUTION_FAILED`	该函数无法在GPU上启动

参考资料请查阅NETLIB文档：

4.4.9. cublasXtherkx()

cublasStatus_t cublasXtCherkx(cublasXtHandle_t handle,
                            cublasFillMode_t uplo, cublasOperation_t trans,
                            size_t n, size_t k,
                            const cuComplex       *alpha,
                            const cuComplex       *A, size_t lda,
                            const cuComplex       *B, size_t ldb,
                            const float  *beta,
                            cuComplex       *C, size_t ldc)
cublasStatus_t cublasXtZherkx(cublasXtHandle_t handle,
                            cublasFillMode_t uplo, cublasOperation_t trans,
                            size_t n, size_t k,
                            const cuDoubleComplex *alpha,
                            const cuDoubleComplex *A, size_t lda,
                            const cuDoubleComplex *B, size_t ldb,
                            const double *beta,
                            cuDoubleComplex *C, size_t ldc)

该函数执行埃尔米特秩$k$更新的变体

$C = \alpha\text{op}(A)\text{op}(B)^{H} + \beta C$

其中 $\alpha$ 和 $\beta$ 是标量，$C$ 是以下三角或上三角模式存储的埃尔米特矩阵，$A$ 和 $B$ 是维度分别为 $\text{op}(A)$ $n \times k$ 和 $\text{op}(B)$ $n \times k$ 的矩阵。此外，对于矩阵 $A$ 和 $B$

$\text{op(}A\text{) and op(}B\text{)} = \left\{ \begin{matrix} {A\text{ and }B} & {\text{如果 }\textsf{trans == $\mathrm{CUBLAS\_OP\_N}$}} \\ {A^{H}\text{ and }B^{H}} & {\text{如果 }\textsf{trans == $\mathrm{CUBLAS\_OP\_C}$}} \\ \end{matrix} \right.$

当矩阵B满足结果保证为厄米特矩阵的条件时，可以使用此例程。一个常见例子是当矩阵B是矩阵A的缩放形式时：这相当于B是矩阵A与对角矩阵的乘积。

参数	内存	输入/输出	含义
`handle`		输入	cuBLASXt API 上下文的句柄。
`uplo`		输入	指示矩阵 `C` 的下三角或上三角部分是否被存储，另一侧的共轭对称部分不会被引用。
`trans`		输入	操作op(`A`)可以是非转置或(conj.)转置。
`n`		输入	矩阵op(`A`)、op(`B`)和`C`的行数。
`k`		输入	矩阵 op(`A`) 和 op(`B`) 的列数。
`alpha`	主机	输入	<type> 用于乘法的标量。
`A`	主机或设备	输入	<类型> 维度为 `lda x k` 的数组，当 `transa == CUBLAS_OP_N` 时要求 `lda >= max(1, n)`，否则为 `lda x n` 且 `lda >= max(1, k)`。
`lda`		输入	用于存储矩阵`A`的二维数组的主维度。
`B`	主机或设备	输入	<类型> 维度为 `ldb x k` 的数组，当 `transb == CUBLAS_OP_N` 时要求 `ldb >= max(1, n)`，否则为 `ldb x n` 且要求 `ldb >= max(1, k)`。
`ldb`		输入	用于存储矩阵`B`的二维数组的主维度。
`beta`	主机	输入	用于乘法的实数标量，如果 `beta == 0` 则 `C` 不需要是有效输入。
`C`	主机或设备	输入/输出	<类型> 维度为 `ldc x n` 的数组，其中 `ldc >= max(1, n)`。对角线元素的虚部被假定并设为零。
`ldc`		输入	用于存储矩阵`C`的二维数组的主维度。

该函数可能返回的错误值及其含义如下所示。

错误值	含义
`CUBLAS_STATUS_SUCCESS`	操作成功完成
`CUBLAS_STATUS_NOT_INITIALIZED`	库未初始化
`CUBLAS_STATUS_INVALID_VALUE`	参数 `n < 0` 或 `k < 0`
`CUBLAS_STATUS_EXECUTION_FAILED`	该函数无法在GPU上启动

参考资料请查阅NETLIB文档：

cherk(), zherk() 和