4位存储的浮点数¶

论文¶

4位浮点格式已成为解决大型语言模型成本上升和部署挑战的一种方案。S1E2M1格式已成为开放计算项目（OCP）标准的一部分。

因此，在onnx==1.18.0中引入了一种新的数据类型，以支持一组有限的运算符，从而启用float4的计算。

\(S\) 代表符号。\(10_2\) 描述了一个基数为2的数字。

让我们将位表示记为 \(S.b_2 b_1 b_0\)。浮点值由以下表达式定义：

Float4 type values¶
	E2M1
指数 \(\neq\) 0	\((-1)^S 2^{\sum_{i=1}^2 b_i 2^{i-1} - 1} \left( 1 + b_0 2^{-1} \right)\)
指数 \(=\) 0	\((-1)^S b_0 2^{-1}\)

下表列出了float4 E2M1可以表示的所有值，忽略符号位：

从float4向上转换为float32、float16、bfloat16和float8是精确的。向下转换为float4的行为总结如下

Float4 以 2x4bit 的形式存储在一个字节中。第一个元素存储在 4 个最低有效位（LSB）中，第二个元素存储在 4 个最高有效位（MSB）中，即对于数组中的连续元素 x 和 y：

pack(x,y): y << 4 | x & 0x0F
unpack(z): x = z & 0x0F, y = z >> 4

如果元素的总数是奇数，将附加4位的填充。大小为N的4位张量的存储大小为ceil(N/2)。