列哈希#

group column_hash

类型定义

using hash_value_type = uint32_t#

哈希值的类型。

函数

std::unique_ptr<column> murmurhash3_x86_32(table_view const &input, uint32_t seed = DEFAULT_HASH_SEED, rmm::cuda_stream_view stream = cudf::get_default_stream(), rmm::device_async_resource_ref mr = cudf::get_current_device_resource_ref())#

计算给定表中每行的MurmurHash3 32位哈希值。

此函数使用seed作为第一列的种子,并将生成的哈希值作为下一列的种子,依此类推,计算每列的哈希值。结果为每行生成一个uint32值。

Parameters:
  • input – 要哈希的列的表

  • seed – 可选的种子值,用于哈希函数

  • stream – 用于设备内存操作和内核启动的CUDA流

  • mr – 用于分配返回列的设备内存的设备内存资源

Returns:

每行是输入行哈希值的列

std::unique_ptr<table> murmurhash3_x64_128(table_view const &input, uint64_t seed = DEFAULT_HASH_SEED, rmm::cuda_stream_view stream = cudf::get_default_stream(), rmm::device_async_resource_ref mr = cudf::get_current_device_resource_ref())#

计算给定表中每行的MurmurHash3 64位哈希值。

此函数接受一个64位的种子值,并使用MurmurHash3_x64_128算法返回哈希值。每行生成两个uint64值的哈希。

Parameters:
  • input – 要哈希的列的表

  • seed – 可选的种子值,用于哈希函数

  • stream – 用于设备内存操作和内核启动的CUDA流

  • mr – 用于分配返回列的设备内存的设备内存资源

Returns:

一个包含两列UINT64的表

std::unique_ptr<column> md5(table_view const &input, rmm::cuda_stream_view stream = cudf::get_default_stream(), rmm::device_async_resource_ref mr = cudf::get_current_device_resource_ref())#

计算给定表中每一行的MD5哈希值。

Parameters:
  • input – 要哈希的列的表

  • stream – 用于设备内存操作和内核启动的CUDA流

  • mr – 用于分配返回列的设备内存的设备内存资源

Returns:

每行是输入行哈希值的列

std::unique_ptr<column> sha1(table_view const &input, rmm::cuda_stream_view stream = cudf::get_default_stream(), rmm::device_async_resource_ref mr = cudf::get_current_device_resource_ref())#

计算给定表中每行的SHA-1哈希值。

Parameters:
  • input – 要哈希的列的表

  • stream – 用于设备内存操作和内核启动的CUDA流

  • mr – 用于分配返回列的设备内存的设备内存资源

Returns:

每行是输入行哈希值的列

std::unique_ptr<column> sha224(table_view const &input, rmm::cuda_stream_view stream = cudf::get_default_stream(), rmm::device_async_resource_ref mr = cudf::get_current_device_resource_ref())#

计算给定表中每行的SHA-224哈希值。

Parameters:
  • input – 要哈希的列的表

  • stream – 用于设备内存操作和内核启动的CUDA流

  • mr – 用于分配返回列的设备内存的设备内存资源

Returns:

每行是输入行哈希值的列

std::unique_ptr<column> sha256(table_view const &input, rmm::cuda_stream_view stream = cudf::get_default_stream(), rmm::device_async_resource_ref mr = cudf::get_current_device_resource_ref())#

计算给定表中每行的SHA-256哈希值。

Parameters:
  • input – 要哈希的列的表

  • stream – 用于设备内存操作和内核启动的CUDA流

  • mr – 用于分配返回列的设备内存的设备内存资源

Returns:

每行是输入行哈希值的列

std::unique_ptr<column> sha384(table_view const &input, rmm::cuda_stream_view stream = cudf::get_default_stream(), rmm::device_async_resource_ref mr = cudf::get_current_device_resource_ref())#

计算给定表中每行的SHA-384哈希值。

Parameters:
  • input – 要哈希的列的表

  • stream – 用于设备内存操作和内核启动的CUDA流

  • mr – 用于分配返回列的设备内存的设备内存资源

Returns:

每行是输入行哈希值的列

std::unique_ptr<column> sha512(table_view const &input, rmm::cuda_stream_view stream = cudf::get_default_stream(), rmm::device_async_resource_ref mr = cudf::get_current_device_resource_ref())#

计算给定表中每行的SHA-512哈希值。

Parameters:
  • input – 要哈希的列的表

  • stream – 用于设备内存操作和内核启动的CUDA流

  • mr – 用于分配返回列的设备内存的设备内存资源

Returns:

每行是输入行哈希值的列

std::unique_ptr<column> xxhash_64(table_view const &input, uint64_t seed = DEFAULT_HASH_SEED, rmm::cuda_stream_view stream = cudf::get_default_stream(), rmm::device_async_resource_ref mr = cudf::get_current_device_resource_ref())#

计算给定表中每行的XXHash_64哈希值。

此函数接受一个64位的种子值,并返回一个UINT64类型的列。

Parameters:
  • input – 要哈希的列的表

  • seed – 可选的种子值,用于哈希函数

  • stream – 用于设备内存操作和内核启动的CUDA流

  • mr – 用于分配返回列的设备内存的设备内存资源

Returns:

每行是输入行哈希值的列

变量

static constexpr uint32_t DEFAULT_HASH_SEED = 0#

哈希函数的默认种子值。