函数
Spark SQL 提供了两个功能特性以满足广泛的用户需求:内置函数和用户定义函数(UDFs)。 内置函数是 Spark SQL 预定义的常用例程,完整的函数列表可以在 内置函数 API 文档中找到。当系统的内置函数不足以完成所需任务时,UDF 允许用户定义自己的函数。
内置函数
Spark SQL 有一些常用的内置函数类别,用于聚合、数组/映射、日期/时间戳和 JSON 数据。 本小节介绍了这些函数的用法和描述。
标量函数
聚合类似函数
生成器函数
用户定义函数 (UDFs)
用户定义的函数(UDFs)是Spark SQL的一个特性,允许用户在系统内置函数不足以执行所需任务时定义自己的函数。要在Spark SQL中使用UDFs,用户必须首先定义函数,然后将其注册到Spark,最后调用注册的函数。用户定义的函数可以作用于单行或同时作用于多行。Spark SQL还支持集成现有Hive实现的UDFs、UDAFs和UDTFs。