Hive 行格式
描述
Spark 支持在
CREATE TABLE
和
TRANSFORM
子句中使用 Hive 行格式来指定序列化和反序列化或文本分隔符。可以通过两种方式在
CREATE TABLE
和
TRANSFORM
子句的
row_format
中定义行格式。
-
SERDE子句用来指定自定义的 SerDe 类。 -
DELIMITED子句用来为本地 SerDe 指定分隔符、转义字符、空字符等。
语法
row_format:
SERDE serde_class [ WITH SERDEPROPERTIES (k1=v1, k2=v2, ... ) ]
| DELIMITED [ FIELDS TERMINATED BY fields_terminated_char [ ESCAPED BY escaped_char ] ]
[ COLLECTION ITEMS TERMINATED BY collection_items_terminated_char ]
[ MAP KEYS TERMINATED BY map_key_terminated_char ]
[ LINES TERMINATED BY row_terminated_char ]
[ NULL DEFINED AS null_char ]
参数
-
SERDE serde_class
指定自定义 SerDe 的完全限定类名。
-
SERDEPROPERTIES
用于标记 SerDe 定义的键值对列表。
-
FIELDS TERMINATED BY
用于定义列分隔符。
-
COLLECTION ITEMS TERMINATED BY
用于定义集合项分隔符。
-
MAP KEYS TERMINATED BY
用于定义映射键分隔符。
-
LINES TERMINATED BY
用于定义行分隔符。
-
NULL DEFINED AS
用于定义 NULL 的具体值。
-
ESCAPED BY
用于转义机制。