geopandas.read_parquet#

geopandas.read_parquet(path, columns=None, storage_options=None, bbox=None, **kwargs)[来源]#

从文件路径加载一个Parquet对象,返回一个GeoDataFrame。

您可以使用columns参数读取文件中的一部分列。但是,返回的GeoDataFrame的结构将取决于您读取的列:

  • 如果没有读取几何列,这将引发一个 ValueError - 你应该使用 pandas read_parquet 方法。

  • 如果保存到此文件的主要几何列未包含在列中,返回的GeoDataFrame的几何列将设置为第一个可用的几何列。

支持 GeoParquet 规范的版本 0.1.0、0.4.0 和 1.0.0,具体在: opengeospatial/geoparquet

如果 GeoParquet 元数据中没有 “crs” 键,它将根据规范默认设置为 “OGC:CRS84”。

需要‘pyarrow’。

在版本 0.8 中增加。

Parameters:
pathstr, path object
columnslist-like of strings, default=None

如果不为None,则只会从文件中读取这些列。如果主几何列未包含,从文件读取的第一个次要几何列将被设置为返回的GeoDataFrame的几何列。如果没有几何列,将会引发一个 ValueError

storage_optionsdict, optional

对于特定存储连接有意义的额外选项,例如主机、端口、用户名、密码等。对于HTTP(S) URL,键值对作为头部选项被转发到urllib。对于其他URL(例如以“s3://”和“gcs://”开头),键值对被转发到fsspec。有关更多详情,请参见fsspec和urllib。

当未提供存储选项且由 pyarrow.fsfsspec 实现文件系统时(例如“s3://”),则首选 pyarrow.fs 文件系统。如果您希望使用其实现,请通过 filesystem 关键字提供实例化的 fsspec 文件系统。

bboxtuple, optional

用于从geoparquet数据中过滤选择的边界框。这仅在数据以包含边界框元数据的方式保存时可用。输入格式为元组 (xmin, ymin, xmax, ymax)。

**kwargs

传递给 pyarrow.parquet.read_table() 的任何其他关键词参数。

Returns:
GeoDataFrame

示例

>>> df = geopandas.read_parquet("data.parquet")  

指定要读取的列:

>>> df = geopandas.read_parquet(
...     "data.parquet",
...     columns=["geometry", "pop_est"]
... )