2.2.1 版本的新增内容(2024年2月22日)#
这是 pandas 2.2.1 的更改。请参阅 发行说明 以获取包括其他版本 pandas 的完整更新日志。
增强功能#
添加了
pyarrowpip 额外项,以便用户可以通过pip install pandas[pyarrow]使用 pip 安装 pandas 和 pyarrow (GH 54466)
修复回归问题#
修复了
read_csv()中的内存泄漏问题 (GH 57039)修复了
Series.combine_first()中的性能退化问题 (GH 55845)修复了导致接近最小时间戳溢出的回归问题 (GH 57150)
修复了
concat()中改变长期行为的回归问题,当轴是DatetimeIndex时,总是对非连接轴进行排序 (GH 57006)修复了在
merge_ordered()中对fill_method="ffill"和how="left"引发TypeError的问题 (GH 57010)修复了在
pandas.testing.assert_series_equal()中默认设置check_exact=True检查Index时的回归问题 (GH 57067)修复了
read_json()中的回归问题,其中会返回一个Index而不是RangeIndex(GH 57429)修复了
wide_to_long()在字符串列中引发AttributeError的问题 (GH 57066)修复了
DataFrameGroupBy.idxmin(),DataFrameGroupBy.idxmax(),SeriesGroupBy.idxmin(),SeriesGroupBy.idxmax()忽略skipna参数的问题 (GH 57040)修复了
DataFrameGroupBy.idxmin(),DataFrameGroupBy.idxmax(),SeriesGroupBy.idxmin(),SeriesGroupBy.idxmax()中的回归问题,其中包含数据类型最小值或最大值的值可能会产生不正确的结果 (GH 57040)修复了在
CategoricalIndex.difference()中引发KeyError的回归问题,当其他包含非 NaN 的空值时 (GH 57318)修复了在某些情况下通过
Series进行分组时DataFrame.groupby()引发ValueError的回归问题 (GH 57276)修复了在
DataFrame.loc()中对非唯一、掩码数据类型索引引发IndexError的问题,其中结果有超过 10,000 行 (GH 57027)修复了
DataFrame.loc()中的回归问题,该问题在用部分行索引器和多列扩展时,不必要地抛出“不兼容的dtype警告”(见 PDEP6)(GH 56503)修复了在使用
na_action="ignore"时,DataFrame.map()对 NumPy 可空类型和ArrowDtypes不尊重的问题 (GH 57316)修复了
DataFrame.merge()在某些类型的第三方扩展数组中引发ValueError的回归问题 (GH 57316)修复了在包含所有
NaT且具有对象数据类型的列中使用DataFrame.query()时的回归问题 (GH 57068)修复了在
axis=1和空DataFrame时DataFrame.shift()引发AssertionError的回归问题 (GH 57301)修复了
DataFrame.sort_index()在具有重复索引的情况下无法产生稳定排序的回归问题 (GH 57151)修复了
DataFrame.to_dict()中orient='list'和日期时间或时间增量类型返回整数的回归问题 (GH 54824)修复了
DataFrame.to_json()将可空整数转换为浮点数的回归问题 (GH 57224)修复了当传递
method="multi"并且方言类型不是 Oracle 时DataFrame.to_sql()中的回归问题 (GH 57310)修复了在使用可空扩展数据类型时,
DataFrame.transpose()中可能导致的固定回归问题,这些数据类型可能不具有 F 连续数据,从而在使用时可能引发异常 (GH 57315)修复了
DataFrame.update()中发出关于向下转换的不正确警告的回归问题 (GH 57124)修复了
DataFrameGroupBy.idxmin(),DataFrameGroupBy.idxmax(),SeriesGroupBy.idxmin(),SeriesGroupBy.idxmax()忽略skipna参数的问题 (GH 57040)修复了
DataFrameGroupBy.idxmin(),DataFrameGroupBy.idxmax(),SeriesGroupBy.idxmin(),SeriesGroupBy.idxmax()中的回归问题,其中包含数据类型最小值或最大值的值可能会产生不正确的结果 (GH 57040)修复了
ExtensionArray.to_numpy()在非数字掩码数据类型时引发的问题 (GH 56991)修复了在将包含混合数据类型的非空索引与空索引连接时引发
TypeError的Index.join()中的回归问题 (GH 57048)修复了在
Series.astype()中引入小数的问题,当从带有缺失值的整数转换为字符串数据类型时 (GH 57418)修复了
Series.pct_change()在空Series上引发ValueError的回归问题 (GH 57056)在给定 dtype 为 float 且数据包含 NaN 时,修复了
Series.to_numpy()中的回归问题 (GH 57121)修复了在带有毫秒组件的
DateOffset对象与datetime64Index、Series或DataFrame进行加法或减法时的回归问题 (GH 57529)
错误修复#
修复了
pandas.api.interchange.from_dataframe()中的错误,该错误在处理可空整数时会引发异常 (GH 55069)修复了
pandas.api.interchange.from_dataframe()中对空输入引发错误的缺陷 (GH 56700)修复了
pandas.api.interchange.from_dataframe()中的错误,该错误未将列名转换为字符串 (GH 55069)修复了在启用Copy-on-Write时,对于空的
DataFrame的DataFrame.__getitem__()中的错误 (GH 57130)修复了
PeriodIndex.asfreq()中的错误,该错误在遇到不支持的周期频率时会静默转换,而不是引发错误 (GH 56945)
其他#
备注
当未安装 PyArrow 时,在导入 pandas 时引发的 DeprecationWarning 已被移除。这一决定是因为该警告对太多用户来说过于嘈杂,并且关于将 PyArrow 作为必需依赖的决定收集了大量反馈。Pandas 目前正在考虑是否应在 3.0 中将 PyArrow 添加为硬依赖。感兴趣的用户可以在此处跟踪讨论 here。
贡献者#
总共有14个人为这次发布贡献了补丁。名字后面带有“+”的人首次贡献了补丁。
Albert Villanova del Moral
Luke Manley
Lumberbot (aka Jack)
Marco Edward Gorelli
Matthew Roeschke
Natalia Mokeeva
Pandas Development Team
Patrick Hoefler
Richard Shadrach
Robert Schmidtke +
Samuel Chai +
Thomas Li
William Ayd
dependabot[bot]