版本 0.13#
版本 0.13.1#
2013年2月23日
0.13.1 版本仅修复了一些错误,并未增加任何新功能。
更新日志#
修复了
cross_validation.train_test_split函数被 Yaroslav Halchenko 误认为是测试的测试错误。修复了
cluster.MiniBatchKMeans中对小簇重新分配的错误,由 Gael Varoquaux 修复。修复了
decomposition.KernelPCA中gamma的默认值,由 Lars Buitinck 修复。将 joblib 更新至
0.7.0d,由 Gael Varoquaux 完成。修复了
ensemble.GradientBoostingClassifier中偏差的比例,由 Peter Prettenhofer 修复。改进了
multiclass.OneVsOneClassifier中的平局决胜机制,由 Andreas Müller 完成。其他对测试和文档的小改进。
贡献者#
按提交次数列出的 0.13.1 版本贡献者名单。
5 Robert Marchman
2 Hrishikesh Huilgolkar
1 Bastiaan van den Berg
1 Diego Molla
1 Rafael Cunha de Almeida
1 Rolando Espinoza La fuente
版本 0.13#
2013年1月21日
新的估计器类#
dummy.DummyClassifier和dummy.DummyRegressor,两个数据无关的预测器,由 Mathieu Blondel 实现。用于检查你的估计器的合理性。参见用户指南中的 虚拟估计器 。多输出支持由 Arnaud Joly 添加。decomposition.FactorAnalysis,一个实现经典因子分析的转换器,由 Christian Osendorfer 和 Alexandre Gramfort 实现。参见用户指南中的 因子分析 。feature_extraction.FeatureHasher,一个实现“哈希技巧”的转换器,用于通过 Lars Buitinck 和feature_extraction.text.HashingVectorizer对文本文档进行快速、低内存的特征提取,由 Olivier Grisel 开发。请参阅 特征哈希 和 使用哈希技巧向量化大型文本语料库 获取文档和示例用法。pipeline.FeatureUnion,一个通过 Andreas Müller 开发的转换器,用于连接多个其他转换器的结果。请参阅用户指南中的 FeatureUnion: 复合特征空间 。random_projection.GaussianRandomProjection,random_projection.SparseRandomProjection以及函数random_projection.johnson_lindenstrauss_min_dim。前两个是实现高斯和稀疏随机投影矩阵的转换器,由 Olivier Grisel 和 Arnaud Joly 开发。请参阅用户指南中的 随机投影 。kernel_approximation.Nystroem,一个通过 Andreas Müller 开发的转换器,用于近似任意核函数。请参阅用户指南中的 Nystroem 方法用于核近似 。preprocessing.OneHotEncoder,一个通过 Andreas Müller 开发的转换器,用于计算分类特征的二进制编码。请参阅用户指南中的 Encoding categorical features 。linear_model.PassiveAggressiveClassifier和linear_model.PassiveAggressiveRegressor,通过 Rob Zinkov 和 Mathieu Blondel 开发的预测器,实现了一种高效的线性模型的随机优化。请参阅用户指南中的 被动攻击算法 。ensemble.RandomTreesEmbedding,一个通过 Andreas Müller 开发的转换器,用于使用完全随机树的集成创建高维稀疏表示。请参阅用户指南中的 完全随机树嵌入 。manifold.SpectralEmbedding和函数manifold.spectral_embedding,实现了用于非线性降维的“拉普拉斯特征映射”变换,由 Wei
李。参见用户指南中的 谱嵌入 。
更新日志#
metrics.zero_one_loss(以前为metrics.zero_one)现在有一个标准化输出的选项,报告错误分类的比例,而不是错误分类的原始数量。由 Kyle Beauchamp 编写。tree.DecisionTreeClassifier及其所有派生集合模型现在支持样本加权,由 Noel Dawe 和 Gilles Louppe 编写。在使用随机树森林中的自助样本时,速度改进,由 Peter Prettenhofer 和 Gilles Louppe 编写。
梯度提升的偏依赖图在
ensemble.partial_dependence.partial_dependence中,由 Peter Prettenhofer 编写。参见示例 部分依赖图和个体条件期望图 。网站上的目录现在已变得可展开,由 Jaques Grobler 编写。
feature_selection.SelectPercentile现在以确定性方式打破平局,而不是返回所有排名相同的特征。feature_selection.SelectKBest和feature_selection.SelectPercentile由于使用分数而不是 p 值来排名结果,因此更加数值稳定。这意味着它们有时可能会选择与之前不同的特征。使用
sparse_cg求解器的岭回归和岭分类拟合不再具有二次内存复杂度,由 Lars Buitinck 和 Fabian Pedregosa 编写。岭回归和岭分类现在支持一种新的快速求解器,称为
lsqr,由 Mathieu Blondel 编写。metrics.precision_recall_curve的速度提升,由 Conrad Lee 编写。在
datasets.dump_svmlight_file中增加了对读写具有成对偏好属性(svmlight 文件格式中的 qid)的 svmlight 文件的支持。datasets.load_svmlight_fileby Fabian Pedregosa 。更快速且更健壮的
metrics.confusion_matrix和 clustering_evaluation 由 Wei Li 实现。cross_validation.cross_val_score现在支持预计算的核函数 和亲和矩阵,由 Andreas Müller 实现。LARS 算法通过启发式方法变得更加数值稳定,这些方法可以丢弃 过于相关的回归变量,并在数值噪声变得占主导地位时停止路径, 由 Gael Varoquaux 实现。
更快速的
metrics.precision_recall_curve实现 由 Conrad Lee 完成。新的核函数
metrics.chi2_kernel由 Andreas Müller 实现, 常用于计算机视觉应用。长期存在的
naive_bayes.BernoulliNB错误由 Shaun Jackman 修复。在
multiclass.OneVsRestClassifier中实现了predict_proba,由 Andrew Winterman 完成。改进了梯度提升的一致性:估计器
ensemble.GradientBoostingRegressor和ensemble.GradientBoostingClassifier使用估计器tree.DecisionTreeRegressor而不是tree._tree.Tree数据结构,由 Arnaud Joly 实现。修复了 决策树 模块中的浮点异常, 由 Seberg 完成。
修复了当 y_true 只有一个类别时
metrics.roc_curve失败的问题, 由 Wei Li 完成。添加了
metrics.mean_absolute_error函数,用于计算 平均绝对误差。metrics.mean_squared_error、metrics.mean_absolute_error和metrics.r2_score指标支持多输出,由 Arnaud Joly 实现。修复了
svm.LinearSVC和linear_model.LogisticRegression中的class_weight支持, 由 Andreas Müller 完成。在早期版本中,class_weight的含义被错误地反转, 即更高的权重意味着给定类别的正例更少。改进了
sklearn.metrics中回归和分类指标的叙述文档和一致性, 由 Arnaud Joly 完成。修复了在使用带有未排序索引的csr矩阵时,
sklearn.svm.SVC中的一个错误,由Xinfan Meng和 Andreas Müller 完成。cluster.MiniBatchKMeans: 添加了随机重新分配具有少量观测值的聚类中心,由 Gael Varoquaux 完成。
API变更总结#
为了保持一致性,将所有出现的
n_atoms重命名为n_components。这适用于:class:decomposition.DictionaryLearning、decomposition.MiniBatchDictionaryLearning、decomposition.dict_learning、decomposition.dict_learning_online。为了保持一致性,将所有出现的
max_iters重命名为max_iter。这适用于semi_supervised.LabelPropagation和semi_supervised.label_propagation.LabelSpreading。为了保持一致性,将所有出现的
learn_rate重命名为learning_rate。这适用于ensemble.BaseGradientBoosting和ensemble.GradientBoostingRegressor。sklearn.linear_model.sparse模块已被移除。稀疏矩阵支持已经集成到“常规”线性模型中。sklearn.metrics.mean_square_error,错误地返回了累积误差,已被移除。请改用:func:metrics.mean_squared_error。不再支持将
class_weight参数传递给fit方法。请改为传递给估计器构造函数。GMMs不再具有
decode和rvs方法。请改用score、predict或sample方法。Ridge回归和分类中的
solver拟合选项现已弃用,并将在v0.14中移除。请改用构造函数选项。feature_extraction.text.DictVectorizer现在返回CSR格式的稀疏矩阵,而不是COO格式。在
cross_validation.KFold和cross_validation.StratifiedKFold中将k重命名为n_folds,在cross_validation.Bootstrap中将n_bootstraps重命名为n_iter。为了保持一致性,将所有出现的
n_iterations重命名为n_iter。 这适用于cross_validation.ShuffleSplit、cross_validation.StratifiedShuffleSplit、utils.extmath.randomized_range_finder和utils.extmath.randomized_svd。在
linear_model.ElasticNet和linear_model.SGDClassifier中用l1_ratio替换了rho。rho参数有不同的含义;引入l1_ratio是为了避免混淆。 它的含义与之前在linear_model.ElasticNet中的rho相同, 以及在linear_model.SGDClassifier中的(1-rho)。linear_model.LassoLars和linear_model.Lars现在 在多目标情况下存储路径列表,而不是路径数组。hmm.GMMHMM的属性gmm被重命名为gmm_, 以更严格地遵守 API。cluster.spectral_embedding被移动到manifold.spectral_embedding。在
manifold.spectral_embedding和cluster.SpectralClustering中将eig_tol重命名为eigen_tol, 将mode重命名为eigen_solver。在
manifold.spectral_embedding和cluster.SpectralClustering中将mode重命名为eigen_solver。tree.DecisionTreeClassifier及其所有派生集成模型的classes_和n_classes_属性现在在单输出问题中是扁平的, 在多输出问题中是嵌套的。ensemble.GradientBoostingRegressor和ensemble.GradientBoostingClassifier的estimators_属性 现在是一个tree.DecisionTreeRegressor数组。在
decomposition.MiniBatchDictionaryLearning和decomposition.MiniBatchSparsePCA中将chunk_size重命名为batch_size, 以保持一致性。
另外, predict 返回的 dtype 现在反映了 fit 期间 y 的 dtype(以前是 np.float )。
更改了
cross_validation.train_test_split中的默认 test_size 为 None,增加了从cross_validation.ShuffleSplit和cross_validation.StratifiedShuffleSplit中的train_size推断test_size的可能性。将函数
sklearn.metrics.zero_one重命名为sklearn.metrics.zero_one_loss。请注意,sklearn.metrics.zero_one_loss的默认行为与sklearn.metrics.zero_one不同:normalize=False已更改为normalize=True。将函数
metrics.zero_one_score重命名为metrics.accuracy_score。datasets.make_circles现在具有相同数量的内点和外点。在朴素贝叶斯分类器中,
class_prior参数已从fit移动到__init__。
人员#
按提交次数列出的 0.13 版本贡献者名单。
364 Andreas Müller
143 Arnaud Joly
131 Gael Varoquaux
117 Mathieu Blondel
108 Lars Buitinck
106 Wei Li
101 Olivier Grisel
65 Vlad Niculae
30 Rob Zinkov
19 Aymeric Masurelle
18 Andrew Winterman
17 Nelle Varoquaux
14 Daniel Nouri
13 syhw
10 Corey Lynch
10 Kyle Beauchamp
9 Brian Cheung
9 Immanuel Bayer
9 mr.Shu
8 Conrad Lee
7 Tadej Janež
6 Brian Cajes
6 Michael
6 Noel Dawe
6 Tiago Nunes
6 cow
5 Anze
5 Shiqiao Du
4 Christian Jauvin
4 Jacques Kvam
4 Richard T. Guy
3 Alexandre Abraham
3 Doug Coleman
3 Scott Dickerson
2 ApproximateIdentity
2 John Benediktsson
2 Mark Veronda
2 Matti Lyra
2 Mikhail Korobov
2 Xinfan Meng
1 Alejandro Weinstein
1 Christoph Deil
1 Eugene Nizhibitsky
1 Kenneth C. Arnold
1 Luis Pedro Coelho
1 Miroslav Batchkarov
1 Pavel
1 Sebastian Berg
1 Shaun Jackman
1 Subhodeep Moitra
1 bob
1 dengemann
1 emanuele
1 x006