UMAP: 用于降维的均匀流形逼近与投影
均匀流形逼近与投影(UMAP)是一种降维技术,可以像t-SNE一样用于可视化,也可以用于一般的非线性降维。该算法基于对数据的三个假设
数据在黎曼流形上均匀分布;
黎曼度量是局部常数(或可以近似为局部常数);
流形是局部连通的。
从这些假设出发,可以用模糊拓扑结构来建模流形。通过寻找数据的一个低维投影,该投影具有尽可能接近的等效模糊拓扑结构,从而找到嵌入。
基础数学的详细信息可以在 我们的ArXiv论文中找到:
McInnes, L, Healy, J, UMAP: 均匀流形逼近与投影用于降维, ArXiv e-prints 1802.03426, 2018
你可以在github上找到这个软件。
Conda 安装,通过 conda-forge 团队的出色工作:
conda install -c conda-forge umap-learn
conda-forge 包适用于 Linux、OS X 和 Windows 64 位系统。
PyPI 安装,假设你已经安装了 numba 和 sklearn 及其所有依赖项(numpy 和 scipy):
pip install umap-learn
用户指南 / 教程:
UMAP使用示例
- UMAP API指南
- UMAP
- 参数化UMAP
- 有用的函数
compute_membership_strengths()discrete_metric_simplicial_set_intersection()fast_intersection()fast_metric_intersection()find_ab_params()fuzzy_simplicial_set()init_graph_transform()init_transform()make_epochs_per_sample()nearest_neighbors()raise_disconnected_warning()reset_local_connectivity()simplicial_set_embedding()smooth_knn_dist()