交互式可视化
UMAP 已经在许多有趣的交互式可视化项目中找到了应用,分析的内容从照片档案中的图像,到词嵌入、动物点云,甚至声音。有时它也被用于一些有趣的交互工具中,这些工具帮助用户直观地理解算法的工作原理(通过将其应用于直观的3D数据)。以下是一些利用 UMAP 的惊人项目。
UMAP 动物园
探索UMAP在降低动物点云维度时的行为。它是互动的,允许你在2D和3D表示之间切换,并提供了多种不同的动物选择。尝试从2D UMAP表示中猜测动物是一个有趣的游戏。实际上,这个工具可以在很大程度上帮助建立至少一些关于UMAP如何处理数据的直觉。
感谢 Douglas Duhaime。
Tensorflow 嵌入投影器
如果你只想探索数据集的UMAP嵌入,那么Tensorflow的嵌入投影仪是一个很好的选择。它不仅提供了一个良好的交互式3D视图,还具有检查和搜索数据上的标签和标签的功能。默认情况下,它会加载word2vec向量,但你可以上传任何你想要的数据。然后,你可以在嵌入选择的标签中选择UMAP选项(与PCA和t-SNE一起)。
感谢Andy Coenen和Embedding Projector团队。
PixPlot 提供了大型照片集的概览。在耶鲁大学数字人文实验室的演示应用中,它为Meserve-Kunhardt历史照片集提供了一个窗口。该方法使用卷积神经网络将图像降维到2048维,然后使用UMAP将它们呈现在一个二维地图上,用户可以交互式地平移和缩放。这个过程使得相似的照片最终出现在地图的相似区域,从而便于浏览大型照片集。PixPlot项目也可以在github上找到,如果您希望在自己的照片集上进行训练。
一个很好的演示,展示了如何构建一个基于网络的应用程序,用于交互式探索UMAP嵌入。 在这种情况下,它提供了对在MNIST数字数据集上运行的UMAP的探索。嵌入中的每个点都被渲染为数字图像,并根据数字类别进行着色。将鼠标悬停在图像上会使它们变大,并在左上角提供数字的视图。您还可以平移和缩放嵌入,以更好地理解UMAP如何将不同风格的手写数字映射到二维空间。
感谢Grant Custer。
音频探索器
音频探索器使用UMAP将声音样本嵌入到二维空间中以方便探索。 这里的目的是获取一个大型的声音样本库,并将相似的声音放在地图的相似区域, 允许用户快速鼠标悬停并听取给定样本的各种变化,以快速找到确切要使用的声音样本。 音频探索器在应用UMAP生成二维嵌入之前,使用MFCCs和/或WaveNet来提供声音样本的初始有用向量表示。
感谢Leon Fedden。
猎户座搜索
Orion 是一个开源的研究测量和知识发现工具,它使您能够监控科学进展,直观地探索科学领域并搜索相关出版物。Orion 使用 Sentence Transformers 将 bioRxiv 论文摘要编码为密集向量,并使用 UMAP 将它们投影到交互式 3D 可视化中。您可以按主题和国家过滤 UMAP 嵌入。您还可以选择 UMAP 嵌入的子集并检索这些论文及其元数据。
感谢Kostas Stathoulopoulos、Zac Ioannidis和Lilia Villafuerte。
探索时尚MNIST
一个基于网页的交互式探索,展示了在Fashion MNIST数据集上运行的3D UMAP嵌入。用户可以自由导航3D空间,通过点击图像或输入图像ID跳转到特定图像。与Grant Custer的UMAP Explorer类似,每个点都渲染为实际图像,并根据标签进行着色。它也类似于Tensorflow Embedding Projector,但更专门为Fashion MNIST设计,因此更高效,能够显示所有70k张图像。
感谢stwind。
ESM 宏基因组图谱
ESM宏基因组图谱包含了超过6亿个预测的蛋白质结构,以一种我们从未见过的方式揭示了宏基因组世界。探索页面可视化了其中的100万个样本。(这大约是浏览器可以处理的数量。)我们将数据集中的每个蛋白质表示为一个点,并在放大或悬停时显示实际的蛋白质结构。每个点的颜色对应于与我们在UniRef90(已知蛋白质序列的参考数据库)中找到的最接近匹配的相似性。地图中的位置是一个二维投影,根据我们的语言模型的内部表示,按相似性对序列进行分组。地图揭示了不同尺度的结构:同一集群中的局部邻居往往具有相似的结构,而附近的集群则保留了某些模式,如二级结构元素。
感谢“使用语言模型预测原子级蛋白质结构的进化尺度”的作者们。