交互式可视化

UMAP 已经在许多有趣的交互式可视化项目中找到了应用,分析的内容从照片档案中的图像,到词嵌入、动物点云,甚至声音。有时它也被用于一些有趣的交互工具中,这些工具帮助用户直观地理解算法的工作原理(通过将其应用于直观的3D数据)。以下是一些利用 UMAP 的惊人项目。

UMAP 动物园

探索UMAP在降低动物点云维度时的行为。它是互动的,允许你在2D和3D表示之间切换,并提供了多种不同的动物选择。尝试从2D UMAP表示中猜测动物是一个有趣的游戏。实际上,这个工具可以在很大程度上帮助建立至少一些关于UMAP如何处理数据的直觉。

_images/UMAP_zoo.png

UMAP 动物园

感谢 Douglas Duhaime。

Tensorflow 嵌入投影器

如果你只想探索数据集的UMAP嵌入,那么Tensorflow的嵌入投影仪是一个很好的选择。它不仅提供了一个良好的交互式3D视图,还具有检查和搜索数据上的标签和标签的功能。默认情况下,它会加载word2vec向量,但你可以上传任何你想要的数据。然后,你可以在嵌入选择的标签中选择UMAP选项(与PCA和t-SNE一起)。

_images/embedding_projector.png

嵌入投影仪

感谢Andy Coenen和Embedding Projector团队。

PixPlot 提供了大型照片集的概览。在耶鲁大学数字人文实验室的演示应用中,它为Meserve-Kunhardt历史照片集提供了一个窗口。该方法使用卷积神经网络将图像降维到2048维,然后使用UMAP将它们呈现在一个二维地图上,用户可以交互式地平移和缩放。这个过程使得相似的照片最终出现在地图的相似区域,从而便于浏览大型照片集。PixPlot项目也可以在github上找到,如果您希望在自己的照片集上进行训练。

_images/pixplot.png

一个很好的演示,展示了如何构建一个基于网络的应用程序,用于交互式探索UMAP嵌入。 在这种情况下,它提供了对在MNIST数字数据集上运行的UMAP的探索。嵌入中的每个点都被渲染为数字图像,并根据数字类别进行着色。将鼠标悬停在图像上会使它们变大,并在左上角提供数字的视图。您还可以平移和缩放嵌入,以更好地理解UMAP如何将不同风格的手写数字映射到二维空间。

_images/umap_explorer.png

感谢Grant Custer。

音频探索器

音频探索器使用UMAP将声音样本嵌入到二维空间中以方便探索。 这里的目的是获取一个大型的声音样本库,并将相似的声音放在地图的相似区域, 允许用户快速鼠标悬停并听取给定样本的各种变化,以快速找到确切要使用的声音样本。 音频探索器在应用UMAP生成二维嵌入之前,使用MFCCs和/或WaveNet来提供声音样本的初始有用向量表示。

_images/audio_explorer.png

音频浏览器

感谢Leon Fedden。

探索时尚MNIST

一个基于网页的交互式探索,展示了在Fashion MNIST数据集上运行的3D UMAP嵌入。用户可以自由导航3D空间,通过点击图像或输入图像ID跳转到特定图像。与Grant Custer的UMAP Explorer类似,每个点都渲染为实际图像,并根据标签进行着色。它也类似于Tensorflow Embedding Projector,但更专门为Fashion MNIST设计,因此更高效,能够显示所有70k张图像。

_images/exploring_fashion_mnist.png

探索Fashion MNIST

感谢stwind。

ESM 宏基因组图谱

ESM宏基因组图谱包含了超过6亿个预测的蛋白质结构,以一种我们从未见过的方式揭示了宏基因组世界。探索页面可视化了其中的100万个样本。(这大约是浏览器可以处理的数量。)我们将数据集中的每个蛋白质表示为一个点,并在放大或悬停时显示实际的蛋白质结构。每个点的颜色对应于与我们在UniRef90(已知蛋白质序列的参考数据库)中找到的最接近匹配的相似性。地图中的位置是一个二维投影,根据我们的语言模型的内部表示,按相似性对序列进行分组。地图揭示了不同尺度的结构:同一集群中的局部邻居往往具有相似的结构,而附近的集群则保留了某些模式,如二级结构元素。

_images/ESM_metagenomic_atlas.png

感谢“使用语言模型预测原子级蛋白质结构的进化尺度”的作者们。

ESM 微生物基因组图谱