有趣数据集的探索性分析
UMAP 是一种用于数据一般探索性分析的有用工具——它可以提供一个独特的视角来查看数据,从而突出隐藏在数据中的结构和特性,这些在使用其他技术分析时可能不那么明显。以下是 UMAP 用于有趣数据集探索的一些用例——从纯数学和神经网络输出,到哲学文章和科学文本。
数字的质因数分解
如果我们对整数应用UMAP会发生什么?首先,我们需要一种方法将整数表达在高维空间中。这可以通过查看每个数的质因数分解来实现。接下来,你需要取足够多的数来生成一个有趣的可视化。John Williamson着手做了这件事,结果非常有趣。虽然它们可能不会告诉我们任何关于数论的新知识,但它们确实突出了质因数分解中的有趣结构,并展示了UMAP如何帮助我们对我们可能认为已经很熟悉的数据集进行有趣的探索。值得访问下面链接的文章,因为Williamson博士提供了关于UMAP应用于整数质因数分解的丰富而详细的探索。
感谢约翰·威廉姆森。
近期哲学的结构
哲学是一个极其多样化的学科,从社会和道德哲学到逻辑和数学哲学;从古希腊哲学的分析到现代商业伦理。如果我们能够获得上个世纪发表的所有哲学论文的概览,它会是什么样子?马克西米利安·诺伊奇提供了这样一种探索,他查看了大量哲学论文样本,并根据它们的引用进行了比较。结果非常有趣,并且可以在马克西米利安为其构建的查看器中交互式地探索。
感谢Maximilian Noichl。
神经网络中的语言、上下文和几何
在自然语言处理的最新发展中,BERT神经网络技术被用于语言分析。BERT能够做的众多事情之一是对词语进行上下文敏感的嵌入——提供对词语使用上下文敏感的数字向量表示。神经网络内部究竟是如何做到这一点的,这有点神秘(因为网络非常复杂,有许多参数)。来自谷歌的一个研究团队开始探索由BERT生成的词嵌入空间,使用的工具之一是UMAP。链接的博客文章详细且富有启发性地分析了BERT的词嵌入是什么样子的,以及BERT的不同层次如何代表语言的不同方面。
感谢Andy Coenen、Emily Reif、Ann Yuan、Been Kim、Adam Pearce、Fernanda Viégas和Martin Wattenberg。
激活图谱
理解现代卷积神经网络的图像处理能力(及其缺陷!)是一个挑战。当然,这些模型在图像分类等方面能够实现惊人的壮举。它们也可能以意想不到的方式脆弱,精心设计的图像能够引发令人困惑的错误分类。为了更好地理解这一点,来自Google和OpenAI的研究人员构建了激活图谱——分析神经网络的激活空间。在这里,UMAP提供了一种将激活景观压缩到二维以进行可视化的方法。结果是在Distill期刊上发表了一篇令人印象深刻的互动论文,提供了丰富的可视化和对卷积神经网络工作原理的新见解。
感谢Shan Carter、Zan Armstrong、Ludwig Schubert、Ian Johnson和Chris Olah。
开放课程大纲星系
假设你想探索Open Syllabus中常见指定文本的空间?这为你提供了超过150,000个文本供你考虑。由于这些文本是开放的,你实际上可以分析涉及的文本内容。通过一些NLP和神经网络的神奇技巧,David McClure构建了这样一个文本网络,然后使用node2vec和UMAP生成了它们的地图。结果是一个教科书星系,展示了学科之间的相互关系、相似和相关文本,以及一个有趣的科学景观供探索。与这里的一些其他项目一样,David制作了一个出色的交互式查看器,允许对结果进行丰富的探索。
感谢David McClure。