情感分析入门指南

教程 July 11, 2022

你想了解客户的感受，但逐个询问"嘿，你感觉如何？"可能不太现实。通过情感分析，你可以用可扩展的数据驱动方式来掌握客户对业务的真实感受。

什么是情感分析？

情感分析是自然语言处理的一种形式。在这里，程序专门处理给定的数据以确定对话的情绪。其目标不仅是理解对话中发生的内容，还要向您反馈该对话的情绪状态。

假设一位客户来信说：“我想加倍订购洗衣液。我太喜欢这个配方了，我们全家都爱用！”

您的程序应该知道客户想要修改他们现有的订单。但是，如果正在进行情感分析，程序还应将该响应标记为积极互动。

评估对话基调有多种方法。一些情感分析程序使用0到10的数字量表对对话进行分类，0表示负面对话，10表示正面对话。

其他程序会使用"友好"、"愤怒"、"热情"等更细致的对话描述词，将对话划分为不同的组别，以反映对话本身的细微差别。

一个普通的情感分析程序可以处理或消化数千条客户对话，然后报告客户满意度的状态。

通过全面俯瞰客户互动全景，同时深入高分辨率细节观察，您的情感分析程序能够揭示关于客户满意度的全新数据驱动洞见，这些发现若没有该工具将难以实现。

为了理解情感分析，了解以下几个概念会很有帮助：

机器学习

这是众所周知的训练场，程序在这里学习理解客户对话——你为程序提供一组数据作为工作基础。

研究人员在训练机器学习模型时，常使用亚马逊商品评论、电影评论以及其他类型的大规模客户反馈数据集，来教会程序识别积极、矛盾与消极的情感倾向

首先，你需要告诉你的新手程序什么样的评论是正面的。它可能包含诸如"awesome"、"satisfied"、"great"等形容词，这些词应该被你的程序标记为积极情绪的指标。随着你针对更多数据集训练模型并调整其分类标准，它将变得更擅长理解对话的基调。

自然语言处理

当你的程序读取客户反馈并作出回应时——这就是自然语言处理。它描述了程序理解所接收文本和语音的能力，解析其含义，并以类似方式回复或根据输入采取某种行动。

在此状态下，您的程序已从训练场（您在那里为其提供数据集并纠正其假设）转移到现实生产环境中，现在它能自主接收对话并理解其含义。

如何标注情感分析数据

一个成功的情感分析程序遵循关键阶段或数据处理流程。

数据收集
预处理
向量化
可视化

数据收集

第一阶段涉及程序接收数据集。这可能是一个上传的大型CSV信息文件，或者只是确保从公司自动化调查数据库流出的信息管道能够顺畅传输到用于记录整体情感倾向的程序中。

第一种数据收集方式，即开发者上传数据存档的方式，属于手动数据收集。在这种方式下，情感分析程序会在开发者或运营公司指定的特定时刻接收数据输入。

第二种数据收集类型是自动化数据收集，其中程序连接到数据库或API，这些数据源会自动持续地为其提供信息。在这种环境下，情感分析程序不断接收更多可用于训练自身以提高准确性的信息。

预处理

人类并没有让计算机的生活变得轻松。我们可能会拼写错误，在不该使用大写字母时用了大写，偶尔漏掉一两个字母，或者用数字代替字母。这些错误对人类来说可能很容易纠正，但对计算机来说，在错误被修正之前很难采取行动。

因此，如果一位需要从您的奢侈时尚品牌购买新领衬衫的顾客在实时聊天系统中写道："有人能再给我一件衬衫下单吗？"普通人读到这句话可能会稍感不适，但仍然能理解顾客的需求。

普通的情感分析程序无法理解那些杂乱无章的文本。因此，在预处理阶段可以对文本进行规范化处理，修正大小写问题和数字误用情况。现在我们最初收到的句子"DoeS any1 have another Shirt I can order?"就变成了"Does anyone have another shirt I can order?"。第二个句子对程序来说更容易理解和处理。但更好的预处理方式是将文本转换为"does anyone have another shirt I can order."。通过将接收的文本字符串全部转为小写，可以避免程序将"Does"和"does"视为不同单词的问题，尽管它们实际上是同一个词。当我们开始将词语转换为数值数据时，这种区分就显得更加重要。

向量化

每个词语背后都蕴含着丰富的语境。以"commit"这个词为例，开发者们应该都很熟悉。这个词源自拉丁词根"com"意为"与"，以及"mittere"意为"放置"或"发送"。这个词本身可以用来描述配偶对伴侣的忠诚，也可以用来详述某人犯下的罪行。程序没有时间和带宽来解析所有这些上下文。

向量化是将文本转换为数值标签，并将这些数值标签组织到不同类别的过程。您可以使用二进制系统对文本进行分类，或采用更具上下文感知的向量化策略。无论如何，您的程序将保留所分析词汇背后的含义，但会将它们组织成更易于操作的向量形式。

可视化

您的程序拥有向量，使其能够轻松解析信息。但是，作为人类的您，实际阅读这些信息时呢？这时就需要可视化工具的帮助。通过使用可视化工具、API和软件，您可以将程序中的数据导入第三方工具，从而洞察数据背后的规律。

在这里，你可能会发现"cracked"这个词与大多数负面对话相关联。如果你是一家向客户运送产品的电动自行车公司，比如Vanmoof，你可能想深入调查这一点。也许你会发现自行车在运输过程中受损，并想出一个巧妙的点子：用看起来装着平板电视的箱子来运送高端自行车，这样运输人员就会更加小心对待这些自行车。所有这些可能性都存在于数据中，通过你的可视化工具浮出水面。

为流程分析标注数据前需做出的决策

在构建情感分析模型之前，您需要就模型的用途和工作方式做出一些决策。

词汇表: 用于训练情感分析程序的数据集将决定你的情感分析效果。使用推特数据训练NLP模型会使模型熟悉该领域的词汇表达。这与使用莎士比亚诗歌训练NLP模型所获得的词汇表截然不同。如果你要分析推文，这很好。但如果你的客户使用更正式、更优雅的语言，你应该选择能反映他们语言风格的数据集。
粒度: 如果你只是想判断客户是高兴还是难过，那是一种情况。但如果你想分析客户的评论是表示不满、失望、热情、兴奋、乐观、淡定还是中立，那就完全是另一回事了。
更新：如果您将数据存储在静态环境中，则需要自行负责将更新后的数据推送到程序中。如果您将数据存储在动态环境中，尤其是在云端，持续将数据输送到应用程序会容易得多，从而保持数据最新。
审核：为确保您的应用表现良好，您应该选择一组审核人员，他们能确保程序准确分类和分析文本及其他形式的数据。这些人还可以协助标注数据，以确保程序处理得细致周全。在此环节，您还可以运用NLP和ML框架为程序提供先发优势。

Label Studio 如何提供帮助

一个成功的情感分析程序包含两大主要组成部分。

首先，是软件部分——你将使用哪些库来分析和分类数据，并最终运行模型？市面上有很多选择。例如，Pattern、TextBlob或NLTK都是很好的起点，特别是如果你是一名Python程序员。

但接下来还有数据集和模型的问题。在获取训练数据后——无论是推文、航班到达信息、客服互动记录还是其他内容——你需要高效地为这些数据打标签，以便模型能够准确训练。

Label Studio 是一个数据标注平台，可用于标注包含各类数据的大规模数据集，包括文本（自然语言处理、文档、聊天机器人、转录文本等）。典型应用场景包括文档分类、命名实体识别、问答系统和情感分析。

要开始使用，安装开源的Label Studio平台，连接您的数据源，添加团队成员，并设置标注界面（使用预置模板或创建自定义布局）。您还可以连接机器学习模型以实现半自动化标注，让团队专注于最模糊或最复杂的任务。