【Arxiv 2021】《 Putting Humans in the Natural Language Processing Loop: A Survey》阅读笔记

2024-01-03 14:22:40

【Arxiv 2021】《 Putting Humans in the Natural Language Processing Loop: A Survey》阅读笔记

英文标题：Putting Humans in the Natural Language Processing Loop: A Survey
中文翻译：调查报告：将人类置于自然语言处理循环中
原文链接: https://arxiv.org/pdf/2103.04044.pdf.

文章目录

【Arxiv 2021】《 Putting Humans in the Natural Language Processing Loop: A Survey》阅读笔记
Abstract
1. Introduction
- - 本文的创新点：
2. Human-in-the-Loop NLP 的各项任务
3. Human-in-the-Loop Goals
4 用户反馈的方式
5 处理用户反馈的方式
- 5.1 数据增强
- 5.2 模型直接更新
未来展望

Abstract

如何设计能从人类反馈中学习的自然语言处理(NLP)系统?
许多人开始研究HITL NLP框架（human in the loop NLP，即自然语言领域中的人机回环），它不断集成人的反馈以改进模型本身。HITL的NLP研究尚处于起步阶段，但解决方法多种多样。

从不同的人那里收集不同的反馈，并应用不同的方法从收集到的反馈中学习。基于此，作者展示了一份来自机器学习(ML)和人机交互(HCI)社区的HITL自然语言处理工作的调查报告。

1. Introduction

传统上，自然语言处理(NLP)模型是由机器学习专家在现有数据集上进行训练、微调和测试的，然后部署以解决用户的现实问题。模型用户通常可以提供宝贵的反馈，揭示被模型开发人员忽略的设计细节，并提供训练数据集中没有表示的数据实例（Kreutzer等人，2020）。然而，传统的线性NLP系统的设计并不是为了利用人类的反馈。显然这样的系统逐渐被淘汰，HITL NLP系统应运而生，

在自然语言处理循环中，人类与模型之间的协作。人类在循环的不同阶段提供反馈，以提高NLP模型的性能、可解释性和可用性。

HITL NLP系统也有一个高维的设计空间。例如，人类反馈可以来自最终用户或人群工作人员,人类可以在训练或部署期间干预模型。好HITl NLP系统需要清晰地向人类传达模型需要什么，提供直观的界面来收集反馈，并有效地从中学习。因此，HITL的自然语言处理研究不仅涉及自然语言处理和机器学习(ML)

本文的创新点：

这是关于HITLNLP主题的第一次全面的调查。作者做出了两个主要的贡献：
(1）我们总结了最近对HITLNLP的研究，并定位每项工作的任务.
(2）我们批判性地讨论现有的知识差距，并强调我们从调查中提取的重要研究方向.

2. Human-in-the-Loop NLP 的各项任务

2.1 文本分类

文本分类是NLP中将文本分类为不同组的一个经典问题。在一组文本文档(X)及其分类标签(Y)上进行训练，文本分类器可以预测看不见X的Y值。例如，一个影评情绪分类器可以预测一篇评论是正面的还是负面的。许多HITL框架都为这个问题开发了，其中大多数从训练文本分类器开始，然后根据当前的模型行为招募人类来注释数据，最终在较大的数据集上连续重新训练分类器。
这种任务的优化方法通常为主动学习，labeler(专家)注释更少的数据，可以实现相同的模型框架提升。设置通过将主动学习组件从对单词的采样扩展到整个文档，进一步改进了此HITL工作流。为了简化HITL文本分类器的部署，开发了一个良好的基于web的工具，它支持一般的文本分类任务。研究人员还开发了特定领域的HITL文本分类系统。例如，为记者开发的谣言分类系统在部署中紧密集成了模型再训练、数据收集和数据注释。

文本分类最新提出一个词典的概念，是一组共享相同语义的单词。定义良好的字典比单词包具有更高的准确性，更可解释性。在Jandot等人的HITL系统中，用户可以通过基于网络的用户界面轻松创建语义词典，文本分类器不断对新词典进行分类训练。

2.2 解析与实体连接

在NLP中解析是一个确定输入文本的语法结构的过程。实体连接的目的是为文本中的实体分配唯一的标识，例如名称和位置。
在训练期间，使用人工反馈作为软约束来惩罚解析器，这使得解析器的性能显著提高。通过人工在实体连接模型表现不佳时，交互式地注释正确的实体。此外，具战略性的抽样自己置信度较低的实例给人类，一个较小的反馈集可以快速提高实体链接模型的性能。

HITLNLP中的代表性工作概述。每一行表示一个工作。工作将按其任务类型进行排序。每一列对应于四个子部分的维度（任务、目标、人际交互和反馈学习方法）

2.3 标题摘要

除了使用HITL方法来增强对低级语义关系的学习外，研究人员还将类似的框架应用于用于分析大型文档集合的标题摘要技术。传统上，人们使用take it or leave it算法来处理这个任务，如信息检索和文档聚类。在过去的几年中，有越来越多的HITL文档摘要研究机构。他们的系统允许用户通过添加、删除或更改每个主题中单词的权重来优化经过训练的模型。然后，使用用户更新的特性和权重，训练过的模型更有可能生成有用的主题。最近，研究人员专注于开发更多以人为中心的HITL主题建模方法。这些方法强调了主题建模最终用户的需求，主要是NLP非专家，而不是只收集算法上方便了人类反馈。还有些人开发了一个直观的可视化系统，允许最终用户投票特定文档，以告知他们的兴趣。

2.4 摘要与机器翻译：

近两年摘要与机翻成长迅速。这吸引了NLP和HCI社区的注意来设计和开发HITL系统。根据两个模型生成的摘要对收集人类的偏好，然后训练一个奖励模型来预测偏好。然后，利用该奖励模型来训练一个策略，以使用强化学习来生成摘要。同样地，克鲁策等人。（2018）收集显式和隐式的人类反馈，通过利用强化学习的反馈来改进机器翻译模型。实验表明，基于人工偏好数据训练的模型具有更高的精度和更好的泛化性。

2.5 对话系统方面：

最近，许多HITL框架已经为对话和问答(QA)系统开发，其中Ai智能代理可以与用户进行对话。目前可以将这些系统分为两类：
（1）在线反馈循环：系统不断使用人工反馈更新模型；
（2）离线反馈循环：将人工反馈过滤汇总后，批量更新模型。

在线反馈循环：

传统上，对话系统的训练集和在线用例存在不匹配。为了解决这一挑战，在线强化学习可以用来用人类反馈来改进模型。
1.在部署过程中收集用户的对话修收集二进制显式反馈和隐式自然语言反馈。
2.提出了一个终身学习框架来提高聊天机器人的性能。聊天机器人不仅被训练成生成对话，而且可以预测用户的满意度。在部署过程中，聊天机器人在生成响应后预测用户的满意度，并在预测的满意度分数较低时要求用户提供反馈。然后，聊天机器人将反馈作为一个新的训练例子来连续不断地重新训练自己。

离线反馈循环：

离线HITL模型会在收集到大量的人工反馈后进行更新。之前的论文中曾邀请人群工作人员产生可以欺骗他们的QA系统的对抗性问题，并将这些问题用于对抗性训练。离线反馈循环对话系统更稳健，因为用户反馈可能会引起误导，因此直接更新模型很有风险（Kreutzer等人，2020）。

3. Human-in-the-Loop Goals

HITL在NLP任务中使用HITL方法最常见的动机是提高模型的性能。有不同的指标来衡量模型性能，我们的调查论文的实验表明，
1.HITL可以通过相对较小的人工反馈显著有效地提高模型性能。
2.HITL提高了模型对不同数据的鲁棒性和泛化性

4 用户反馈的方式

4.1 两种媒介

通常通过两种交互媒介：图形用户界面与自然语言用户界面
1.图形用户界面： 收集用户反馈的常用的交互介质之一是图形用户界面(Gui)。Gui提供了一个用户界面，允许用户通过图形图标和辅助符号等可视化指示器与系统进行交互。一些HITLNLP系统允许用户直接在Gui中标记样本，其他一些作品甚至使用Gui为用户对文本摘要任务中的训练句子进行评分，并将生成的主题在主题建模任务中进行排序。Gui的一个明显优点是，它可视化了在黑框中运行的NLP模型，增强了模型的可解释性，如第4节所述。此外，与基于文本的用户界面相比，Gui支持Windows、图标、菜单、指针(WIMP)交互，为用户更精确地提供细化模型的控制。
2.自然语言界面： 在HITLNLP系统中，另一种常用的交互介质是自然语言接口。自然语言界面是用户通过自然语言与计算机交互的界面。由于此界面通常模拟与计算机对话，主要是建立对话系统隐式反馈（与Gui相比，自然语言界面在使用起来更直观，因为它模拟了人类的对话过程，因此不需要额外的教程。它还可以与对话系统完美地集成，并支持对自然语言反馈的收集，为用户提供了更多的改进模型的*。

4.2 四种主要用户反馈方式

HITL系统中两种交互媒介和支持的四种主要用户反馈，包括二进制用户反馈、量化用户反馈、自然语言用户反馈和反事实示例反馈。
**1.二进制用户反馈：**二进制用户反馈是指有两种通常相互对立的反馈，如“喜欢”和“不喜欢”。
缺点：这种用户反馈通常很容易收集，但有时可能会忽略潜在的中间情况，从而过度简化用户的意图。二进制用户反馈可用于为系统提供显式反馈，以更新训练数据集或直接操作模型。
2.量化用户反馈：是具有缩放类别的反馈，通常是数值格式，如5点比例评级。因为它用自然语言表达准确的尺度反馈是不同的。当用户对其对训练数据或模型结果的偏好进行评分并调整特征。与二进制用户反馈类似，量化的用户反馈可以为系统提供明确的反馈来更新模型，有更多的选项来覆盖中间情况(例如。在5点的比例上将一个特征的权重从1调整到3）
3.自然语言反馈：：直接输入自然语言，通过解析用户输入的句子，更新模型。
4.反事实示例反馈：通常以自然语言文本的形式进行，并通过自然语言界面收集。一个反事实的例子用形式描述了一个因果情况：“如果X没有发生，Y就不会发生。HITLNLP系统收集和分析用户修改的反事实文本示例，并相应地重新训练模型。

4.3 两种常用的训练方法

HITLNLP系统中，主动学习和强化学习是我们在我们调查的系统中观察到的两种常用技术。主动学习允许系统交互式查询用户，用所需输出标记新数据点，通过战略性地选择样本以最少的迭代最大限度地提高信息获取，主动学习不仅减少了人类在数据标签上的努力，而且还提高了系统的效率。与主动学习相比，强化学习基于用户反馈采取行动，最大化累积奖励的概念。通过将每个用户的反馈视为一个新的动作，强化学习支持对人类意图的准确理解，并相应地更新模型。

5 处理用户反馈的方式

我们将讨论两种主要的更新方法，包括数据增强和模型直接操作。

5.1 数据增强

一种流行的方法是将反馈视为一个新的客观真实数据样本。例如，用户对模型问题的回答可以是用来重新训练QA模型的数据样本。我们描述了两种使用增强数据集的技术：Offline更新在收集人类反馈后从头开始重新训练NLP模型，而在线更新在收集反馈的同时训练NLP模型
1.离线模型更新： 更新通常在收集到一定数量的离线模型反馈后执行。离线更新不需要立即进行，因此适合于复杂模型的噪声反馈，需要额外的处理和训练时间。
2.在线模型更新： 是在给予用户反馈后立即应用的。这对于对话系统和对话QA系统非常有效，其中最近的输入对机器的推理至关重要。增量学习技术通常用于实时学习增强数据。它侧重于利用新出现的反馈信息有效地对当前系统进行增量更改。交互式主题建模系统和特征工程系统广泛地使用了这一技术。通过增量地扩展或缩小主题树来逐步更新主题层次结构。此外，一些框架使用潜在狄利克雷分配(LDA)在增量迭代中收集的反馈调整采样参数（Smith等人，2018）。

5.2 模型直接更新

例如通过量化反馈（例如五点评分），直接进行模型调整。

用户反馈类型与使用方式之间的关系。每一行表示一种反馈类型（第5.2节），每一列对应一种模型学习方法（第6节）。

未来展望

两个挑战
1.拓宽HILP NLP对应的角色 ：未来的NLP研究人员探索HITL，以更好地理解他们的模型，并改善模型最终用户的用户体验。未来的研究人员可以考虑让模型工程师和最终用户参与NLP开发循环。例如，我们可以开发一个基于web的工具，其中最终用户可以交互式地修改文本分类器的特征权重，并在运行时观察模型的行为。通过执行这些“假设”操作，用户可以进一步了解模型内部使用这些功能的方式。类似地，HITL聊天机器人可以通过自然语言输入支持模型参数修改来授予用户更多的控制权。
2. 人中心的设计：人反馈是HITL系统的关键。然而，由于设计不当的人机界面，接收到的人类反馈更有可能存在、不正确，甚至误导。因此，通过更好的界面设计和用户研究来评估HITL系统界面，可以大大提高反馈收集的质量，从而证明了下游任务的性能。为了从HCI的角度阐明HITLNLP的研究，探讨了在HITL界面中添加模型解释线索对收集的反馈质量的影响）研究如何问好问题，人类更有可能提供有用的反馈。在设计和评估HITL界面方面，有许多令人兴奋的研究机会和挑战。

码农公寓

【Arxiv 2021】《 Putting Humans in the Natural Language Processing Loop: A Survey》阅读笔记

文章目录

Abstract

1. Introduction

本文的创新点：

2. Human-in-the-Loop NLP 的各项任务

2.1 文本分类

2.2 解析与实体连接

2.3 标题摘要

2.4 摘要与机器翻译：

2.5 对话系统方面：

在线反馈循环：

离线反馈循环：

3. Human-in-the-Loop Goals

4 用户反馈的方式

4.1 两种媒介

4.2 四种主要用户反馈方式

4.3 两种常用的训练方法

5 处理用户反馈的方式

5.1 数据增强

5.2 模型直接更新

未来展望

相关文章