数据质量和准确性 - 什么影响数据标注的质量和准确性?

2021-11-02

数据质量和准确性 - 什么影响数据标注的质量和准确性?

虽然这些术语经常互换使用,但我们了解到准确性和质量是两个不同的东西。

  1. 数据标注的准确性衡量标记与真实情况的接近程度,或者数据中标记的特征与现实世界条件的一致性。无论您是在构建计算机视觉模型(例如,在街景中的对象周围放置边界框)还是自然语言处理 (NLP) 模型(例如,针对社会情感对文本进行分类),都是如此。

  2. 数据标注的质量关乎整个数据集的准确性。您所有贴标机的工作看起来都一样吗?在您的数据集中标记是否始终准确?无论您有 29、89 或 999 台数据标签机同时工作,这都是相关的。

低质量数据实际上可能会适得其反:第一次是在模型训练期间,第二次是在您的模型使用标记数据以告知未来决策时。要为高性能机器学习模型创建、验证和维护生产,您必须使用可信、可靠的数据来训练和验证它们。

影响数据标记质量的 4 种劳动力特征

在我们为初创企业提供托管数据标记团队的十年经验中,我们了解到四种劳动力特征会影响机器学习项目的数据标记质量:知识和上下文、敏捷性、关系和沟通。

什么影响标签中的数据质量?

1. 知识和背景

在数据标记中,基本的领域知识和上下文理解对于您的员工为机器学习创建高质量的结构化数据集至关重要。我们已经了解到,当工人有上下文时,他们会以更高的质量标记数据,或者知道他们标记的数据的设置或相关性。例如,根据文本的含义,标记文本数据的人应该了解何时可以以多种方式使用某些单词。为了准确地标记“bass”这个词,他们需要知道文本是否与鱼或音乐有关。他们可能需要了解如何用单词代替其他单词,例如“Kleenex”表示“tissue”。

为了获得最高质量的数据,贴标商应该了解您所服务行业的关键细节,以及他们的工作与您正在解决的问题之间的关系。如果您的标签团队的成员具有领域知识或对您的数据所服务的行业有基本的了解,那就更好了,这样他们就可以管理团队并就与上下文、业务或产品做什么以及边缘案例相关的规则培训新成员. 例如,与医疗保健相关的文本的词汇、格式和风格可能与法律行业的有很大不同。

2. 迅捷性

机器学习是一个迭代过程。数据标记随着您测试和验证模型并从其结果中学习而发展,因此您需要准备新数据集并丰富现有数据集以改进算法的结果。

您的数据标记团队应该能够灵活地合并适应最终用户需求的更改、产品的更改或新产品的添加。灵活的数据标记团队可以对数据量、任务复杂性和任务持续时间的变化做出反应。您的标签团队适应性越强,您可以完成的机器学习项目就越多。

在您开发算法和训练模型时,数据标记器可以提供有关数据特征(即属性、特征或分类)的宝贵见解,这些见解将被分析以寻找有助于预测目标的模式,或回答您希望模型给出的答案预测。

3. 关系

在机器学习中,您的工作流程不断变化。您需要能够快速响应并根据您在模型测试和验证阶段学到的知识对您的工作流程进行更改的数据标注员。

要完成这种敏捷工作,您需要在流程中具有灵活性,需要关心您的数据和项目成功的人员,以及与数据标记团队的领导者的直接联系,以便您可以迭代数据特征、属性和工作流基于您在机器学习的测试和验证阶段所学的知识。

4. 沟通

您需要与标签团队直接沟通。一个封闭的反馈回路是要建立你的项目团队和数据贴标之间的可靠的通信和协作的好方法。标记者应该能够在标记数据时分享他们所学到的知识,以便您可以利用他们的见解来调整您的方法。


分享