请选择 进入手机版 | 继续访问电脑版
客户端

模型喂数据的6大错误以及如何避免

所在版块: 区块链技术 2018-04-16 13:42   [复制链接] 查看: 1198|回复: 179
本帖最后由 梦想才让 于 2018-4-15 18:24 编辑

介绍

通过避免数据科学中最常见的错误,以及技巧,窍门和小猫,了解如何构建杀手数据集。如果你还没有听说过,让我告诉你一个事实,作为一名数据科学家,你应该始终保持在你的头脑中:“你的结果和你的数据一样好。”

许多人会犯的尝试错误弥补了 他们的丑陋的数据集通过提高他们的模型。这相当于购买超级跑车,因为您的旧车在低价 汽油方面表现不佳。它使更多的意义提炼的油,而不是升级的车。在这篇文章中,我将解释如何您可以轻松地提高您的结果通过提高你的数据集。

注意:我将以图像分类任务为例,但这些技巧可以应用于各种数据集。

6个最常见的错误,以及如何解决它们。

1.数据不足。

如果您的数据集过小,你的模型没有足够的例子找到判别特征将被用来概括。然后它会过度地适合你的数据,导致训练错误率低, 但测试错误率高。

解决方案#1收集更多数据。您可以尝试找到更多的相同 源为您的原始数据集,或者从另一个 源,如果图像是非常相似的,或者如果你绝对要来概括。

注意事项:这通常不是一件容易的事情,至少不投入时间和金钱。另外,你可能想要做一个分析来确定你需要多少额外的 数据。将结果与不同的数据集大小进行比较,然后尝试推断。
01.jpg



在这种情况下,我们似乎需要500k个样本来达到我们的目标 误差。这意味着收集目前数据量的50倍。处理数据的其他方面或  模型可能更有效。

解决方案#2通过创建同一图像的多个副本并略有变化来增强您的数据。这种技术可以创造奇迹,并以非常低的成本生成大量附加图像。您可以尝试裁剪,旋转,翻译或缩放图像。你可以添加 噪点,模糊它,改变它的颜色或阻碍它的一部分。在所有情况下,您都需要确保数据仍然代表同一个班级。
02.jpg



所有这些图像仍然代表“猫”类别

这可以是非常强大的,因为堆叠这些效果会为您的数据集提供指数级的大量样本。请注意,这通常比收集更多 原始 数据要差。



03.jpg
组合的数据增强技术。班级仍然是“猫”,应该被认可。

注意事项:所有增强技术可能不适用于您的问题。例如,如果要归类柠檬和酸橙,不与色相玩,因为这将是有意义颜色是对分类重要。



04.jpg
这种类型的数据增加会使模型难以发现区分特征。

2.低质量的课程

这很简单,但如果可能的话,花点时间浏览一下数据集,然后验证每个样本的标签。这可能需要一段时间,但在您的数据集中有反例会对 学习过程造成不利影响。


另外,为您的课程选择适当的粒度级别。根据问题,您可能需要更多或更少的课程。例如,您可以用全局分类器对小猫的图像进行分类,以确定它是一只动物,然后通过动物分类器运行它以确定它是一只小猫。一个巨大的模型可以同时做到这一点,但这会更困难。



05.jpg
用专门的分类器进行两阶段预测。

3.低质量的数据

正如引言所述,低质量的数据只会导致低质量的结果。

数据集中的数据集中的示例可能与您想要使用的数据集相距太远。这些可能会让模型感到困惑,而不是有用的。

解决方案1删除最糟糕的图像。这是一个漫长的过程,但会改善你的结果。




06.jpg
当然,这三张图片代表猫,但该模型可能无法使用它。

另一个常见问题是,当您的数据集由与现实世界应用程序不 匹配的数据组成时。例如,如果图像是从完全不同的来源获取的。

解决方案2考虑您的技术的长期应用,以及哪些手段将用于获取生产数据。如果可能,尝试使用相同的工具查找/构建数据集。



07.jpg
使用不代表真实世界应用程序的数据通常是一个糟糕的主意。您的模型可能会提取在现实世界中无法使用的功能。

4.不平衡的类

如果数每类样本的不是 大致的相同的所有类,模型可能有利于统治阶级的倾向,因为它会导致一个较低的 错误。我们说这个模型是有偏见的,因为类的分布是不对称的。这是一个严重的问题,也是为什么你需要看看精度,召回或混乱矩阵。

解决方案1收集更多的代表性不足班的样本。然而,这往往 成本高昂的时间和金钱,或者根本不可行。

解决方案2数据过多/过少。这意味着您可以从超出的类别中删除一些样本,和/或从代表不足的类别中复制样本。比重复更好,使用前面看到的数据增强。



08.jpg
我们需要加强的代表性不足类(CAT)和撇开一些 从样品中过表达类(石灰)。这将使课程分配更顺畅。

5.不平衡的数据

如果您的数据没有特定 格式,或者这些值不在特定 范围内,那么您的模型可能无法处理它。对于高宽 比和像素 值的图像,您将获得更好的结果。

解决方案#1裁剪或拉伸数据,使其具有与其他样本相同的外观或格式。



09.jpg
两种可能性来改善格式不正确的图像。

解决方案2对数据进行归一化处理,使每个样本的数据处于相同的值范围内。



10.jpg
数值范围被归一化为在整个数据集中保持一致。

6.没有验证或测试

一旦你的数据集已被清理,扩充和正确标记,你需要分割它。许多人将其分为以下几种:80%用于培训,20%用于测试,这 可以让您轻松发现过度配合。但是,如果您在同一个测试集上尝试多个模型,则会发生其他情况。通过选择提供最佳测试精度的模型,您实际上是过度测试集合。发生这种情况是因为您手动选择的模型不是针对其内在的 价值,而是在一组特定数据上的表现。

解决方案:将数据集分为三部分:培训,验证和测试。该屏蔽你的测试被设置过度拟合由模型的选择。选择过程变为:

1、火车上你的模型训练集。

2、在验证集上测试它们以确保您不会过度使用。

3、选择最有前途的模式。测试它的测试集,这会给你真正准确的模型。
11.jpg



注意:一旦你选择了你的模型进行生产,不要忘记在整个 数据集上进行训练!数据越多越好!

结论

我希望现在你确信在考虑你的模型之前你必须关注你的数据集。您现在知道处理数据的最大错误,如何避免陷阱,以及如何构建杀手数据集的提示和技巧!如有疑问,请记住:“获胜者是不是一个最好的模式,这是一个最好的数据”。




翻译:铂链志愿者-技术组
校对:技术组秘书
QQ社区:368648935
微信社区:bottosyes(bottos助理)

回复

使用道具 举报

charleschen

发表于 2018-4-16 15:14:32 | 显示全部楼层
志愿者出马了。
回复

使用道具 举报

13011408056

发表于 2018-4-16 19:13:13 | 显示全部楼层
看不懂一点都看不懂
回复

使用道具 举报

黄发根

发表于 2018-4-16 19:43:39 | 显示全部楼层
如何构建杀手数据集
回复

使用道具 举报

13106094173

发表于 2018-4-16 19:46:50 | 显示全部楼层
看不懂一点都看不懂
回复

使用道具 举报

邹红香

发表于 2018-4-16 19:50:34 | 显示全部楼层
志愿者出马了。
回复

使用道具 举报

hh13767620803

发表于 2018-4-16 19:54:22 | 显示全部楼层
增强您的数据
回复

使用道具 举报

善财哥

发表于 2018-4-16 19:58:05 | 显示全部楼层
说的非常好
信仰才是成功之道,所以我是有信仰的人!哈哈
回复

使用道具 举报

湖蓝

发表于 2018-4-16 21:23:54 | 显示全部楼层
错误,以及技巧,窍门和小猫,了解如何构建杀手数据集。如果你还没有听说过,让我告诉你一个事实,作为一名数据科学家,你应该始终保持在你的头脑中:“你的结果和你的数据一样好。”
回复

使用道具 举报

zhang2

发表于 2018-4-16 21:57:12 | 显示全部楼层
看不懂 但是支持铂链
我会很好
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫描关注微信公众号及微博

Archiver|手机版|小黑屋|铂链BOTTOS社区 | 国内领先的区块链公益社区论坛

GMT+8, 2018-12-16 04:04 , Processed in 0.113261 second(s), 34 queries .

铂链BOTTOS社区 | 国内领先的区块链公益社区论坛

© 2017 bottos

快速回复 返回列表