2.3 数据变换【斯坦福21秋季:实用机器学习中文版】

数据变换

在获取了原始数据,经历了数据清洗的步骤后,我们又应该怎么做呢?本节课从数值、图片、视频、文本四个角度出发,介绍了数据变化。
出处:https://www.bilibili.com/video/BV1pQ4y167ej
参考:https://www.bilibili.com/read/cv13533854?from=note

一、思维导图
2.3 数据变换【斯坦福21秋季:实用机器学习中文版】
二、数值变换
处理过程中,要保证数据质量、大小,考虑具体使用什么格式(每个单独的文件or文件夹)读取,实现数据的正常化(Normalization)。
(1)数据放置在一个合理的区间。把一个列里面的数值的最小值与最大值都限定到一个固定区间内,所有的元素只通过线性变化出来,防止数据过大过小。
机器学习对于数据大小很敏感,过大过小的数据模型可能会认为很重要,最终导致结果不准确。
2.3 数据变换【斯坦福21秋季:实用机器学习中文版】
(2)每一列的特征均值变成0,方差变成1。
2.3 数据变换【斯坦福21秋季:实用机器学习中文版】
(3)归一化处理,把一列的数据换成在[-1, 1]之间。
2.3 数据变换【斯坦福21秋季:实用机器学习中文版】
(4)对数值都是大于0,且数值变换比较大可以试一下log。log上的加减等于原始数据的乘除,可以计算将基于百分比。
2.3 数据变换【斯坦福21秋季:实用机器学习中文版】
三、图片变换
1.问题
存储问题——占用内存过大
2.解决方案
(1)修改图片尺寸
机器学习对低分辨率的图片不在意,可以裁剪图片背景、或者抠图减小尺寸。
(2)压缩图片
图片的质量还是图片的大小需要权衡。图片采样的比较小,且jpeg选用中等质量压缩,可能会导致精度有1%的下降。
四、视频变换
1.问题
(1)存储的大小
(2)下载的速度
(2)处理的质量
2.解决方案
(1)采样关键帧
对于视频的感兴趣的部分,进行切割处理(利用GPU采样),占用内存少一点。
(2)直接转换为关键图片
五、文本变换
1.词根化或者语法化
把一个词变成常见的形式 。比如,am,is,are–>be car,cars,car’s,cars’–>car
2.词元化
机器学习算法中最小的单元。
(1)对于英文词,可以word.split(’ ')
(2)对于词组切割子词, word.split(‘a new gpu!’)–>“a”,“new”,“gp”,"##u","!"
目标是把文本处理为小的单元。

上一篇:实验四 继承


下一篇:11.24