机器学习概述

机器学习概述

一、机器学习定义

机器学习是一种从数据当中发现复杂规律,并且利用规律对未来时刻、未来状况进行预测和判断的方法,是当下被认为最有可能实现人工智能的方法。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。

1.机器学习与人工智能、深度学习的关系

相比机器学习,人工智能具有更加广泛的含义,它包括知识表示,智能推理等基础领域和机器人、自然语言处理、计算机视觉等应用领域,而机器学习是人工智能的重要实现技术。
人工智能三要素:算法、算力、数据

2.机器学习与识别模式、数据挖掘的关系

机器学习也是模式识别、数据挖掘等领域重要支撑技术。机器学习是方法,模式识别是目的,数据挖掘是应用。

数据挖掘=大数据+机器学习
模式识别=数据+机器学习

二、机器学习术语

1.训练集、验证集、测试集

机器学习数据集分为训练集数据和测试数据,为了防止训练出来的模型只对训练数据有效,一般将训练数据又分为训练集和验证集:
训练集 用来训练模型
验证集 一般值用来验证模型的有效性,不参与模型训练。
测试集 监测模型在待测数据上的预测性能。

2.特征、特征值、特征向量、特征空间

特征 每个样本在某方面的表现或性质。
特征值 样本在某个特征上的取值。
特征向量 每个样本的特征对应的特征空间中的一个坐标向量。

3.分类和回归

分类 学习到的模型预测得到的是离散值

二分类:只涉及两个类别的分类任务。
多分类:涉及多个类别的分类任务。

回归 学习到的模型预测得到的是连续值

4.损失函数

机器学习中,通常把模型关于单个样本预测值与真实值的差称为损失。损失越小,模型越好,而用于计算损失的函数称为损失函数。

5.欠拟合、过拟合、泛化能力

ML存在两个主要挑战: 欠拟合(under-fitting)过拟合(over-fitting)
欠拟合 指训练模型训练集上误差较大。
过拟合 指训练误差和测试误差之间的差距太大。
泛化能力 学习到的模型适用于新样本的能力。

6.偏差、方差、噪声、误差

算法的预测误差,或者说泛化误差可以分解为三个部分:偏差、方差、噪声。

6.1偏差

期望预测与真是标记的误差。
度量了模型的期望预测和真实结果的偏差,刻画了模型本身的拟合能力
偏差越大,偏离真实数据

6.2方差

不同的训练数据集训练出的模型输出值之间的差异,其度量了同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响。
描述的是预测值的变化范围或离散程度,方差越大,数据的分布越分散。
度量了同样大小的训练集的变动所导致的学习性能的变化,刻画了数据扰动所造成的影响

偏差与方差的关系

偏差、方差和拟合的关系

6.3噪声

真是标记与数据集中的实际标记之间的偏差。噪声问题无法解决,数据的质量决定了学习的上限
表达了当前任务上的任何模型所能达到的期望泛化误差的下界,刻画了学习问题的本身难度。
减小噪声要提高数据质量:

数据平滑法
数据过滤法

6.4预测误差

算法的预测误差(泛化误差)可分为三个部分:偏差、方差、噪声。
误差:经验误差和泛化误差,指偏差的期望。

经验误差(训练误差):模型在训练集上的误差称为“经验误差”或者“训练误差”。
泛化误差:模型在新样本集(测试集)上的误差称为“泛化误差”。

为了得到泛化性能好的模型,我们需要使偏差较小,即能充分拟合数据,并且使方差小,使数据扰动产生的影响小。但是偏差和方差在一定程度上是有冲突的,这称作为偏差-方差窘境。

欠拟合:
模型训练不足时,拟合能力不够强,训练数据的扰动(不通训练集之间的差异)不足以使学习器产生显著变化,此时偏差主导泛化误差—-欠拟合。
过拟合:
当训练充足时,模型的拟合能力非常强,数据轻微变化都能导致模型发生变化,如果过分学习训练数据的特点,则会发生—-过拟合。


本文作者: Alone
本文链接: https://blog.nosecurity.cn/posts/32680.html
版权声明: 本博客所有文章除特别声明外,均为原创,采用 CC BY-SA 4.0 协议 ,转载请注明出处!