机器学习概述

一、机器学习定义

机器学习是一种从数据当中发现复杂规律，并且利用规律对未来时刻、未来状况进行预测和判断的方法，是当下被认为最有可能实现人工智能的方法。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。

1.机器学习与人工智能、深度学习的关系

相比机器学习，人工智能具有更加广泛的含义，它包括知识表示，智能推理等基础领域和机器人、自然语言处理、计算机视觉等应用领域，而机器学习是人工智能的重要实现技术。
人工智能三要素：算法、算力、数据

2.机器学习与识别模式、数据挖掘的关系

机器学习也是模式识别、数据挖掘等领域重要支撑技术。机器学习是方法，模式识别是目的，数据挖掘是应用。

数据挖掘=大数据+机器学习
模式识别=数据+机器学习

二、机器学习术语

1.训练集、验证集、测试集

机器学习数据集分为训练集数据和测试数据，为了防止训练出来的模型只对训练数据有效，一般将训练数据又分为训练集和验证集：
训练集 用来训练模型
验证集 一般值用来验证模型的有效性，不参与模型训练。
测试集 监测模型在待测数据上的预测性能。

2.特征、特征值、特征向量、特征空间

特征每个样本在某方面的表现或性质。
特征值 样本在某个特征上的取值。
特征向量 每个样本的特征对应的特征空间中的一个坐标向量。

3.分类和回归

分类学习到的模型预测得到的是离散值。

二分类：只涉及两个类别的分类任务。
多分类：涉及多个类别的分类任务。

回归学习到的模型预测得到的是连续值。

4.损失函数

机器学习中，通常把模型关于单个样本预测值与真实值的差称为损失。损失越小，模型越好，而用于计算损失的函数称为损失函数。

5.欠拟合、过拟合、泛化能力

ML存在两个主要挑战：欠拟合(under-fitting)和过拟合(over-fitting)
欠拟合 指训练模型训练集上误差较大。
过拟合 指训练误差和测试误差之间的差距太大。
泛化能力 学习到的模型适用于新样本的能力。

6.偏差、方差、噪声、误差

算法的预测误差，或者说泛化误差可以分解为三个部分:偏差、方差、噪声。

6.1偏差

期望预测与真是标记的误差。
度量了模型的期望预测和真实结果的偏差，刻画了模型本身的拟合能力。
偏差越大，偏离真实数据

6.2方差

不同的训练数据集训练出的模型输出值之间的差异，其度量了同样大小的训练集的变动所导致的学习性能的变化，即刻画了数据扰动所造成的影响。
描述的是预测值的变化范围或离散程度，方差越大，数据的分布越分散。
度量了同样大小的训练集的变动所导致的学习性能的变化，刻画了数据扰动所造成的影响。

偏差与方差的关系

偏差、方差和拟合的关系

6.3噪声

真是标记与数据集中的实际标记之间的偏差。噪声问题无法解决，数据的质量决定了学习的上限。
表达了当前任务上的任何模型所能达到的期望泛化误差的下界，刻画了学习问题的本身难度。
减小噪声要提高数据质量：

数据平滑法
数据过滤法

6.4预测误差

算法的预测误差(泛化误差)可分为三个部分：偏差、方差、噪声。
误差：经验误差和泛化误差，指偏差的期望。

经验误差(训练误差)：模型在训练集上的误差称为“经验误差”或者“训练误差”。
泛化误差：模型在新样本集(测试集)上的误差称为“泛化误差”。

为了得到泛化性能好的模型，我们需要使偏差较小，即能充分拟合数据，并且使方差小，使数据扰动产生的影响小。但是偏差和方差在一定程度上是有冲突的，这称作为偏差-方差窘境。

欠拟合：
模型训练不足时，拟合能力不够强，训练数据的扰动(不通训练集之间的差异)不足以使学习器产生显著变化，此时偏差主导泛化误差—-欠拟合。
过拟合：
当训练充足时，模型的拟合能力非常强，数据轻微变化都能导致模型发生变化，如果过分学习训练数据的特点，则会发生—-过拟合。

机器学习

本文作者: Alone
本文链接: https://blog.nosecurity.cn/posts/32680.html
版权声明: 本博客所有文章除特别声明外，均为原创，采用 CC BY-SA 4.0 协议，转载请注明出处！

pip国内镜像源 Vorheriger

英语作文模板 Nächster

摸🦈🦈计时器

Tag Cloud