零基础入门机器学习之常用术语解读

显示全部楼层

本帖最后由 rory 于 2020-4-13 17:40 编辑

一、基本概念：
1 特征（feature）
数据的字段。
2 标签（label）
数据的标签。
举例：书属于的类别，例如“计算机”“图形学”“英文书”“教材”等。
3 学习（learning）
将很多数据丢给计算机分析，以此来训练该计算机，培养计算机给数据分类的能力。换句话说，学习指的就是找到特征与标签的映射（mapping）关系。这样当有特征而无标签的未知数据输入时，我们就可以通过已有的关系得到未知数据标签。
举例：把很多书交给一个学生，培养他给书本分类的能力。
4 分类（classification）
定性输出称为分类，或者说是离散变量预测。
举例：预测明天是阴、晴还是雨，就是一个分类任务。
5 回归（regression）
定量输出称为回归，或者说是连续变量预测；
举例：预测明天的气温是多少度，这是一个回归任务；
6 聚类（clustering）
无监督学习的结果。聚类的结果将产生一组集合，集合中的对象与同集合中的对象彼此相似，与其他集合中的对象相异。
二、有监督学习
有监督学习是从标签化训练数据集中推断出函数的机器学习任务。训练数据由一组训练实例组成。在监督学习中，每一个例子都是一对由一个输入对象（通常是一个向量）和一个期望的输出值（也被称为监督信号）。有监督学习算法分析训练数据，并产生一个推断的功能，它可以用于映射新的例子。
三、无监督学习
现实生活中常常会有这样的问题：缺乏足够的先验知识，因此难以人工标注类别或进行人工类别标注的成本太高。很自然地，我们希望计算机能代我们完成这些工作，或至少提供一些帮助。根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题，称之为无监督学习。
四、半监督学习有监督学习和无监督学习的中间带就是半监督学习。对于半监督学习，其训练数据的一部分是有标签的，另一部分没有标签，而没标签数据的数量常常远远大于有标签数据数量。
隐藏在半监督学习下的基本规律在于：数据的分布必然不是完全随机的，通过一些有标签数据的局部特征，以及更多没标签数据的整体分布，就可以得到可以接受甚至是非常好的分类结果。
举例：给学生很多未分类的书本与少量的清单，清单上说明哪些书属于同一类别。
1.半监督分类
半监督分类：是在无类标签的样例的帮助下训练有类标签的样本，获得比只用有类标签的样本训练得到的分类器性能更优的分类器，弥补有类标签的样本不足的缺陷，其中类标签取有限离散值。
2.半监督回归
半监督回归：在无输出的输入的帮助下训练有输出的输入，获得比只用有输出的输入训练得到的回归器性能更好的回归器，其中输出取连续值。
3.半监督聚类
半监督聚类：在有类标签的样本的信息帮助下获得比只用无类标签的样例得到的结果更好的簇，提高聚类方法的精度。
4.半监督降维
半监督降维：在有类标签的样本的信息帮助下找到高维输入数据的低维结构，同时保持原始高维数据和成对约束的结构不变，即在高维空间中满足正约束的样例在低维空间中相距很近，在高维空间中满足负约束的样例在低维空间中距离很远。

探索永洪vividime的超链接功能：数据分析的桥梁

数据决策新引擎：vividime七大智能分析功能让决策快人一步！

掘金数据富矿，永洪科技为山东黄金定制“数智掘金”实战营 ...

永洪科技荣获商业智能品牌影响力奖，全力打造”AI+决策”引擎 ...

IDC权威认证！永洪科技入选 IDC「GBI图谱」，点亮生成式 BI 价值灯塔 ...

朝花夕拾

yhdata_38fa8dc0

小尹

Dream-lover

头号WAN家

阿姆斯特朗炮

防超

永洪蓝波湾

happypanda

给给

卡拉米米哇

yhbi老6了

许诺

yhdata_PnTrTUTk

特兰克斯

热门产品

社区资源

关于永洪