[填报与传统报表] 零基础入门机器学习之常用术语解读

rory青铜二 显示全部楼层 发表于 2020-4-13 17:38:34 |阅读模式 打印 上一主题 下一主题
本帖最后由 rory 于 2020-4-13 17:40 编辑


ml.png

一、基本概念:
1 特征(feature)
数据的字段。
2 标签(label)
数据的标签。
举例:书属于的类别,例如“计算机”“图形学”“英文书”“教材”等。
3 学习(learning)
将很多数据丢给计算机分析,以此来训练该计算机,培养计算机给数据分类的能力。换句话说,学习指的就是找到特征与标签的映射(mapping)关系。这样当有特征而无标签的未知数据输入时,我们就可以通过已有的关系得到未知数据标签。
举例:把很多书交给一个学生,培养他给书本分类的能力。
4 分类(classification)
定性输出称为分类,或者说是离散变量预测。
举例:预测明天是阴、晴还是雨,就是一个分类任务。
5 回归(regression)
定量输出称为回归,或者说是连续变量预测;
举例:预测明天的气温是多少度,这是一个回归任务;
6 聚类(clustering)
无监督学习的结果。聚类的结果将产生一组集合,集合中的对象与同集合中的对象彼此相似,与其他集合中的对象相异。
二、有监督学习
有监督学习是从标签化训练数据集中推断出函数的机器学习任务。 训练数据由一组训练实例组成。 在监督学习中,每一个例子都是一对由一个输入对象(通常是一个向量)和一个期望的输出值(也被称为监督信号)。 有监督学习算法分析训练数据,并产生一个推断的功能,它可以用于映射新的例子。
三、无监督学习
现实生活中常常会有这样的问题:缺乏足够的先验知识,因此难以人工标注类别或进行人工类别标注的成本太高。很自然地,我们希望计算机能代我们完成这些工作,或至少提供一些帮助。根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题,称之为无监督学习。
四、半监督学习
有监督学习和无监督学习的中间带就是半监督学习。对于半监督学习,其训练数据的一部分是有标签的,另一部分没有标签,而没标签数据的数量常常远远大于有标签数据数量。
隐藏在半监督学习下的基本规律在于:数据的分布必然不是完全随机的,通过一些有标签数据的局部特征,以及更多没标签数据的整体分布,就可以得到可以接受甚至是非常好的分类结果。

举例:给学生很多未分类的书本与少量的清单,清单上说明哪些书属于同一类别。
1.半监督分类
半监督分类:是在无类标签的样例的帮助下训练有类标签的样本,获得比只用有类标签的样本训练得到的分类器性能更优的分类器,弥补有类标签的样本不足的缺陷,其中类标签  取有限离散值。
2.半监督回归
半监督回归:在无输出的输入的帮助下训练有输出的输入,获得比只用有输出的输入训练得到的回归器性能更好的回归器,其中输出取连续值。
3.半监督聚类
半监督聚类:在有类标签的样本的信息帮助下获得比只用无类标签的样例得到的结果更好的簇,提高聚类方法的精度。
4.半监督降维
半监督降维:在有类标签的样本的信息帮助下找到高维输入数据的低维结构,同时保持原始高维数据和成对约束的结构不变,即在高维空间中满足正约束的样例在低维空间中相距很近,在高维空间中满足负约束的样例在低维空间中距离很远。







回复

使用道具 举报

高级模式
您需要登录后才可以回帖 登录 | 免费注册

  • 官方微信

    欢迎关注永洪服务号!收费为0,价值无限

    扫码关注
  • 新浪微博

    让每位用户轻松挖掘数据价值!

    访问新浪微博
  • 智能客服
50W

会员等你来哦

Copyright   ©2012-2024  北京永洪商智科技有限公司  (京ICP备12050607) 京公网安备110110802011451号 |联系社区管理员|《永洪社区协议》
返回顶部