机器学习一:基本概念

背景:如何购买芒果?
1.列出每个芒果的特征(feature);包括颜色、大小、形状、产地、品牌等。
2. 我们要预测的标签(label);可以是连续值,(如芒果的甜度、水分、成熟度的综合打分。)也可以是离散值(如好、坏等。);标签的获取可以通过直接品尝获取,也可通过经验丰富的专家进行标记。
3. 标记好的特征及标签的芒果可以看作一个样本(sample),也经常称为示例(Instance)。
4. 一组样本构成的集合称为数据集(data set)。一般数据集分为训练集和测试集,训练集中的样本用来训练模型,测试集中的样本用来检验模型的好坏。
5. 通常一个 D 维向量image.png表示一个芒果的所有特征构成的向量,称为特征向量(feature Vector),其中每一维表示一个特征。芒果的标签通常用 y 表示。
6. 假设训练集 D 由 N 个样本组成,其中每个样本都是独立同分布,即独立地从相同的数据分布中抽取的,记为:image.png
给定训练集 D,我们让计算机从一个函数集合image.png中自动寻找一个“最优”的函数 f*(x)来近似每个样本的特征向量 x 和标签 y 之间的真实映射关系。对于一个样本 x,我们可以通过函数 f*(x)来预测其标签值:image.png
或标签的条件概率:image.png

这样,下次买芒果时,可以根据芒果的特征,使用学习到的函数 f*(x)来预测芒果的好坏。为了评价的公正性,我们独立同分布的抽取一组芒果作为测试集 D′,并在测试集中所有芒果上进行测试,计算预测结果的准确率image.png
其中 I(·)为指示函数,|D′| 为测试集大小。

机器学习的基本流程如下图:
image.png

  • 机器学习

    机器学习(Machine Learning)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

    58 引用 • 28 回帖 • 1 关注
2 回帖
请输入回帖内容...
  • damimi

    加油!👍

  • k8s

    加油!👍