机器学习一：基本概念

背景：如何购买芒果？
1.列出每个芒果的特征（feature）；包括颜色、大小、形状、产地、品牌等。
2. 我们要预测的标签（label）；可以是连续值，（如芒果的甜度、水分、成熟度的综合打分。）也可以是离散值（如好、坏等。）；标签的获取可以通过直接品尝获取，也可通过经验丰富的专家进行标记。
3. 标记好的特征及标签的芒果可以看作一个样本（sample），也经常称为示例（Instance）。
4. 一组样本构成的集合称为数据集（data set）。一般数据集分为训练集和测试集，训练集中的样本用来训练模型，测试集中的样本用来检验模型的好坏。
5. 通常一个 D 维向量表示一个芒果的所有特征构成的向量，称为特征向量（feature Vector）,其中每一维表示一个特征。芒果的标签通常用 y 表示。
6. 假设训练集 D 由 N 个样本组成，其中每个样本都是独立同分布，即独立地从相同的数据分布中抽取的，记为：
给定训练集 D，我们让计算机从一个函数集合中自动寻找一个“最优”的函数 f*(x)来近似每个样本的特征向量 x 和标签 y 之间的真实映射关系。对于一个样本 x,我们可以通过函数 f*(x)来预测其标签值：
或标签的条件概率：

这样，下次买芒果时，可以根据芒果的特征，使用学习到的函数 f*(x)来预测芒果的好坏。为了评价的公正性，我们独立同分布的抽取一组芒果作为测试集 D′，并在测试集中所有芒果上进行测试，计算预测结果的准确率
其中 I(·)为指示函数，|D′| 为测试集大小。

机器学习的基本流程如下图：

机器学习-KNN 算法原理 && Spark 实现不懂算法的数据开发者不是一个好的算法工程师，还记得研究生时候，导师讲过的一些数据挖掘算法，颇有兴趣，但是无奈工作后接触少了，数据工程师的鄙视链，模型 > 实时 > 离线数仓 >ETL 工程师 >BI 工程师（不喜勿喷哈），现在做 ..

机器学习算法之 KMeans 聚类算法

一、K-Means 聚类算法原理 1. 算法思想物以类聚，人以群分。 K-Means：一种常见的无监督学习算法，名字叫做 K 均值算法。是否为监督学习：只需要看输入的数据是否有标签。 K-Means 聚类算法是一种迭代求解的聚类分析算法。算法思想是：我们需要随机选择 K 个对象作为初始的聚类中心，然后计算每个对 ..

机器学习基础算法原理

很早以前写的，担心以后会丢失，故在此备份。字不好请见谅。一、模型评估和选择这一章主要是讲对于数据的操作，应当如何增加数据来进行评估，以及评估方法如 macro/micro F1 score、ROC、AUC 等。 [图片] [图片] 二、线性模型基础线性回归的算法，进阶有如拉格朗日插值法、牛顿插值法、勒让德多项式、 ..

数据分析转岗 AI 薪资翻 3 倍多 | 机器学习面试都问些什么？

添加微信：julyedukefu14，回复【11】领取最新升级版【名企 AI 面试 100 题】 1、请详细说说支持向量机（support vector machine，SVM）的原理支持向量机，因其英文名为 support vector machine，故一般简称 SVM，通俗来讲，它是一种二类分类模型，其基本模型 ..

AI 学习路线

一、基础知识 [图片] 数学数学基础：高等数学、线性代数、概率论与数理统计对于算法本身而言，额外需要数值分析等相关课程，学过更佳，不想学可以边看边查也可以。编程 python 推荐 IDE：pycharm、jupyter pycharm 适合看源码、debug，大型项目推荐 jupyter 适合可视化，代码分块执 ..

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

关于

机器学习一：基本概念

相关帖子

机器学习 -KNN 算法原理 && Spark 实现

机器学习算法之 KMeans 聚类算法

矩池云上安装 NVCaffe 教程

矩池云上 nvidia opencl 安装及测试教程

机器学习基础算法原理

数据分析转岗 AI 薪资翻 3 倍多 | 机器学习面试都问些什么？

AI 学习路线

欢迎来到这里！

近期热议

推荐标签标签

最新标签

机器学习一：基本概念

相关帖子

机器学习 -KNN 算法原理 && Spark 实现

机器学习算法之 KMeans 聚类算法

矩池云上安装 NVCaffe 教程

矩池云上 nvidia opencl 安装及测试教程

机器学习基础算法原理

数据分析转岗 AI 薪资翻 3 倍多 | 机器学习面试都问些什么？

AI 学习路线

欢迎来到这里！

近期热议

推荐标签 标签

最新标签

推荐标签标签