机器学习:Python中的四种机器学习技巧

发布时间:19-01-0509:39

机器学习技术与算法

众所周知,机器学习是技术和算法的结合。但在开始关注技术和算法之前,让我们看看它们是否是同一个东西。技术是解决问题的一种方法,这是一个非常通用的术语。 但是,当我们说我们有一个算法时,意思是我们有一个输入,并希望从中得到一定的输出,明确规定了实现目标的步骤。而算法可以利用多种技术来获得输出。

Python的机器学习技巧

机器学习回归算法

倒退就是回到以前的状态: 一个往往比较落后的状态。在有关统计学的书籍中,您会发现回归可以衡量一个变量的平均值和其他值的对应值如何相互关联。

回归均值

查尔斯达尔文的表兄弟弗朗西斯高尔顿观察了几代人的甜豌豆大小,他得出的结论是,让大自然完成其工作将产生一系列规模。但是,如果我们选择性地培育甜豌豆的大小,它会产生更大的豌豆。然而随着自然的发展,更大的豌豆开始随着时间的推移产生更小的后代。 我们对豌豆有一定的大小要求,于是我们可以将这些值映射到特定的线或曲线。

另一个例子:猴子和股票

1973年,普林斯顿大学教授伯顿·马尔基尔(Burton Malkiel)在他的书“随机漫步华尔街”(The Random Walk Down Wall Street)中提出了一个主张,坚持认为蒙着眼睛的猴子可以通过投掷飞镖选择投资组合做专家同样出色的工作。在这样的选股比赛中,猴子击败了职业选手。但这中情况只出现了一两次,后续,猴子的表现能力又开始下降:它回归到了中庸之道。

什么是机器学习回归?

在该图中,线条最适合所有由点标记的数据。使用这一行,我们可以预测x = 70时会找到什么值(具有一定程度的不确定性)。

作为一种机器学习技术,回归在监督学习中找到了基础。我们使用它来预测连续和数值目标,并从处理我们已知的数据集值开始。它比较已知值和预测值,并将预期值和预测值之间的差异标记为误差/残差。

机器学习中的回归类型

我们一般会观察两种回归:

线性回归:当我们可以用直线表示目标和预测变量之间的关系时,我们使用线性回归,如:Y = P1X+ P2+ E。非线性回归:当我们观察目标和预测变量之间的非线性关系时,我们不能将其表示为直线。

机器学习分类

什么是机器学习分类?

分类是一种数据挖掘技术,可以让我们预测数据实例的组成员资格。这预先使用标记数据并且受监督学习,意味着我们培训数据并期望预测其未来。通过'预测',我们将数据分类为两种属性:输出属性或从属属性;输入属性或独立属性。

分类方法

决策树归纳:我们从标记为元组的类构建决策树。它具有内部节点、分支和叶节点。内部节点表示对属性、分支、测试结果、叶节点和类标签的测试。涉及的两个步骤是学习和测试,这些都很快。基于规则的分类:此分类基于一组IF-THEN规则,表示为:如果...那么...结论。通过反向传播进行分类:神经网络学习(通常称为连接学习)构建连接。反向传播是一种神经网络学习算法,是最受欢迎的算法之一。它迭代地处理数据并将目标值与要学习的结果进行比较。

懒惰学习:在懒惰学习方法中,机器存储训练元组并等待测试元组,支持增量学习,与早期学习方法形成对比。ML分类示例

试想一下我们在这里实现不同类型的代码,例如ITF条形码、Code 93条形码、QR码、Aztec和数据矩阵等。 通过很多实例,现在轮到您确定我们向您展示时的代码类型。这就是有监督的学习,使用了训练和测试两部分的例子。注意每种类型的某些恒量最终是如何出现在曲线的另一侧。

聚类

聚类是一种无监督的分类,这是一种探索性数据分析,没有标记数据。 通过聚类,我们将未标记的数据分离为自然和隐藏的、有限和离散的数据结构集。

硬聚类:一个对象属于单个集群。软聚类:一个对象可能属于多个聚类。在聚类中,我们首先选择特征,然后设计聚类算法,然后验证聚类。最后,解释结果。

示例

回想一下上面的例子,您可以将这些代码组合在一起。QR码、Aztec和Data Matrix将属于一个群组:我们可以称之为二维码。ITF条形码和Code 39条形码将分组为“一维码”类别。这就是集群的样子:

异常检测

异常是偏离预期的过程。机器学习中,有时候我们可能想要发现异常值,异常检测是突出这些异常现象的好方法。

返回顶部