文章存档
人工智能&大数据
2020-05-17 13:07:55
欧氏距离是一个距离定义,指在m维空间中两个点之间的真实距离。在二维和三维空间中的欧氏距离就是两点之间的实际距离。
二维空间的公式
p为点 与点 之间的欧氏距离
三维空间的公式
n维空间的公式
2020-05-17 10:52:33
两种不同的缩放方式,目的都是缩小范围。
归一化(Normalization):将一列数据变化到某个固定区间(范围)中,通常,这个区间是[0, 1],广义的讲,可以是各种区间,比如图像中可能会映射到[0,255],主要是为了数据处理方便提出来的
标准化(Standardization):就是将训练集中某一列数值特征(假设是第i列)的值缩放成均值为0,方差为1的状态。具体操作是将数据按比例缩放,使之落入一个小的特定区间。
2020-05-17 10:35:52
一、在现实生活中,一个目标变量(y)可以认为是由多个特征变量(x)影响和控制的,那么这些特征变量的量纲和数值的量级就会不一样,比如x1 = 10000,x2 = 1,x3 = 0.5 可以很明显的看出特征x1和x2、x3存在量纲的差距;x1对目标变量的影响程度将会比x2、x3对目标变量的影响程度要大(可以这样认为目标变量由x1掌控,x2,x3影响较小,一旦x1的值出现问题,将直接的影响到目标变量的预测,把目标变量的预测值由x1独揽大权,
2020-05-17 08:17:25
1.主要功能如下:
1.classification分类
2.Regression回归
3.Clustering聚类
4.Dimensionality reduction降维
5.Model selection模型选择
6.Preprocessing预处理
2.主要模块分类:
1.sklearn.base: Base classes and utility functio
2020-05-16 17:04:34
sklearn是python的重要机器学习库,其中封装了大量的机器学习算法,如:分类、回归、降维以及聚类;还包含了监督学习、非监督学习、数据变换三大模块。sklearn拥有完善的文档,使得它具有了上手容易的优势;并它内置了大量的数据集,节省了获取和整理数据集的时间。因而,使其成为了广泛应用的重要的机器学习库。下面简单介绍一下sklearn下的常用方法。
1. 监督学习
sklearn.neighbors #近邻算法
2020-05-15 18:03:31
机器学习--- K均值(K-Means)
假定我们有如下8个点
A1(2, 10) A2(2, 5) A3(8, 4) A4(5, 8) A5(7, 5) A6(6, 4) A7(1, 2) A8(4, 9)
希望分成3个聚类
初始化选择 A1(2, 10), A4(5, 8) ,A7(1, 2)为聚类中心点,两点距离定义为ρ(a, b) = |x2 – x1| +
2020-05-15 14:56:10
支持向量机(support vector machines, SVM)
https://zhuanlan.zhihu.com/p/77750026
2020-05-15 09:51:00
利用梯度下降法求解梯度的过程:
一般情况下分为三步:
1-随机一个初始值,在多元线性回归中,我们随机一组w,带入到损失函数中,得到一个初始点.
2-让这个点按照负梯度的方向运动,就是
2020-05-13 14:21:08
TSS: Total Sum of Squares 总平方和(总离差平方和)
ESS: Explained Sum of Squares 回归平方和(解释平方和)
RSS: Residual Sum of Squares 残差平方和
TSS=RSS+ESS
其中,Yi代表观察值(实际值), ȳ代表平均值,ŷ代表预测值
残差在数理统计中是指实际观察
2020-05-10 10:11:05
一元线性回归
1. 预测房价
房价是一个很火的话题,现在我们拿到一组数据,是房子的大小(平方英尺)和房价(美元)之间的对应关系,如下(csv数据文件):
No,square_feet,price
1,150,6450
2,200,7400
3,250,8450
4,300,9460
5,350,11400
6,400,15470
7,600,1
2020-05-09 09:29:33
决策数(Decision Tree)在机器学习中也是比较常见的一种算法,属于监督学习中的一种。看字面意思应该也比较容易理解,相比其他算法比如支持向量机(SVM)或神经网络,似乎决策树感觉“亲切”许多。
优点:计算复杂度不高,输出结果易于理解,对中间值的缺失值不敏感,可以处理不相关特征数据。
缺点:可能会产生过度匹配的问题。
使用数据类型:数值型和标称型。