算法主要有四类:分类,回归,聚类,降维。其中:
常用的回归:线性、决策树、SVM、KNN ;集成回归:随机森林、Adaboost、GradientBoosting、Bagging、ExtraTrees
常用的分类:线性、决策树、SVM、KNN,朴素贝叶斯;集成分类:随机森林、Adaboost、GradientBoosting、Bagging、ExtraTrees
常用聚类:k均值(K-means)、层次聚类(Hierarchical clustering)、DBSCAN
常用降维:LinearDiscriminantAnalysis、PCA
机器学习就是利用大量的数据样本,使得计算机通过不断的学习获得一个模型,用来对新的未知数据做预测。
- 有监督学习(分类、回归)
同时将数据样本和标签输入给模型,模型学习到数据和标签的映射关系,从而对新数据进行预测。
- 无监督学习(聚类)
只有数据,没有标签,模型通过总结规律,从数据中挖掘出信息。