一、Mahout简介
查了Mahout的中文意思——驭象的人,再看看Mahout的logo,(就是他,骑在象头上的那个Mahout)
算法类 |
算法名 |
中文名 |
分类算法 |
Logistic Regression |
逻辑回归 |
Bayesian |
贝叶斯 |
|
SVM |
支持向量机 |
|
Perceptron |
感知器算法 |
|
Neural Network |
神经网络 |
|
Random Forests |
随机森林 |
|
Restricted Boltzmann Machines |
有限波尔兹曼机 |
|
聚类算法 |
Canopy Clustering |
Canopy聚类 |
K-means Clustering |
K均值算法 |
|
Fuzzy K-means |
模糊K均值 |
|
Expectation Maximization |
EM聚类(期望最大化聚类) |
|
Mean Shift Clustering |
均值漂移聚类 |
|
Hierarchical Clustering |
层次聚类 |
|
Dirichlet Process Clustering |
狄里克雷过程聚类 |
|
Latent Dirichlet Allocation |
LDA聚类 |
|
Spectral Clustering |
谱聚类 |
|
关联规则挖掘 |
Parallel FP Growth Algorithm |
并行FP Growth算法 |
回归 |
Locally Weighted Linear Regression |
局部加权线性回归 |
降维/维约简 |
Singular Value Decomposition |
奇异值分解 |
Principal Components Analysis |
主成分分析 |
|
Independent Component Analysis |
独立成分分析 |
|
Gaussian Discriminative Analysis |
高斯判别分析 |
|
进化算法 |
并行化了Watchmaker框架 |
|
推荐/协同过滤 |
Non-distributed recommenders |
Taste(UserCF, ItemCF, SlopeOne) |
Distributed Recommenders |
ItemCF |
|
向量相似度计算 |
RowSimilarityJob |
计算列间相似度 |
VectorDistanceJob |
计算向量间距离 |
|
非Map-Reduce算法 |
Hidden Markov Models |
隐马尔科夫模型 |
集合方法扩展 |
Collections |
扩展了java的Collections类 |
二、Mahout安装、配置
1、下载二进制解压安装
3、启动hadoop
5、Mahout 测试
5.1 下载测试数据 http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_control.data
5.2 上传测试数据到hdfs : hdfs dfs -put synthetic_control.data /test/
5.3 使用Mahout中的kmeans聚类算法,执行命令:
$ hadoop jar /data/app/mahout-0.11.1/mahout-examples-0.11.1-job.jar org.apache.mahout.clustering.syntheticcontrol.kmeans.Job --input /test/synthetic_control.data --output /test/mahout --t1 1 --t2 1 --maxIter 1
5.4 查看聚类结果
hdfs dfs hdfs dfs -ls /test