Apache Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。经典算法包括聚类、分类、协同过滤、进化编程等等,并且,在 Mahout还支持在Hadoop集群中运行,使这些算法可以更高效的运行在云计算环境中。
目前Mahout已经发布的最高版本是0.9。在这里可以找到Mahout的下载路径,可以下载0.9版本的源码压缩包(mahout-distribution-0.9-src.tar.gz),也可以从svn中co主干代码。后面的介绍都是以0.9版本的源代码包为基础做的介绍。
前期准备:安装maven()。
1.下载代码后,解压。
tar -xvf mahout-distribution-0.9-src.tar.gz
(暂时此段无用)
然后命令行进入mahout-distribution-0.9目录执行
mvn -DskipTests install
将mahout相关模块进行编译,并安装到本地maven仓库中 如果出现内存溢出,可以先调大JVM的堆内存大小
export MAVEN_OPTS=-Xmx1024m
注意:此时可能报错。一般这个问题是由于你的网速太慢,maven无法及时获取需要的资源。解决办法就是执行下
mvn clean+mvn install
清除干净后再装。不过如果你的网络特别差就要想办法了,本人很杯具的遇到这种情况,早上7点趁大家都不用网络时,安装一次成功。
2.生成eclipse工程,本步骤可选,但是建议进行。因为在eclipse中修改java工程代码比较方便。还是在mahout-distribution-0.5目录执行以下命令
mvn eclipse:eclipse
2.将 movie.dat 和 ratings.dat 拷贝到 Mahout 安装目录下的 /mahout-src0.9/examples/src/main/java/org/apache/mahout/cf/taste/example/grouplens 目录下。
3.回到在 core 目录下,运行"mvn install",将 Mahout core 安装在本地库中。
TODO