OopsOutOfMemory 盛利's Blog
专注大数据领域,分布式计算,Spark Contributor
Recent Posts:

海量小文件网络传输copy优化

今天部署集群环境,拷贝了一下编译好的文件 利用scp拷贝这个文件环境,然后分发到2个节点上去,然后就是刷屏的log,小文件一个一个被传输。 但是速度极慢,突然发现我忘记了,编译出来的类文件太多了,这样拷贝非常慢,马上联想到hadoop中要避免map的输出有很多小文件,因为随后要进行网络传输。 查到问题总结出2个原因: 磁盘IO寻址: 原因:...



协同过滤 数据挖掘学习笔记

Collaborative Filtering 1.协同过滤CF 最近你想看电影了,但是不知道看什么好,想要了解电影的推荐信息,通过什么途径呢? 比如向问朋友,问老师,问亲友,但是毕竟每个人的品味不同,而且现在可选择的商品或电影太多太多了,不肯得到很好的推荐效果,知道你确实想要什么。 协同过滤推荐(Collaborative...



推荐算法总结Recommendation

目前为止,我们常推荐算法有好多种,比较常见的有协同过滤(Collaborative Filtering Recommendations)这个在Mahout里的ItemCF和UserCF比较常用,还有一种比较新的运行在Spark上的交替性最小二乘ALS也是一种协同过滤的算法,但是其它的推荐算法也有很多,在日常中也用的比较多,就做个总结吧。 1、基于内容的推荐算法(Content Based Recommendation...



Scala eclipse sbt 应用程序开发

由于Scala有一个比较完备的Eclipse IDE(Scala IDE for Eclipse), 对于不想从eclipse迁移到Iea平台的Dev来说,如何方便、快速、有效得在Eclipse下编译打包开发Scala应用程序尤为重要。Sbt是类似Maven的一个构建工具,我们将使用它来构建发布程序。...



Run Test Case on Spark

今天有哥们问到如何对Spark进行单元测试。现在将Sbt的测试方法写出来,如下: 对Spark的test case进行测试的时候可以用sbt的test命令: 一、测试全部test case sbt/sbt...