OopsOutOfMemory 盛利's Blog
专注大数据领域,分布式计算,Spark Contributor
Recent Posts:

Hive中的View视图

有一个需求,让找出hive中的所有视图。 但是hive没有直接的命令来查看这个表是否是视图还是普通表。 假设我们看到的用户名和密码是hive_user和123456 cd $HIVE_HOME/conf/ more...



Hive UDFA 中位数

第一次写UDAF,拿中位数来练手。 看下中位数定义: MEDIAN 中位数(一组数据按从小到大的顺序依次排列,处在中间位置的一个数或最中间两个数据的平均数) 写成genericUDAF的形式 1...



Hive数据翻倍总结

问题: 数据源数据重复。。很难发现。。依赖关系。。 本来8千万的数据和8千万的数据一下left outer join后,变成了30亿。。按道理还是8kw。 8千万大表和几十行的小表join,数据严重倾斜,到99.99%就是reduce不完。。最终OOM了。...



Hive求页面访问路径

曾今在论坛上看到一个这样的题: SQL的ETL过程,从TRLOG表生成ALLOG表;(结果是一套SQL) 有一张很大的表:TRLOG该表大概有2T左右 TRLOG: CREATE TABLE...



Hive导入sequencefile错误

本地load data到hive表中,可能会由于一些表格式的问题或文本格式问题,导致上传失败。 总结原因: 1. 上传格式和建表格式不匹配 自己上传的为txt文本,而创建表指定的file...