zqrx.net
当前位置:首页 >> 数据仓库hivE >>

数据仓库hivE

hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行.其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计

其实我也是这么觉得的,但是数据存储hadoop上,但是数据表的定义都是通hive实现的,所以说是数据仓库也是有道理的

构建一个真正的数据仓库可能是一个庞大的工程.有许多不同的设备、方法和理论.最大的共同价值是什么?事实是什么,哪些主题与这些事实相关?以及您如何混合、匹配、合并和集成可能已存在数十年的系统与仅在几个月前实现的系统?

hadoop对于有数据库经验的人来说3个月上手精通,java看得懂就行

因为可以维护海量数据,而且可以对数据进行挖掘,然后形成意见和报告等,使用该应用程序进行相关的静态数据分析,也不需要快速响应给出结果,而且数据本身不会频繁变化.

用命令行吧.hive查询语句和SQL非常类似,如果你能用SQL统计出想要结果,用HIVE也肯定没问题.如果hive查询结果集很大,你也可以把结果集直接写进HDFS.hive底层就是MapReduce算法,用Java写的话代码量肯定很大,而且逻辑也要复杂点

Hive是搭建在Hadoop之上的一个SQL引擎,它把SQL转换成MapReduce在Hadoop上执行,底层存储采用HDFS,计算引擎当然是MapReduce了.不过现在Hive也支持设置计算引擎为spark和tez.

hive是数据分析,java是程序设计;两者就业率都不错,去搞数据吧.工资高,加班少,比程序有前途;

hive本身没有存储的.哪来的ETL.你可以使用hive来作为ETL的工具,就是自己开发存储接口.然后让hive(也就是通过map、reduce的方式)来做ETL.比如你想把oracle的数据导入到HBase中,只要自己实现一个Oracle的HiveStorageHandler,然后在hive中创建一个oracle的表(如果oracle中表已存在则创建外部表),再创建一个HBase表.然后然后通过HQL执行导入过程.

这个要看你把数据仓库用于做什么,如果有实时交互查询的需求,可以考虑greenplum,也可以考虑spark SQL或impala.如果只是海量数据的批量处理,就建议用hive了.

网站首页 | 网站地图
All rights reserved Powered by www.zqrx.net
copyright ©right 2010-2021。
内容来自网络,如有侵犯请联系客服。zhit325@qq.com