Skip to main content
Version: 2.2.1

Hive

本文帮助您快速了解大数据存储Hive的使用。

离线任务支持Hive数据源,支持该数据源的抽取(Reader)导入(Writer),当前支持的版本为:3.x

使用前提

在使用之前需要完成Hive数据源的登记并测试通过。

数据源登记过程中,需要填写如下信息:

基本信息说明
数据源名称必填,新建数据的名称,要求数据长度为1-200个字符。
数据源连接必填,根据jdbc:hive2://host:port/database格式进行填写。
认证方式非必填,支持用户密码认证、Simple认证和Kerberos认证三种认证方式。
用户名选择用户密码认证/Simple认证时需要填写。必填,填写访问数据源的用户名。
密码选择用户密码认证时需要填写。必填,填写用户名所对应的密码。
keytab选择Kerberos认证时需要上传keytab文件。非必填,上传.keytab文件。
krb5.conf选择Kerberos认证时需要上传krb5.conf文件。非必填,上传.conf文件。
Principal选择Kerberos认证时需要填写Principal。必填,填写Kerberos主体。
扩展参数非必填,Hive扩展参数配置,比如namenode的principal、配置高可用参数等,根据实际情况进行配置。
metastoreUrls必填,根据thrift://ip1:port1,thrift://ip2:port2 格式进行填写。
defaultFS必填,根据hdfs://ip:port格式进行填写。
metastoreDB连接非必填,根据jdbc:mysql://ServerIP:Port/Database 格式进行填写。
DB连接用户名非必填,存储Hive metastore的数据库用户名,当前默认该数据库类型为MySQL,此处为连接MySQL的用户名。
DB连接密码非必填,连接MySQL的用户名所对应的密码。
自定义属性非必填,按需添加自定义属性&值。

数据源配置完成后,需点击连接测试按钮进行测试,测试通过后才可使用。

截图待补充

截图待补充

Hive作为数据来源

Hive to MySQL为例,在数据来源端选择Hive数据源类型及数据源名称,选择需要进行读取的库表。

数据过滤支持条件、流水型及自定义。

基本信息说明
条件型按列设置过滤规则,可添加一或多组条件,条件默认为AND关系。
流水型选择字段的起始值开始读取数据,读取到最新记录位置,下次从上次的最新记录读取至当前的最新记录。
自定义填写where过滤语句(注:不含where关键字),通常用作增量同步,支持调度时间参数。

具体内容待补充

具体内容待补充

具体内容待补充

具体内容待补充

Hive作为数据去向

MySQL to Hive为例,当Hive作为数据去向时,支持表的快速创建。

截图待补充

截图待补充