Version: 2.17.1

Hive

本文帮助您快速了解大数据存储Hive的使用。

离线任务支持Hive数据源，支持该数据源的抽取（Reader）和导入（Writer），当前支持的版本为：3.x

使用前提

在使用之前需要完成Hive数据源的登记并测试通过。

数据源登记过程中，需要填写如下信息：

基本信息	说明
数据源名称	必填，新建数据的名称，要求数据长度为1-200个字符。
数据源连接	必填，根据jdbc:hive2://host:port/database格式进行填写。
认证方式	非必填，支持用户密码认证、Simple认证和Kerberos认证三种认证方式。
用户名	选择用户密码认证/Simple认证时需要填写。必填，填写访问数据源的用户名。
密码	选择用户密码认证时需要填写。必填，填写用户名所对应的密码。
keytab	选择Kerberos认证时需要上传keytab文件。非必填，上传.keytab文件。
krb5.conf	选择Kerberos认证时需要上传krb5.conf文件。非必填，上传.conf文件。
Principal	选择Kerberos认证时需要填写Principal。必填，填写Kerberos主体。
扩展参数	非必填，Hive扩展参数配置，比如namenode的principal、配置高可用参数等，根据实际情况进行配置。
metastoreUrls	必填，根据thrift://ip1:port1,thrift://ip2:port2 格式进行填写。
defaultFS	必填，根据hdfs://ip:port格式进行填写。
metastoreDB连接	非必填，根据jdbc:mysql://ServerIP:Port/Database 格式进行填写。
DB连接用户名	非必填，存储Hive metastore的数据库用户名，当前默认该数据库类型为MySQL，此处为连接MySQL的用户名。
DB连接密码	非必填，连接MySQL的用户名所对应的密码。
自定义属性	非必填，按需添加自定义属性&值。

数据源配置完成后，需点击连接测试按钮进行测试，测试通过后才可使用。

截图待补充

以Hive to MySQL为例，在数据来源端选择Hive数据源类型及数据源名称，选择需要进行读取的库表。

数据过滤支持条件、流水型及自定义。

基本信息	说明
条件型	按列设置过滤规则，可添加一或多组条件，条件默认为AND关系。
流水型	选择字段的起始值开始读取数据，读取到最新记录位置，下次从上次的最新记录读取至当前的最新记录。
自定义	填写where过滤语句（注：不含where关键字），通常用作增量同步，支持调度时间参数。

具体内容待补充

以MySQL to Hive为例，当Hive作为数据去向时，支持表的快速创建。

截图待补充