Hive
本文帮助您快速了解大数据存储Hive的使用。
离线任务支持Hive数据源,支持该数据源的抽取(Reader)和导入(Writer),当前支持的版本为:3.x
使用前提
在使用之前需要完成Hive数据源的登记并测试通过。
数据源登记过程中,需要填写如下信息:
基本信息 | 说明 |
数据源名称 | 必填,新建数据的名称,要求数据长度为1-200个字符。 |
数据源连接 | 必填,根据jdbc:hive2://host:port/database格式进行填写。 |
认证方式 | 非必填,支持用户密码认证、Simple认证和Kerberos认证三种认证方式。 |
用户名 | 选择用户密码认证/Simple认证时需要填写。必填,填写访问数据源的用户名。 |
密码 | 选择用户密码认证时需要填写。必填,填写用户名所对应的密码。 |
keytab | 选择Kerberos认证时需要上传keytab文件。非必填,上传.keytab文件。 |
krb5.conf | 选择Kerberos认证时需要上传krb5.conf文件。非必填,上传.conf文件。 |
Principal | 选择Kerberos认证时需要填写Principal。必填,填写Kerberos主体。 |
扩展参数 | 非必填,Hive扩展参数配置,比如namenode的principal、配置高可用参数等,根据实际情况进行配置。 |
metastoreUrls | 必填,根据thrift://ip1:port1,thrift://ip2:port2 格式进行填写。 |
defaultFS | 必填,根据hdfs://ip:port格式进行填写。 |
metastoreDB连接 | 非必填,根据jdbc:mysql://ServerIP:Port/Database 格式进行填写。 |
DB连接用户名 | 非必填,存储Hive metastore的数据库用户名,当前默认该数据库类型为MySQL,此处为连接MySQL的用户名。 |
DB连接密码 | 非必填,连接MySQL的用户名所对应的密码。 |
自定义属性 | 非必填,按需添加自定义属性&值。 |
数据源配置完成后,需点击连接测试按钮进行测试,测试通过后才可使用。
截图待补充
截图待补充
Hive作为数据来源
以Hive to MySQL为例,在数据来源端选择Hive数据源类型及数据源名称,选择需要进行读取的库表。
数据过滤支持条件、流水型及自定义。
基本信息 | 说明 |
条件型 | 按列设置过滤规则,可添加一或多组条件,条件默认为AND关系。 |
流水型 | 选择字段的起始值开始读取数据,读取到最新记录位置,下次从上次的最新记录读取至当前的最新记录。 |
自定义 | 填写where过滤语句(注:不含where关键字),通常用作增量同步,支持调度时间参数。 |
具体内容待补充
具体内容待补充
具体内容待补充
具体内容待补充
Hive作为数据去向
以MySQL to Hive为例,当Hive作为数据去向时,支持表的快速创建。
截图待补充
截图待补充