跳到主要内容
版本:3.x

Hudi

适用版本Cloud 功能TapData Cloud 为您提供了云端服务,适合需要快速部署、低前期投资场景,帮助您更好地专注于业务发展而非基础设施管理,注册账号即可领取免费的 Agent 实例,欢迎试用。企业版功能TapData Enterprise 可部署在您的本地数据中心,适合对数据敏感性或网络隔离有严格要求的场景,可服务于构建实时数仓,实现实时数据交换,数据迁移等场景。社区版功能TapData Community 是一个开源的数据集成平台,提供基础的数据同步和转换功能,可通过 Docker 一键部署,帮助您快速探索和实施数据集成项目。随着项目或企业发展,您可以平滑升级至 TapData Cloud 或 TapData Enterprise,以获得更多高级功能或服务支持。

Apache Hudi 是一种数据湖的存储格式,在 Hadoop 文件系统之上提供了更新数据和删除数据的能力以及消费变化数据的能力。TapData 支持将 Hudi 作为目标库,构建数据传输管道。

环境要求

计算引擎的机器上应具备 Hadoop 的环境变量,Hadoop 版本与您的服务端安装的 Hadoop 应保持一致,您可以执行 hadoop -version 命令检查您的机器是否满足需求。

支持版本

Hudi 0.11.0

配置说明

  • 集群地址:格式为 ip:port。
  • 数据库:数据库名称。
  • Kerberos认证
    • 密钥表示文件:上传 user.keytab 文件。
    • 配置文件:上传 krb5.conf 文件。
    • Hive主体配置:spark2x/hadoop.[hadoop.com@HADOOP.COM](mailto:hadoop.com@HADOOP.COM)(对应 principal 的值)。
  • 账户、密码:分别填写数据库用户名和密码。
  • 服务端 hadoop 配置文件:core-site.xml, 通常在服务端 Hadoop 安装目录下的 etc/Hadoop 目录。
  • 服务端 hdfs 配置文件:hdfs-site.xml, 通常在服务端 Hadoop 安装目录下的 etc/Hadoop 目录。
  • 服务端 hive 配置文件:hive-site.xml, 通常在服务端 Hive 安装目录的配置文件目录。
  • 连接参数:sasl.qop=auth-conf;auth=KERBEROS