跳到主要内容
版本:3.x

Doris

适用版本Cloud 功能TapData Cloud 为您提供了云端服务,适合需要快速部署、低前期投资场景,帮助您更好地专注于业务发展而非基础设施管理,注册账号即可领取免费的 Agent 实例,欢迎试用。企业版功能TapData Enterprise 可部署在您的本地数据中心,适合对数据敏感性或网络隔离有严格要求的场景,可服务于构建实时数仓,实现实时数据交换,数据迁移等场景。社区版功能TapData Community 是一个开源的数据集成平台,提供基础的数据同步和转换功能,可通过 Docker 一键部署,帮助您快速探索和实施数据集成项目。随着项目或企业发展,您可以平滑升级至 TapData Cloud 或 TapData Enterprise,以获得更多高级功能或服务支持。

Doris 适用于实时数据分析和报表,支持高并发查询和复杂分析,广泛应用于数据仓库、BI报表和数据可视化。Tapdata 支持将 Doras 作为源或目标库来构建数据管道,帮助您快速完成大数据分析场景下的数据流转。

接下来,跟随本文介绍在 Tapdata 平台上连接 Doris 数据源。

支持版本

Dorix 1.x、2.x

数据源成熟度

Beta 数据源
Beta 数据源处于公测阶段,已通过基础测试用例和集成测试用例,但尚未通过 TapData 认证测试流程,如在使用过程中有疑问,欢迎联系我们。

注意事项

如需使用 Doris 作为源库并同步增量数据变更,您需要创建数据转换任务并选择增量同步方式字段轮询

准备工作

  1. 登录 Doris 数据库,执行下述格式的命令,创建用于数据同步/开发任务的账号。

    CREATE USER 'username'@'host' IDENTIFIED BY 'password';
    • username:用户名。
    • password:密码。
    • host:允许该账号登录的主机,百分号(%)表示允许任意主机。

    示例:创建一个名为 tapdata 的账号。

    CREATE USER 'tapdata'@'%' IDENTIFIED BY 'Tap@123456';
  2. 为刚创建的账号授予权限,您也可以基于业务需求设置更精细化的权限控制。

-- 请根据下述提示更换 catalog_name、database_name 和 username
GRANT SELECT_PRIV ON catalog_name.database_name.* TO 'username'@'%';
提示

请更换上述命令中的信息:

  • catalog_name:数据目录名称,默认名称为 internal,可以通过 SHOW CATALOGS 命令查看已创建的数据目录。更多介绍,见多源数据目录
  • database_name:要授予权限的数据库名称。
  • username:用户名。

连接 Doris

  1. 登录 Tapdata 平台

  2. 在左侧导航栏,单击连接管理

  3. 单击页面右侧的创建

  4. 在弹出的对话框中,搜索并选择 Doris

  5. 在跳转到的页面,根据下述说明填写 Doris 的连接信息。

    连接 Doris

    • 基本设置
      • 连接名称:填写具有业务意义的独有名称。
      • 连接类型:支持将 Doris 作为源或目标库。
      • 数据库地址:Doris 的连接地址。
      • 端口:Doris 的查询服务端口,默认端口为 9030
      • 开启 HTTPS:选择是否启用无证书的 HTTPS 连接功能。
      • HTTP/HTTPS 接口地址:FE 服务的 HTTP/HTTPS 协议访问地址,包含地址和端口信息,默认端口为 8030
      • 数据库名称:一个连接对应一个数据库,如有多个数据库则需创建多个数据连接。
      • 账号密码:分别填写数据库的账号和密码。
    • 高级设置
      • Doris 目录:Doris 的目录,其层级在数据库之上,如使用默认目录可置空,更多介绍,见多源数据目录
      • 其他连接参数:额外的连接参数,默认为空。
      • 时间类型的时区:默认为数据库所用的时区,您也可以根据业务需求手动指定。
      • Agent 设置:默认为平台自动分配,您也可以手动指定 Agent。
      • 模型加载时间:当数据源中模型数量小于 10,000 时,每小时刷新一次模型信息;如果模型数据超过 10,000,则每天按照您指定的时间刷新模型信息。
      • 开启心跳表:当连接类型选择为源头和目标源头时,支持打开该开关,由 Tapdata 在源库中创建一个名为 _tapdata_heartbeat_table 的心跳表并每隔 10 秒更新一次其中的数据(数据库账号需具备相关权限),用于数据源连接与任务的健康度监测,更多介绍,见通过心跳表监测数据同步链路
  6. 单击页面下方的连接测试,提示通过后单击保存

    提示

    如提示连接测试失败,请根据页面提示进行修复。