XML
TapData Cloud 为您提供了云端服务,适合需要快速部署、低前期投资场景,帮助您更好地专注于业务发展而非基础设施管理,注册账号即可领取免费的 Agent 实例,欢迎试用。TapData Enterprise 可部署在您的本地数据中心,适合对数据敏感性或网络隔离有严格要求的场景,可服务于构建实时数仓,实现实时数据交换,数据迁移等场景。TapData Community 是一个开源的数据集成平台,提供基础的数据同步和转换功能,可通过 Docker 一键部署,帮助您快速探索和实施数据集成项目。随着项目或企业发展,您可以平滑升级至 TapData Cloud 或 TapData Enterprise,以获得更多高级功能或服务支持。Tapdata 支持读取 Local(本地)、FTP、SFTP、SMB、S3FS 或 OSS 上的文件,支持的文件类型包括 CSV、EXCEL、JSON 和 XML,满足多样化的数据流转需求。
可扩展标记语言(XML)一种数据表示格式,可以描述非常复杂的数据结构,常用于传输和存储数据。完成 Agent 部署后,您可以跟随本文教程在 Tapdata 中添加 CSV 数据源,后续可将其作为源库来构建数据管道。
注意事项
- 一个连接配置仅对应一个模型(表),如有多个模型您需要分别为其创建链接。
- XML 数据源仅适用于数据转换任务,暂不支持在数据复制任务中引用。
- Tapdata 默认每隔 1 分钟检测 XML 文件是否发生变更(如新增/修改文件),如发生变更则将涉及的文件全量新增后更新条件字段以完成修改,暂不支持同步删除文件或数据。
- XML 文件中可用的数据类型为 ARRAY、BOOLEAN、DATETIME、INTEGER、NUMBER, OBJECT、STRING、TEXT。
准备工作
本小节介绍在创建 XML 数据源连接前所需的准备工作,请根据 XML 文件的存放位置选择阅读。
文件存放在 Local/FTP/SFTP/SMB
- Local(本地)
- FTP
- SFTP
- SMB
- 登录至用于存放文件的本地设备。
- 为便于管理,新建一个文件夹用来存放文件,以 root 用户为例,我们新建一个文件夹为:
/root/files
。 - 将文件存放至该文件夹。
后续在配置数据源时,您只需提供文件存放路径即可。
文件传输协议(FTP)是用于在网络上进行文件传输的一套标准协议。如需将 FTP 服务中的文件作为数据来源,准备工作如下:
- 安装 FTP 服务(如 vsftpd)并保障网络通信正常。
- 如开启了认证,您需要准备 FTP 的账号与密码,保障其具备文件读取权限。
- 记录文件存放路径,后续配置数据源时使用。
安全文件传输协议(SFTP)可为文件提供一种安全加密的网络传输方法。如需将 SFTP 服务中的文件作为数据来源,准备工作如下:
- 安装 SFTP 服务(openssh-client 与 openssh-server)并保障网络通信正常。
- 准备 SFTP 服务的账号、密码,保障其具备文件读取权限。
- 记录文件存放路径,后续配置数据源时使用。
信息服务快协议(SMB)是一种Linux、UNIX系统上可用于共享文件和打印机等资源的协议。如需将 Samba 服务中的文件作为数据来源,准备工作如下:
- 安装 SMB (支持 1.0/2.0/3.0 版本)协议的软件,如 Samba ,保障网络通信正常。
- 准备 Samba 服务的账号、密码,保障其具备文件读取权限。
- 记录文件存放的路径,后续配置数据源时使用。
文件存放在 Amazon S3
Amazon S3 是一种面向互联网的存储服务。您可以通过 Amazon S3 随时在 Web 上的任何位置存储和检索任意大小的数据。当您的文件存放在 Amazon S3 上时,您需要获取用户的访问密钥、S3 存储桶名称、文件路径等信息。
创建用户并授权。
在左侧导航栏,选择访问管理 > 用户。
在页面右侧,单击创建用户。
填写用户名并单击下一步。
用户名最多可包含 64 个字符,有效字符包括:A-Z、a-z、0-9 和
+ =,. @ _-
在权限选项区域选择直接附加策略,然后搜索并选中 AmazonS3ReadOnlyAccess 策略。
单击下一步,然后单击创建用户。
为用户创建访问密钥。
在跳转到的用户列表页,找到并单击刚刚创建的用户。
单击安全凭证页签,然后在访问密钥区域单击创建访问密钥。
选择第三方服务并单击下一步。
设置描述标签并单击创建访问密钥。
在页面查看或下载访问密钥信息,包含 Accesskey、Secretkey 信息。
提示为保障信息安全,请妥善保存访问密钥。如果意外关闭该页面将无法获取该私有访问密钥,此时您需要创建新的访问密钥。
获取存储桶的区域代码。
登录亚马逊云 S3 控制台。
在存储桶列表页,找到目标存储桶,查看其区域代码。
文件存放在 OSS
阿里云对象存储 OSS 是一款海量、安全、低成本、高可靠的云存储服务,可提供 99.9999999999%(12个9)的数据持久性,99.995%的数据可用性。当您的文件存放在阿里云 OSS 上时,您需要获取用户的访问密钥、Bucket 名称、文件路径等信息。
创建用户并获取访问密钥(AccessKey)。
在左侧导航栏,选择身份管理 > 用户。
单击创建用户。
在跳转到的页面填写登录名称、显示名称,选择 OpenAPI 调用方式并单击确定。
用户创建完成后,单击下载 CSV 文件,该文件包含访问密钥(AccessKey)信息。
提示为保障信息安全,请妥善保存访问密钥。
为用户授予权限。
在跳转到的用户列表页,找到并单击刚刚创建的用户。
单击权限管理页签,然后单击新增授权。
在右侧弹出的面板中,选择授权范围,然后搜索并选中 AliyunOSSReadOnlyAccess 策略。
单击确定,然后单击完成。
获取 OSS 的访问域名(Endpoint)。
登录阿里云 OSS 控制台。
找到并单击目标 Bucket(存储桶)。
单击左侧的概览标签页,下翻至访问端口即可获取外网访问地址对应的 Endpoint。
添加数据源
在左侧导航栏,单击连接管理。
单击页面右侧的创建。
在弹出的对话框中,选择 XML。
在跳转到的页面,根据下述说明填写 XML 的连接信息。
连接名称:填写具有业务意义的独有名称。
连接类型:目前仅支持源头。
文件协议:根据 XML 文件存放的位置选择下述协议,本文以 S3FS(Amazon S3 存储桶) 为例演示操作流程。
提示关于如何获取各协议所需填写的信息,见 准备工作。
- Local:文件存放在本地(引擎)所在的设备上,选择此项后,您还需要填写文件路径。
- FTP(文件传输协议):文件存放在 FTP 服务器上,选择此项后,您还需要填写 FTP 服务器的地址、端口、用户名、口令、文件路径等信息,如上图所示。
- SFTP(安全加密文件传输协议):文件存放在 SFTP 服务器上,选择此项后,您还需要填写 SFTP 服务器的地址、端口、用户名、口令、文件路径等信息。
- SMB(文件共享协议):文件存放在 SMB 服务器上,兼容 1.x、2.x、3.x,选择此项后,您还需要填写 SMB 服务器的地址、用户名、口令、文件路径等信息。
- S3FS(遵循S3协议文件系统):文件存放在 Amazon S3 存储桶上,选择此项后,您还需要填写 Accesskey、Secretkey、终端(固定为 s3.amazonaws.com)、桶和文件路径等信息。
- OSS(对象存储服务):文件存放在阿里云对象存储 OSS 上,选择此项后,您还需要填写云账户的 Accesskey、Secretkey、终端、桶和文件路径等信息。
Agent 设置:默认为平台自动分配,您也可以手动指定。
模型加载时间:当数据源中模型数量小于 10,000 时,每小时刷新一次模型信息;如果模型数据超过 10,000,则每天按照您指定的时间刷新模型信息。
单击连接测试,测试通过后单击保存。
提示如提示连接测试失败,请根据页面提示进行修复。