XML
Tapdata 支持读取 Local(本地)、FTP、SFTP、SMB、S3FS 或 OSS 上的文件,支持的文件类型包括 CSV、EXCEL、JSON 和 XML,满足多样化的数据流转需求。
可扩展标记语言(XML)一种数据表示格式,可以描述非常复杂的数据结构,常用于传输和存储数据。完成 Agent 部署后,您可以跟随本文教程在 Tapdata 中添加 CSV 数据源,后续可将其作为源库来构建数据管道。
注意事项
- 一个连接配置仅对应一个模型(表),如有多个模型您需要分别为其创建链接。
- XML 数据源仅适用于数据转换任务,暂不支持在数据复制任务中引用。
- Tapdata 默认每隔 1 分钟检测 XML 文件是否发生变更(如新增/修改文件),如发生变更则将涉及的文件全量新增后更新条件字段以完成修改,暂不支持同步删除文件或数据。
- XML 文件中可用的数据类型为 ARRAY、BOOLEAN、DATETIME、INTEGER、NUMBER, OBJECT、STRING、TEXT。
准备工作
本小节介绍在创建 XML 数据源连接前所需的准备工作,请根据 XML 文件的存放位置选择阅读。
文件存放在 Local/FTP/SFTP/SMB
- Local(本地)
- FTP
- SFTP
- SMB
- 登录至用于存放文件的本地设备。
- 为便于管理,新建一个文件夹用来存放文件,以 root 用户为例,我们新建一个文件夹为:
/root/files。 - 将文件存放至该文件夹。
后续在配置数据源时,您只需提供文件存放路径即可。
文件传输协议(FTP)是用于在网络上进行文件传输的一套标准协议。如需将 FTP 服务中的文件作为数据来源,准备工作如下:
- 安装 FTP 服务(如 vsftpd)并保障网络通信正常。
- 如开启了认证,您需要准备 FTP 的账号与密码,保障其具备文件读取权限。
- 记录文件存放路径,后续配置数据源时使用。
安全文件传输协议(SFTP)可为文件提供一种安全加密的网络传输方法。如需将 SFTP 服务中的文件作为数据来源,准备工作如下:
- 安装 SFTP 服务(openssh-client 与 openssh-server)并保障网络通信正常。
- 准备 SFTP 服务的账号、密码,保障其具备文件读取权限。
- 记录文件存放路径,后续配置数据源时使用。
信息服务快协议(SMB)是一种Linux、UNIX系统上可用于共享文件和打印机等资源的协议。如需将 Samba 服务中的文件作为数据来源,准备工作如下:
- 安装 SMB (支持 1.0/2.0/3.0 版本)协议的软件,如 Samba ,保障网络通信正常。
- 准备 Samba 服务的账号、密码,保障其具备文件读取权限。
- 记录文件存放的路径,后续配置数据源时使用。
文件存放在 Amazon S3
Amazon S3 是一种面向互联网的存储服务。您可以通过 Amazon S3 随时在 Web 上的任何位置存储和检索任意大小的数据。当您的文件存放在 Amazon S3 上时,您需要获取用户的访问密钥、S3 存储桶名称、文件路径等信息。
-
创建用户并授权。
-
在左侧导航栏,选择访问管理 > 用户。
-
在页面右侧,单击创建用户。
-
填写用户名并单击下一步。
用户名最多可包含 64 个字符,有效字符包括:A-Z、a-z、0-9 和
+ =,. @ _- -
在权限选项区域选择直接附加策略,然后搜索并选中 AmazonS3ReadOnlyAccess 策略。

-
单击下一步,然后单击创建用户。
-
-
为用户创建访问密钥。
-
在跳转到的用户列表页,找到并单击刚刚创建的用户。
-
单击安全凭证页签,然后在访问密钥区域单击创建访问密钥。

-
选择第三方服务并单击下一步。
-
设置描述标签并单击创建访问密钥。
-
在页面查看或下载访问密钥信息,包含 Accesskey、Secretkey 信息。
提示为保障信息安全,请妥善保存访问密钥。如果意外关闭该页面将无法获取该私有访问密钥,此时您需要创建新的访问密钥。
-
-
获取存储桶的区域代码。
-
登录亚马逊云 S3 控制台。
-
在存储桶列表页,找到目标存储桶,查看其区域代码。

-
文件存放在 OSS
阿里云对象存储 OSS 是一款海量、安全、低成本、高可靠的云存储服务,可提供 99.9999999999%(12个9)的数据持久性,99.995%的数据可用性。当您的文件存放在阿里云 OSS 上时,您需要获取用户的访问密钥、Bucket 名称、文件路径等信息。
-
创建用户并获取访问密钥(AccessKey)。
-
在左侧导航栏,选择身份管理 > 用户。
-
单击创建用户。
-
在跳转到的页面填写登录名称、显示名称,选择 OpenAPI 调用方式并单击确定。

-
用户创建完成后,单击下载 CSV 文件,该文件包含访问密钥(AccessKey)信息。
提示为保障信息安全,请妥善保存访问密钥。
-
-
为用户授予权限。
-
在跳转到的用户列表页,找到并单击刚刚创建的用户。
-
单击权限管理页签,然后单击新增授权。
-
在右侧弹出的面板中,选择授权范围,然后搜索并选中 AliyunOSSReadOnlyAccess 策略。

-
单击确定,然后单击完成。
-
-
获取 OSS 的访问域名(Endpoint)。
-
登录阿里云 OSS 控制台。
-
找到并单击目标 Bucket(存储桶)。
-
单击左侧的概览标签页,下翻至访问端口即可获取外网访问地址对应的 Endpoint。

-
添加数据源
-
在左侧导航栏,单击连接管理。
-
单击页面右侧的创建。
-
在弹出的对话框中,选择 XML。
-
在跳转到的页面,根据下述说明填写 XML 的连接信息。

-
连接名称:填写具有业务意义的独有名称。
-
连接类型:目前仅支持源头。
-
文件协议:根据 XML 文件存放的位置选择下述协议,本文以 S3FS(Amazon S3 存储桶) 为例演示操作流程。
提示关于如何获取各协议所需填写的信息,见 准备工作。
- Local:文件存放在本地(引擎)所在的设备上,选择此项后,您还需要填写文件路径。
- FTP(文件传输协议):文件存放在 FTP 服务器上,选择此项后,您还需要填写 FTP 服务器的地址、端口、用户名、口令、文件路径等信息,如上图所示。
- SFTP(安全加密文件传输协议):文件存放在 SFTP 服务器上,选择此项后,您还需要填写 SFTP 服务器的地址、端口、用户名、口令、文件路径等信息。
- SMB(文件共享协议):文件存放在 SMB 服务器上,兼容 1.x、2.x、3.x,选择此项后,您还需要填写 SMB 服务器的地址、用户名、口令、文件路径等信息。
- S3FS(遵循S3协议文件系统):文件存放在 Amazon S3 存储桶上,选择此项后,您还需要填写 Accesskey、Secretkey、终端(固定为 s3.amazonaws.com)、桶和文件路径等信息。
- OSS(对象存储服务):文件存放在阿里云对象存储 OSS 上,选择此项后,您还需要填写云账户的 Accesskey、Secretkey、终端、桶和文件路径等信息。
-
Agent 设置:默认为平台自动分配,您也可以手动指定。
-
模型加载时间:当数据源中模型数量小于 10,000 时,每小时刷新一次模型信息;如果模型数据超过 10,000,则每天按照您指定的时间刷新模型信息。
-
-
单击连接测试,测试通过后单击保存。
提示如提示连接测试失败,请根据页面提示进行修复。