ETL 流程求推荐

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 142 天前的主题，其中的信息可能已经有所发展或是发生改变。

目前公司使用前置机部署的 kettle 抽取用户数据为标准模型格式，经过业务系统校验后，将校验成功的数据转存入数仓中。目前只用了 kettle ，但是部署的前置机很多，每个库每个项目都需要部署一台前置机进行采集，而且无法监控采集结果，服务停了都不知道，导致数据断层严重。校验系统需要配置字段校验规则。

目前主流 ETL 流程大概什么样子，有相应工具推荐吗，对多节点可能没有要求，这块不太清楚具体业务逻辑。有没有可以自定义校验规则或转换规则的开源系统。

有相关运维经验的麻烦给大概说说，尽量开源的，不尽感激！

目前听过的 flinkCDC ，airflow+dbt ，海豚调度，kettle 等。主语言 java ，哪个更适合以上业务呢。

12 条回复 • 2024-07-14 11:18:28 +08:00

tuutoo

142 天前

不懂为什么每个都要部署一下？一台机器去采集所有的信息为什么不行，采集的目标是文件还是什么？

brant2ai

142 天前

看你们项目程度，换成 DataX ，配个 XXjob 就基本上满足了。告警的话可能再找找看

SilenceLL

142 天前

kettle 便利就行了吧，我们有 200+数据库实例，每个实例里面有 6000-13000schema ，目前就是遍历的，如果追求效率可以多加机器，分好段。

suuuch

142 天前

这里面有多个问题：
1. 前置机数量多的问题，这个我理解是网络限制上问题，kettle 无法直接需要穿透到不同的网络中拿数据，需要前置机器去读取数据。不构成替换 kettle 的必要条件。解决方案的话，应该是从网络上下手。
2. 监控采集结果无法监控，服务停了不知道，这个应该是使用上有问题，kettle 我记得是有报警工具。而且 kettle 里面的日志也是很完整的。我不确定为啥无法监控。
3. 数据断层，配置字段校验规则。大部分 ETL 工具都做不到这个，这个模块叫做数据质量。有单独的工具，个人经验里面来说，这个自己定制比较靠谱。