Kettle需求场景复现

技术分享 2年前 (2022-08-06) 0 999+

关注

前置说明

遍历文件夹下的文件，读取所有的sheet页(指定的sheet)落库
读取execl文件和csv文件，获得文件中sheet/csv数据，进行落库，并增加字段实现更新；
如果execl中存在两个标题，将标题一进行行转列并进行字段的添加(任务图如下)

Kettle需求场景复现
最终实现效果图：

组件的使用：

组件的使用：

execl输入
csv输入
获取文件名
表输出
列拆分为多行
记录合并(笛卡尔积)
转换
执行SQL语句

说明：
任务1：使用滴滴.csv和携程(xc.xlsx)做演示
任务2：使用京东(jd1.xlsx)做演示

场景复现：

搭建任务1：使用滴滴.csv和携程(xc.xlsx)做演示

流程：

携程：

Execl文件输入：

Kettle需求场景复现
文件输出，需要执行对应的路径，通过通配符进行匹配文件夹下的所有文件；.*.xlsx

这里需要注意，对于工作表来说，可用于两个场景：

.*.xlsx可用于两个场景

读取指定的sheet数据
不指定sheet名字则读取该execl文件中所有的sheet数据，字段需要一致(适用于文件下的sheet页名字不同字段相同的表数据)

Kettle需求场景复现

表输出：

直接以该组件图展示来说；
首先需要连接数据库(可参考网上文章)，选择目标表，这里有两种方式：

如果数据库中存在表，则直接选择或填写名字
如果数据库没有，则开启指定数据库字段，并获取字段，执行下面的SQL，需要注意的是自动生成的语句是否正确。

最后执行可看到效果；

滴滴

获取文件名：

Kettle需求场景复现

获取文件名匹配类似与execl输入组件，在预览数据的时候需要注意的filename参数，后续用到。

CSV文件输入：

Kettle需求场景复现
首先通过单一的CSV文件输入，获得对应文件中的字段：

然后连接到获取文件名，通过filename参数，来接收前面的文件名；

最后表输出与携程例子中的操作相同，不表。

搭建任务2：使用京东(jd1.xlsx)做演示

流程图：
如果execl中存在两个标题，将标题一进行行转列并进行字段的添加。

Kettle需求场景复现
在获取文件名中得到文件名参数(filename),需要传递到转换中：

Execl输入组件中的配置参数；

为了实现将第一个标题下的数据读取出来并进行行转列。我们在输入组件中的内容部分，设置为限制1：表示只读取标题字段下的第一行。(如下图)
Kettle需求场景复现
根据列拆分多行进行转换：选择前面的字段，并设置向后传递的字段名字。

Execl2输入组件需要注意的点是sheet数据读取的起始位置：

最后对数据进行组合和落库：记录关联直接拖出来用就可。

限制1

字段更新

update xc set vpkid=CONCAT(DATE_FORMAT(SYSDATE(),'%Y%m%d'), 'xc'),update_time=SYSDATE(),create_time=SYSDATE();

最后对入库数据的各表字段进行更新：
Kettle需求场景复现

Linux下运行

./pan.sh -file=xxx.ktr ./kitchen.sh -file=xxxx.kjb

kettle基于Java开发，可设置JVM内存大小：
起始内存大小：Xms
最大内存大小：Xmx
永久代大小：MaxpermSize

if "%PENTAHO_DI_JAVA_OPTIONS%"=="" set PENTAHO_DI_JAVA_OPTIONS="-Xms7680m" "-Xmx7680m" "-XX:MaxPermSize=3840m"

发表评论

CMake构建学习笔记19-OpenSSL库的构建

EverEdit插件-CHM助手：一种免费、高效的CHM手册制作方式

Redis应用—9.简单应用汇总

【经验】几种数据库优化技巧

强化学习算法中的log_det_jacobian —— 概率分布的仿射变换（Bijector）

一个.NET开源、易于使用的屏幕录制工具

当前内容话题

上一页：配置 Druid 数据源及密码加密-SpringBoot 2.7 实战基础

下一页： Golang 汇编asm语言基础学习

微

- 资讯
- 技术

Kettle需求场景复现

前置说明

场景复现：

搭建任务1：使用滴滴.csv和携程(xc.xlsx)做演示

携程：

Execl文件输入：

表输出：

滴滴

获取文件名：

CSV文件输入：

搭建任务2：使用京东(jd1.xlsx)做演示

字段更新

Linux下运行

相关文章