Support agile DataOps Based on Flink, DataX and Flink-CDC, Chunjun with Web-UI
TIS的v4.0.0
版本终于要与大家见面了,v4.0.0
在以下几方面进行了功能加强和升级。
发布报告:https://www.bilibili.com/video/BV1eD421V78u/
TIS的v4.0.0
版本终于要与大家见面了,v4.0.0
在以下几方面进行了功能加强和升级。
TIS的v3.8.0
版本终于要与大家见面了,v3.8.0
着重在以下几方面进行了功能加强和升级。
支持利用Flink Checkpoint
恢复因意外宕机而中断的Flink Job任务
用户运行的Flink Job 任务经常会因为各种原因导致意外停止,例如:机房断电等。如需要恢复中断的Flink Job需要用户事先手动触发Savepoint存储来恢复。而机房断电属于不可预测事件,用户无法提前预测,所以只能对中断的Flink Job进行重新部署,这个流程特别费时,且之前保存的StateBackend也会丢失。
因此,在TIS中提供了通过Flink Checkpoint机制来恢复Job的方式,用户只需要在部署Flink Job过程中,开启Checkpoint机制、并设置持久化StatebackEnd,就可以方便恢复因意外中断的Flink Job任务。https://github.com/datavane/tis/issues/224
与Doris最新版本的兼容性提升
使用Doris最新版本2.0.1与TIS兼容性优化,对Sequence列模型
与批量删除
的设置体验进行优化,为用户提供整库导入Doris实现实时数仓方案提供了最佳技术手段。
提供TIS插件开发工具
随着TIS功能不断壮大,会有越来越多的开发者加入到TIS的生态构建中来。 TIS内部使用了微内核架构设计,践行OCP原则(对修改封闭,对新加功能开放),为了让用户愉快地加入到TIS生态构建中来,从v3.8. 0
版本开始,会陆续提供一系列工具和技术分享文档,让用户可以独立地开发新的大数据集成插件,或者完善既有的TIS插件功能以满足自己的业务需求。
新添加的插件参考文档:
Hive Reader 支持
T+1离线分析会将计算结果导入Hive的分布式文件系统中。本版本(v3.8.0)提供Hive Reader用户可以通过简单设置 将Hive中的数据导入到Doris、ElasticSearch、StarRocks、各种关系型数据库中。
重构 Aliyun OSS、FTP、HDFS
针对分布式文件端类型的支持,之前在TIS中对以上各种类型的数据端是各自实现的,但是在实现过程发现,每种数据类型都有压缩,数据Format(CSV、TEXT)的逻辑在需要重复实现,不同的仅仅是每种类型的文件流的获取方式。 在本版本(v3.8.0)中,将文件流获取的方式单独抽取出来,其他执行逻辑实现重用。这样有利于在TIS中对分布式式文件类型端的维护,也可大大简化今后在TIS中接入同类型数据端的复杂程度。https://github.com/datavane/tis/issues/253
重构MongoDB Reader功能
优化Kerberos认证支持
优化TIS中kerberos认证的支持,支持Hive、HDFS等数据端 https://github.com/datavane/tis/issues/127
云原生方面的支持
支持Aliyun HDFS 的JindoFS类型的导入方式,通过 JindoFS类型的导入方式,性能比传统HDFS效率高3倍。
添加达梦数据库支持
支持在TIS中对达梦数据库批量读取,和批量/增量写入功能
java.sql.Timestamp
写入失败#272
TIS的v3.7.2
版本终于与大家见面了,v3.7.2
在v3.7.1
之上作了几处小修改
TIS的v3.7.1
版本终于要与大家见面了,v3.7.1
着重在以下几方面进行了功能加强和升级。
TIS与Apache Zeppelin无缝整合
Apache Zeppelin 是一款让交互式数据分析变得可行的基于网页的开源框架。Zeppelin提供了数据分析、数据可视化等功能。经过与TIS无缝整合之后,用户可以在TIS中方便观测各数据源 中数据的状态。TIS中安装及使用Zeppelin说明
重新整理TIS中离线调度功能
目前TIS中支持的离线调度引擎为Spark,Hive,AliyunODPS,用户可以一站式地在TIS中抽取数据,并且通过离线分析引擎进行T+1
数据分析操作
,详细请查看
支持用户在数据库系统中采用分表策略
生产环境中使用分表策略是DBA经常使用的应对海量数保存的一种方法,在本版本中以优雅的方式支持物理分表合并导入目标数据端, 详细请查看
添加Kafka Sink Connector插件
添加Kafka Sink Connector插件,支持canal和debezium两种格式,https://github.com/qlangtech/tis/issues/179, 另外修改了flink的flink-json模块 在消息体中添加了source表名和生成记录的时间戳 https://github.com/qlangtech/flink/commit/9844b3750f01e16d7ab4917b5f507fcd54773700
经过几个月时间的开发TIS的v3.6.0
版本终于要与大家见面了,v3.6.0
着重在以下几方面进行了功能加强和升级。
对Apache Hudi Sink
插件多版本依赖
,具体来说,在运行时可以选择Hudi版本所依赖的不同Hadoop依赖版本目前TIS中Hudi可以选择 Hadoop 2.7或者 Hadoop3.0。引入 Chunjun 来完善TIS Source/Sink 的端覆盖面 #139, 在TIS的生态中以MySQL为例,如需以MySQL作为Source端,用户可以根据自身业务特点,可以选择 基于 Flink-CDC MySQL 插件或者基于 Chunjun 基于polling 策略实现的插件,两种插件各有特点,至于选择使用那种就取决于使用者自己的判断了。
临近发布发现一个很有意思的使用场景,那就是用户可以选择基于Flink-CDC实现 MySQL插件来监听MySQL 表的增量变更来将数据同步到以 Chunjun 构建的 Sink端中去,这样的混搭使用方式给用户带来了更多的选择自由度,也避免了 在Flink-CDC和Chunjun各自的框架内部重复造轮子从而造成生态内卷。
完善各个端(Source/Sink)的单元测试,由于添加到TIS生态中的数据端(Source/Sink)逐渐增多,每次发布无法通过人肉的方式把所有的端功能回归
一遍,因此在v3.6.0
版本中通过引入testcontainer将各中数据库进行Stub化,最大限度保证每次发布功能稳定。
经过几个月时间的开发TIS的v3.6.0
版本终于要与大家见面了,v3.6.0
着重在以下几方面进行了功能加强和升级。
对Apache Hudi Sink
插件多版本依赖
,具体来说,在运行时可以选择Hudi版本所依赖的不同Hadoop依赖版本目前TIS中Hudi可以选择 Hadoop 2.7或者 Hadoop3.0。引入 Chunjun 来完善TIS Source/Sink 的端覆盖面 #139, 在TIS的生态中以MySQL为例,如需以MySQL作为Source端,用户可以根据自身业务特点,可以选择 基于 Flink-CDC MySQL 插件或者基于 Chunjun 基于polling 策略实现的插件,两种插件各有特点,至于选择使用那种就取决于使用者自己的判断了。
临近发布发现一个很有意思的使用场景,那就是用户可以选择基于Flink-CDC实现 MySQL插件来监听MySQL 表的增量变更来将数据同步到以 Chunjun 构建的 Sink端中去,这样的混搭使用方式给用户带来了更多的选择自由度,也避免了 在Flink-CDC和Chunjun各自的框架内部重复造轮子从而造成生态内卷。
完善各个端(Source/Sink)的单元测试,由于添加到TIS生态中的数据端(Source/Sink)逐渐增多,每次发布无法通过人肉的方式把所有的端功能回归
一遍,因此在v3.6.0
版本中通过引入testcontainer将各中数据库进行Stub化,最大限度保证每次发布功能稳定。
https://tis.pub/docs/plugin/source-sink
TIS Package
wget http://tis-release.oss-cn-beijing.aliyuncs.com/3.6.0-alpha/tis/tis-uber.tar.gz
TIS Flink Standalone Package 安装说明
wget http://tis-release.oss-cn-beijing.aliyuncs.com/3.6.0-alpha/tis/flink-tis-1.13.1-bin.tar.gz
v3.4.0涉及到的功能点:
v3.3.0本版本修复以下功能点:
单机版安装说明:http://tis.pub/docs/install/uber/