big-data - 随心笔记

阿里云实时数仓

前言使用阿里云现有的产品生态体系，可以解决企业自建集群复杂，难维护，部署成本高的问题。基于这些情况我们可以使用目前阿里云已有的产品进行开通，来满足企业业务需求。目前面临痛点 1、底层数据库无法承载海量数据，根据后续企业发展，10T，100T，以及PB，EB数据量无法承载，以及无法支撑快速查询响应，数据分析以及数据挖掘等工作。 2、实时计算性能存在一定不足，需要通过可靠计算引擎进行毫秒级实时计算，并且数据质量可靠，可控，可遥测。 3、数据模型调整效率不够快速，不能够非常灵活的调整数据模型结构，快速的提供业务场景报表需求。应用场景 * 基于Flink和规则引擎的实时风控解决方案 * 基于实时计算（Flink）与高斯模型构建实时异常检测系统 * 基于实时计算（Flink）打造一个简单的实时推荐系统实时数仓总体数据开发流程数据拉取->数据缓冲->实时计算->下沉落库组件选型 Flink 阿里云实时计算 Flink 版阿里云基于Apache Flink构建的企业级、高性能实时大数据处理系统，由Apache Fl

Dinky

前言 Dinkey 作为一款开源的Flink Job 控制台，使用起来非常的简单，轻量，可以管理多个Flink 集群，通过控制台即可在线编辑Flink SQL，编辑完成后即可提交到对应集群进行 Job 构建执行。官网地址 www.dlink.top 功能描述内置整库同步功能，可以解决微服务数据孤岛问题，把微服务对应的数据库表数据同步到实时数仓。并且支持多版本的Flink SQL数据开发，并且有数据血缘分析。整体功能完善度不错，非常推荐使用。

Canal 组件

前言 Canal是一款开源的数据准实时复制（CDC）组件目前市面上常见的CDC组件有：Canal、Debezium、Flink CDC 目前他们的工作机制大致都相同，均是通过解析数据库Binlog日志来得出具体数据的变更信息与操作类型。目前Canal的作用场景，作为实时数据同步工具，同步数据库数据，或把数据变更信息投递到MQ队列中。 Canal 目前只支持MySQL数据库。5.x 8.x 版本。 GitHub - alibaba/canal: 阿里巴巴 MySQL binlog 增量订阅&消费组件阿里巴巴 MySQL binlog 增量订阅&消费组件 . Contribute to alibaba/canal development by creating an account on GitHub.GitHubalibaba 在高可用方面，Canal目前提供了集群方式，通过每个Service节点管理不同的同步任务实例进行任务的分发。

数据湖 Iceberg

目前比较流行的开源数据湖 Iceberg。数据湖是一个用于存储结构化和非结构化数据的集中式数据存储库，它可以存储各种类型的数据，包括传统的关系型数据、半结构化数据、非结构化数据等。数据湖的主要特点是具有高度的灵活性和可扩展性，能够方便地进行数据的存储和处理。相比之下，传统的数据仓库主要用于存储结构化数据，它们通常采用关系型数据库进行存储和管理。数据仓库的主要特点是具有高度的规范化和结构化，能够保证数据的准确性和一致性。但是，数据仓库的缺点在于它们不够灵活，无法存储和处理非结构化或半结构化数据，而且难以进行扩展和升级。数据湖相比数据仓库的优势主要有以下几点： 1. 存储不受限制：数据湖可以存储各种类型的数据，包括传统的结构化数据、半结构化数据、非结构化数据等。这使得数据湖更加灵活，适用于不同类型和规模的数据存储需求。 2. 处理速度更快：数据湖通常采用分布式存储和计算技术，能够实现高速数据处理和分析。而传统的数据仓库则往往需要进行多次数据转换和计算，导致处理速度较慢。 3. 成本更低：数据湖通常采用开源技术，如Hadoop、Spark等，成本相对较低，而传统的数据仓库

Flink CDC 组件

Flink CDC（Change Data Capture）组件是 Apache Flink 的一个重要组成部分，它提供了一种轻松实现数据流变更捕获和同步的方法。在大数据领域，CDC是一个非常常见的技术，因为它能够帮助我们实现数据在不同系统之间的同步和数据的实时处理。快速上手 — CDC Connectors for Apache Flink® documentation Flink CDC组件的工作原理是通过捕获源数据系统的变更日志，将其转化为数据流并进行实时处理。这个过程可以在不影响源系统的情况下进行，因为CDC组件只是读取源系统的日志，而不会对源系统进行写操作。 Flink CDC组件的优点在于它可以支持多种数据源，包括关系型数据库（如MySQL，Oracle等）和NoSQL数据库（如MongoDB，Cassandra等）。此外，它还能够支持多种数据格式，如JSON，CSV等。使用Flink CDC组件可以实现实时的数据同步和数据流处理。例如，我们可以使用CDC组件将MySQL数据库中的数据同步到Kafka，然后使用Flink进行实时数据处理。这样就可以实现数据的实时

Kettle工具使用

最近使用了Kettle这款ETL工具、对于多数据源进行数据之间的同步，迁移，转换，修正等功能进行了解与使用。 Kettle-水壶、顾名思义就是把各种数据源中的表数据都当做水流、从多个水流汇总、分流、解析的工具。它是一款开源的数据集成工具，它提供了丰富的数据处理功能，包括数据抽取、转换和加载（ETL）等。Kettle的核心是一个基于图形化界面的设计工具，用户可以通过简单的拖拽和连接操作来构建数据处理流程。Kettle还提供了强大的数据处理引擎，支持多线程和分布式处理，可以高效地处理大规模数据。同时，Kettle还支持多种数据来源和目标，包括关系型数据库、文件、Web服务等，可以方便地与各种数据源进行集成。Kettle还提供了丰富的插件机制，用户可以自定义开发插件，扩展Kettle的功能。总之，Kettle是一款功能强大、易用性好、可扩展性强的数据集成工具，广泛应用于数据仓库、商业智能、数据分析等领域。无需任何编程、只需要手动拖动配置组件。即可完成复杂的数据处理功能。Kettle对于CDC层面来说，是基于查询的方式进行数据的读取与转换，适合一次性的数据迁移与转换。不能用于实时性要求较