TiDB Statistics: Understanding the Initialization Process

Statistics Statistics collection is a crucial process of modern database systems, forming the backbone of query optimization. In TiDB, statistics are indispensable, serving as the sole source of information for estimating query costs and selecting the most efficient execution plan. TiDB collects several types of statistics for each table, including: TopN values (most frequent values to reflect data skewness) Histograms (data distribution) Number of Distinct Values (NDV) Other statistical metrics These statistics will be stored in some system tables, such as mysql....

February 5, 2025 · 11 min · Rustin liu

Batch Dumping Statistics Delta

Background Recently, we have been tackling the challenge of supporting 3 million tables within a single TiDB cluster. One of the most significant hurdles we’ve faced is optimizing the performance of statistics collection. In its current implementation, TiDB gathers basic table information from all servers and consolidates it into a single system table. While functional, this approach becomes highly inefficient when managing millions of tables, consuming excessive CPU and taking a considerable amount of time....

December 14, 2024 · 8 min · Rustin liu

December 14, 2024 · 0 min · Rustin liu

June 7, 2023 · 0 min · Rustin liu

TiCDC Sink 开发指南

我近半年的时间都在做 TiCDC Sink 模块的改造工作,目前新的 Sink 实现已经成功替换了旧的实现。最近有客户希望通过自己实现 Sink 的方式来接入 TiCDC,所以我想把这段时间的改造和设计经验分享出来,希望能帮助到大家。 此博客在 GitHub 上公开发布。 如果您有任何问题,请在此处打开一个 issue。 ⚠️ 注意: 该指南主要面向开发者,如果您只是想使用 TiCDC,请参阅 TiCDC 使用文档。 在阅读该指南前,请先阅读 TiCDC 架构和数据同步链路解析了解 TiCDC 的基本架构和数据同步流程。 基本概念 可以先简单浏览这些子组件概念,后面会有详细的介绍。 Sink:TiCDC 的 Sink 模块负责将 TiCDC 的数据变更输出到外部系统中。目前 TiCDC 支持输出到 MySQL、TiDB、Kafka、S3 等外部系统中。 Table Sink:负责将 TiCDC 的数据变更按照表为单位进行聚合,然后输出到外部系统中。 Event Sink:负责与外部系统进行交互,将 TiCDC 的数据变更编码后输出到外部系统中。这里的 Event 主要指的是 TiCDC 的数据变更事件,比如 Insert、Update、Delete 等。 MQ Event Sink:负责将 TiCDC 的数据变更输出到 Message Queue 中。MQ Sink 会将数据变更事件编码为 MQ 消息,然后输出到 MQ 中。目前 TiCDC 支持输出到 Kafka 中。 Txn Event Sink:负责将 TiCDC 的数据变更按照事务为单位进行聚合,然后输出到外部系统中。目前 TiCDC 支持输出到 MySQL、TiDB 中。 DDL Sink:负责将 TiCDC 的 DDL 语句输出到外部系统中。目前 TiCDC 支持输出到 Kafka、MySQL、TiDB 中。 MQ DDL Sink:负责将 TiCDC 接受到的 DDL 语句输出到 Kafka 中。 Txn DDL Sink:,负责将 TiCDC 接受到的 DDL 语句输出到 MySQL、TiDB 中。 基本架构 我们可以将 TiCDC 接收到的数据分为两类:...

February 7, 2023 · 8 min · Rustin liu

November 5, 2022 · 0 min · Rustin liu

TiCDC 架构和数据同步链路解析

TiCDC 是 TiDB 生态中的一个数据同步工具,它通过拉取 TiKV 的变更日志实现数据的增量同步。它除了可以将 TiDB 的数据同步至 MySQL 兼容的数据库之外,还提供了同步至 Kafka 的能力,支持 canal 和 avro 多种开放消息协议供其他系统订阅数据变更。 基本概念 以下这些都是理解 TiCDC 架构之前需要熟悉的基本概念,主要是对 TiDB 内部的一些组件和概念的解释。 TiDB: 下文中提到的 TiDB 主要是指它作为是一个计算层的抽象提供执行 SQL 的能力,没有真实的存储数据。 TiKV: 一个支持 ACID 的键值数据库,它可以作为 TiDB 的存储层。 Region: 它是 TiKV 数据移动的基本单位,可以将它认为是一组键值对集合。每个 Region 被复制到多个 TiKV 节点。 两阶段提交:一种分布式算法,它协调所有参与分布式原子事务的进程,决定是否提交或中止(回滚)该事务。 StartTs: TiDB 在开始两阶段提交时获取到的一个全局唯一递增的时间戳作为当前事务的唯一事务 ID,这里称为该事务的 start_ts。 CommitTs: TiDB 在提交两阶段提交事务时获取到另外一个全局唯一递增的时间戳作为该事务的 commit_ts。 什么是 CDC? CDC 的全称为 Change Data Capture,它是指从源数据库捕获数据并且将其同步到其他数据库或者应用程序的过程。它作为一种很常见的数据集成方式被大量的应用在数据仓库中。当然任何的数据库系统都可以构建自己的 CDC,比如 SQL Server 的 CDC。TiCDC 就是专属于 TiDB 的 CDC,它的上游只能是 TiDB,但是它的下游可以是其他 MySQL 兼容的数据库系统,也可以是消息队列。...

July 11, 2022 · 5 min · Rustin liu

April 13, 2022 · 0 min · Rustin liu