东南亚“美团” Grab 的搜索索引优化之法

原創

2021-11-23 11:18

{"type":"doc","content":[{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"Grab 是一家总部位于新加坡的东南亚网约车和送餐平台公司，业务遍及东南亚大部分地区，为 8 个国家的 350 多座城市的 1.87 亿多用户提供服务。Grab 当前提供包括网约车、送餐、酒店预订、网上银行、移动支付和保险服务。是东南亚的“美团”。Grab Engineering 分享了他们对搜索索引进行优化的方法与心得，InfoQ 中文站翻译并分享。"}]}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"当今的应用程序通常使用各种数据库引擎，每个引擎服务于特定的需求。对于 Grab Deliveries，MySQL 数据库是用来存储典型数据格式的，而 "},{"type":"link","attrs":{"href":"https:\/\/www.elastic.co\/cn\/elasticsearch\/","title":"xxx","type":null},"content":[{"type":"text","text":"Elasticsearch"}]},{"type":"text","text":" 则提供高级搜索功能。"},{"type":"link","attrs":{"href":"https:\/\/www.mysql.com\/cn\/","title":"xxx","type":null},"content":[{"type":"text","text":"MySQL"}]},{"type":"text","text":" 是原始数据的主要数据存储，而 Elasticsearch 是派生存储。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https:\/\/static001.geekbang.org\/infoq\/5d\/5d974393168c21c57d3788426371066e.jpeg","alt":"image.png","title":"","style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":"center","origin":null},"content":[{"type":"text","marks":[{"type":"italic"}],"text":"搜索数据流"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"对于 MySQL 和 Elasticsearch 之间的数据同步进行了很多工作。本文介绍了如何优化增量搜索数据索引的一系列技术。"}]},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"背景"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"从主数据存储到派生数据存储的数据同步是由数据同步平台（Data Synchronisation Platform，DSP）Food-Puxian 处理的。就搜索服务而言，它是 MySQL 和 Elasticsearch 之间的数据同步。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"当 MySQL 的每一次实时数据更新时触发数据同步过程，它将向 Kafka 传递更新的数据。数据同步平台使用 Kafka 流列表，并在 Elasticsearch 中增量更新相应的搜索索引。此过程也称为增量同步。"}]},{"type":"heading","attrs":{"align":null,"level":3},"content":[{"type":"text","text":"Kafka 到数据同步平台"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"利用 "},{"type":"link","attrs":{"href":"https:\/\/kafka.apache.org\/","title":"xxx","type":null},"content":[{"type":"text","text":"Kafka"}]},{"type":"text","text":" 流，数据同步平台实现增量同步。“流”是一种没有边界的、持续更新的数据集，它是有序的、可重放的和容错的。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https:\/\/static001.geekbang.org\/infoq\/a5\/a5e613806a14b7b8a6b1f1c144ddc8e7.jpeg","alt":"image.png","title":"","style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":"center","origin":null},"content":[{"type":"text","marks":[{"type":"italic"}],"text":"利用 Kafaka 的数据同步过程"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"上图描述了使用 Kafka 进行数据同步的过程。数据生产器为 MySQL 上的每一个操作创建一个 Kafka 流，并实时将其发送到 Kafka。数据同步平台为每个 Kafka 流创建一个流消费器，消费器从各自的 Kafka 流中读取数据更新，并将其同步到 Elasticsearch。"}]},{"type":"heading","attrs":{"align":null,"level":3},"content":[{"type":"text","text":"MySQL 到 Elasticsearch"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"Elasticsearch 中的索引与 MySQL 表对应。MySQL 的数据存储在表中，而 Elasticsearch 的数据则存储在索引中。多个 MySQL 表被连接起来，形成一个 Elasticsearch 索引。以下代码段展示了 MySQL 和 Elasticsearch 中的实体-关系映射。实体 A 与实体 B 有一对多的关系。实体 A 在 MySQL 中有多个相关的表，即表 A1 和 A2，它们被连接成一个 Elasticsearch 索引 A。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https:\/\/static001.geekbang.org\/infoq\/b2\/b23f6714e77966e5aa40e28880bcc605.jpeg","alt":"image.png","title":"","style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":"center","origin":null},"content":[{"type":"text","marks":[{"type":"italic"}],"text":"MySQL 和 Elasticsearch 中的 ER 映射"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"有时，一个搜索索引同时包含实体 A 和实体 B。对于该索引的关键字搜索查询，例如“Burger”，实体 A 和实体 B 中名称包含“Burger”的对象都会在搜索响应中返回。"}]},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"原始增量同步"}]},{"type":"heading","attrs":{"align":null,"level":3},"content":[{"type":"text","text":"原始 Kafaka 流"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"在上面所示的 ER 图中，数据生产器为每个 MySQL 表都会创建一个 Kafaka 流。每当 MySQL 发生插入、更新或删除操作时，执行操作之后的数据副本会被发送到其 Kafka 流中。对于每个 Kafaka 流，数据同步平台都会创建不同的流消费器（Stream Consumer），因为它们具有不同的数据结构。"}]},{"type":"heading","attrs":{"align":null,"level":3},"content":[{"type":"text","text":"流消费器基础设施"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"流消费器由 3 个组件组成。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"bulletedlist","content":[{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"事件调度器"},{"type":"text","text":"（Event Dispatcher）：监听并从 Kafka 流中获取事件，将它们推送到事件缓冲区，并启动一个 goroutine，在事件缓冲区中为不存在 ID 的每个事件运行事件处理器。"}]}]},{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"事件缓冲区"},{"type":"text","text":"（Event Buffer）：事件通过主键（aID、bID 等）缓存在内存中。一个事件被缓存在缓冲区中，直到它被一个 goroutine 选中，或者当一个具有相同主键的新事件被推入缓冲区时被替换。"}]}]},{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"事件处理器"},{"type":"text","text":"（Event Handler）：从事件缓冲区中读取事件，由事件调度器启动的 goroutine 会对其进行处理。"}]}]}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https:\/\/static001.geekbang.org\/infoq\/27\/272440b43b383473137153c54b80793e.jpeg","alt":"image.png","title":"","style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":"center","origin":null},"content":[{"type":"text","marks":[{"type":"italic"}],"text":"流消费器基础设施"}]},{"type":"heading","attrs":{"align":null,"level":3},"content":[{"type":"text","text":"事件缓冲区过程"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"事件缓冲区由许多子缓冲区组成，每个子缓冲区具有一个唯一的 ID，该 ID 是缓冲区中事件的主键。一个子缓冲区的最大尺寸为 1。这样，事件缓冲区就可以重复处理缓冲区中具有相同 ID 的事件。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"下图展示了将事件推送到事件缓冲区的过程。在将新事件推送到缓冲区时，将替换共享相同 ID 的旧事件。结果，被替换的事件不会被处理。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https:\/\/static001.geekbang.org\/infoq\/28\/28e55e09374d8afb4d3bc99a04cd0286.jpeg","alt":"image.png","title":"","style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":"center","origin":null},"content":[{"type":"text","marks":[{"type":"italic"}],"text":"将事件推送到事件缓冲区"}]},{"type":"heading","attrs":{"align":null,"level":3},"content":[{"type":"text","text":"事件处理器过程"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"下面的流程图显示了由事件处理器执行的程序。其中包括公共处理器流程（白色），以及针对对象 B 事件的附加过程（绿色）。当通过从数据库中加载的数据创建一个新的 Elasticsearch 文档时，它会从 Elasticsearch 获取原始文档，比较是否有更改字段，并决定是否需要向 Elasticsearch 发送新文档。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"在处理对象 B 事件时，它还根据公共处理器级联更新到 Elasticsearch 索引中的相关对象 A。我们将这种操作命名为“级联更新”（Cascade Update）。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https:\/\/static001.geekbang.org\/infoq\/56\/564e4df311ee29a1bffe25b787d9982a.jpeg","alt":"image.png","title":"","style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":"center","origin":null},"content":[{"type":"text","marks":[{"type":"italic"}],"text":"事件处理器执行的过程"}]},{"type":"heading","attrs":{"align":null,"level":3},"content":[{"type":"text","text":"原始基础设施存在的问题"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"Elasticsearch 索引中的数据可以来自多个 MySQL 表，如下所示。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https:\/\/static001.geekbang.org\/infoq\/dc\/dc0944e9b985df30ab1698312c2ff83e.jpeg","alt":"image.png","title":"","style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":"center","origin":null},"content":[{"type":"text","marks":[{"type":"italic"}],"text":"Elasticsearch 索引中的数据"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"原始基础设施存在一些问题。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"bulletedlist","content":[{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"繁重的数据库负载"},{"type":"text","text":"：消费器从 Kafka 流中读取数据，将流事件视为通知，然后使用 ID 从数据库中加载数据，创建新的 Elasticsearch 文档。流事件中的数据并没有得到很好的利用。每次从数据库加载数据，然后创建新的 Elasticsearch 文档，都会导致大量的数据库流量。数据库成为一个瓶颈。"}]}]},{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"数据丢失"},{"type":"text","text":"：生产器在应用程序代码中向 Kafka 发送数据副本。通过 MySQL 命令行工具（command-line tool，CLT）或其他数据库管理工具进行的数据更改会丢失。"}]}]},{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"与 MySQL 表结构的紧密耦合"},{"type":"text","text":"：如果生产器在 MySQL 中的现有表中添加了一个新的列，并且这个列需要同步到 Elasticsearch，那么数据同步平台就无法捕捉到这个列的数据变化，直到生产器进行代码修改并将这个列添加到相关的 Kafka 流中。"}]}]},{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"冗余的 Elasticsearch 更新"},{"type":"text","text":"：Elasticsearch 数据是 MySQL 数据的一个子集。生产器将数据发布到 Kafka 流中，即使对与 Elasticsearch 无关的字段进行了修改。这些与 Elasticsearch 无关的流事件仍会被拾取。"}]}]},{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"重复的级联更新"},{"type":"text","text":"：考虑一种情况，即搜索索引同时包含对象 A 和对象 B，在很短的时间内对对象 B 产生大量的更新。所有的更新将被级联到同时包含对象 A 和 B 的索引，这会为数据库带来大量流量。"}]}]}]},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"优化增量同步"}]},{"type":"heading","attrs":{"align":null,"level":3},"content":[{"type":"text","text":"MySQL 二进制日志"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"MySQL 二进制日志（Binlog）是一组日志文件，其中包含对 MySQL 服务器实例进行的数据修改信息。它包含所有更新数据的语句。二进制日志有两种类型。"}]},{"type":"bulletedlist","content":[{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"基于语句的日志记录"},{"type":"text","text":"：事件包含产生数据更改（插入、更新、删除）的 SQL 语句。"}]}]},{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"基于行的日志记录"},{"type":"text","text":"：事件描述了单个行的更改。"}]}]}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"Grab Caspian 团队（Data Tech）构建了一个基于 MySQL 基于行的二进制日志的变更数据捕获（Change Data Capture，CDC）系统。它能够捕获所有 MySQL 表的所有数据修改。"}]},{"type":"heading","attrs":{"align":null,"level":3},"content":[{"type":"text","text":"当前 Kafaka 流"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"二进制日志流事件定义是一种普通的数据结构，包含三个主要字段：Operation、PayloadBefore 和 PayloadAfter。Operation 的枚举是创建、删除和更新。Payload 是 JSON 字符串格式的数据。所有二进制日志流都遵循相同的流事件定义。利用二进制日志事件中的 PayloadBefore 和 PayloadAfter，在数据同步平台上对增量同步进行优化成为可能。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https:\/\/static001.geekbang.org\/infoq\/f7\/f78e6300e7c6e7aa65700158baf7acc4.jpeg","alt":"image.png","title":"","style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":"center","origin":null},"content":[{"type":"text","marks":[{"type":"italic"}],"text":"二进制日志流事件主要字段"}]},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"流消费器优化"}]},{"type":"heading","attrs":{"align":null,"level":3},"content":[{"type":"text","text":"事件处理器优化"}]},{"type":"heading","attrs":{"align":null,"level":4},"content":[{"type":"text","text":"优化 1"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"请记住，上面提到过 Elasticsearch 存在冗余更新问题，Elasticsearch 数据是 MySQL 数据的一个子集。第一个优化是通过检查 PayloadBefore 和 PayloadAfter 之间的不同字段是否位于 Elasticsearch 数据子集中，从而过滤掉无关的流事件。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"二进制日志事件中的 Payload 是 JSON 字符串，所以定义了一个数据结构来解析 PayloadBefore 和 PayloadAfter，其中仅包含 Elasticsearch 数据中存在的字段。对比解析后的 Payload，我们很容易知道这个更改是否与 Elasticsearch 相关。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"下图显示了经过优化的事件处理器流。从蓝色流程可以看出，在处理事件时，首先对 PayloadBefore 和 PayloadAfter 进行比较。仅在 PayloadBefore 和 PayloadAfter 之间存在差异时，才处理该事件。因为无关的事件已经被过滤掉，所以没有必要从 Elasticsearch 中获取原始文件。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https:\/\/static001.geekbang.org\/infoq\/68\/683c13f3814f10cf672a6c344351f0eb.jpeg","alt":"image.png","title":"","style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":"center","origin":null},"content":[{"type":"text","marks":[{"type":"italic"}],"text":"事件处理器优化 1"}]},{"type":"heading","attrs":{"align":null,"level":4},"content":[{"type":"text","text":"成效"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"bulletedlist","content":[{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"没有数据丢失。使用 MySQL CLT 或其他数据库管理工具进行的更改可以被捕获。"}]}]},{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"对 MySQL 表的定义没有依赖性。所有的数据都是 JSON 字符串格式。"}]}]},{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"不存在多余的 Elasticsearch 更新和数据库读取。"}]}]},{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"Elasticsearch 读取流量减少 90%。"}]}]},{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"不再需要从 Elasticsearch 获取原始文档与新创建的文档进行比较。"}]}]},{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"过滤掉 55% 的不相关流事件。"}]}]},{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"数据库负载降低 55%。"}]}]}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https:\/\/static001.geekbang.org\/infoq\/3c\/3c07936e677314368d8ee637ce02d0d6.jpeg","alt":"image.png","title":"","style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":"center","origin":null},"content":[{"type":"text","marks":[{"type":"italic"}],"text":"针对优化 1 的 Elasticsearch 事件更新"}]},{"type":"heading","attrs":{"align":null,"level":4},"content":[{"type":"text","text":"优化 2"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"事件中的 PayloadAfter 提供了更新的数据。因此，我们开始思考是否需要一种全新的从多个 MySQL 表读取的 Elasticsearch 文档。第二个优化是利用二进制日志事件的数据差异，改为部分更新。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"下图展示了部分更新的事件处理程序流程。如红色流所示，没有为每个事件创建一个新的 Elasticsearch 文档，而是首先检查该文档是否存在。加入文档存在（大部分时间都存在），则在此事件中更改数据，只要 PayloadBefore 和 PayloadAfter 之间的比较就会更新到现有的 Elasticsearch 文档。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https:\/\/static001.geekbang.org\/infoq\/76\/76e06a1ba69db8eecaa5920c60c8f3e4.jpeg","alt":"image.png","title":"","style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":"center","origin":null},"content":[{"type":"text","marks":[{"type":"italic"}],"text":"事件处理器优化 2"}]},{"type":"heading","attrs":{"align":null,"level":4},"content":[{"type":"text","text":"成效"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"bulletedlist","content":[{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"将大部分 Elasticsearch 相关事件更改为部分更新：使用流事件中的数据来更新 Elasticsearch。"}]}]},{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"Elasticsearch 负载减少：只将 Elasticsearch 发送修改的字段。"}]}]},{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"数据库负载减少：基于优化 1，数据库负载减少 80%。"}]}]}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https:\/\/static001.geekbang.org\/infoq\/e1\/e1936030d5bd99806ccb77fec83794b1.jpeg","alt":"image.png","title":"","style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"heading","attrs":{"align":null,"level":3},"content":[{"type":"text","text":"事件缓冲区优化"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"在把新事件推送到事件缓冲区的时候，我们不会替换旧事件，而会把新事件和旧事件合并。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"事件缓冲区中每个子缓冲区的尺寸为 1。在这种优化中，流事件不再被视为通知。我们使用事件中的 Payload 来执行部分更新。替换旧事件的旧过程已经不再适用于二进制日志流。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"当事件调度器将一个新的事件推送到事件缓冲区的一个非空的子缓冲区时，它会将把子缓冲区中的事件 A 和新的事件 B 合并成一个新的二进制日志事件 C，其 PayloadBefore 来自事件 A，而 PayloadAfter 来自事件 B。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https:\/\/static001.geekbang.org\/infoq\/5e\/5ed4b00b88bcb2e5ca87befef3a06db0.jpeg","alt":"image.png","title":"","style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":"center","origin":null},"content":[{"type":"text","marks":[{"type":"italic"}],"text":"合并事件缓冲区优化的操作"}]},{"type":"heading","attrs":{"align":null,"level":3},"content":[{"type":"text","text":"级联更新优化"}]},{"type":"heading","attrs":{"align":null,"level":4},"content":[{"type":"text","text":"优化"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"我们使用一个新的流来处理级联更新事件。当生产器发送数据到 Kafka 流时，共享相同 ID 的数据将被存储在同一个分区上。每一个数据同步平台服务实例只有一个流消费器。在消费器消费 Kafaka 流时，一个分区仅由一个消费器消费。因此，共享相同 ID 的级联更新事件将由同一个 EC2 实例上的一个流消费器所消费。有了这种特殊的机制，内存中的事件缓冲区能够重复使用大部分共享相同 ID 的级联更新事件。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"以下流程图展示了优化后的事件处理程序。绿色显示的是原始流，而紫色显示的是当前流，带有级联更新事件。在处理对象 B 的事件时，事件处理器不会直接级联更新相关对象 A，而是发送一个级联更新事件到新的流。这个新流的消费器将处理级联更新事件，并将对象 A 的数据同步到 Elasticsearch 中。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https:\/\/static001.geekbang.org\/infoq\/05\/053a90ee06a9ccda5bfa3fa0cc5721fb.jpeg","alt":"image.png","title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":"center","origin":null},"content":[{"type":"text","marks":[{"type":"italic"}],"text":"带有级联更新的事件处理器"}]},{"type":"heading","attrs":{"align":null,"level":4},"content":[{"type":"text","text":"成效"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"bulletedlist","content":[{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"级联更新事件消除了 80% 的重复数据。"}]}]},{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"级联更新引入的数据库负载减少。"}]}]}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https:\/\/static001.geekbang.org\/infoq\/d2\/d2895a86d50960d5f4d48e1226fbebf6.jpeg","alt":"image.png","title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":"center","origin":null},"content":[{"type":"text","marks":[{"type":"italic"}],"text":"级联更新事件"}]},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"总结"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"本文介绍了四种不同的数据同步平台优化方法。在改用 Coban 团队提供的 MySQL 二进制日志流并对流消费器进行优化后，数据同步平台节省了约 91% 的数据库读取和 90% 的 Elasticsearch 读取，流消费器处理的流流量的平均查询次数（Queries Per Second，QPS）从 200 次增加到 800 次。高峰时段的平均查询次数最大可达到 1000 次以上。随着平均查询次数的提高，处理数据的时间和从 MySQL 到 Elasticsearch 的数据同步的延迟都有所减少。经过优化，数据同步平台的数据同步能力得到显著的提高。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"原文链接："}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"link","attrs":{"href":"https:\/\/engineering.grab.com\/search-indexing-optimisation","title":null,"type":null},"content":[{"type":"text","text":"https:\/\/engineering.grab.com\/search-indexing-optimisation"}]}]}]}

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

飞天发布时刻｜阿里云可观测全速演进

在數字化轉型的浪潮中，雲計算的深化應用不斷推動着技術邊界的擴展，而可觀測性作爲確保系統穩定運行與高效迭代的關鍵支撐，正逐漸成爲現代雲原生架構不可或缺的一部分。5 月 22 日 10:00，阿里雲飛天發佈時刻，阿里雲應用實時監控服務 ARMS

2024-05-24 21:13:46

基于 Prometheus 的超算弹性计算场景下主机监控最佳实践

作者：左知超算場景的業務特點主機監控，或許是監控/可觀測領域最傳統和普遍的需求。在超算訓練，AI 大規模訓練的業務場景下，主機監控又有哪些痛點和難點呢？根據我們針對多個大規模超算客戶的需求整理，超算場景的特點主要集中在如下幾個方面：大

2024-05-23 21:13:47

站在岸上学不会游泳 | 算法校招生的高效成长总结

在這個由數據編織、由算法驅動的時代，AI大模型正成爲推動社會進步的重要力量。我們不僅是變革的見證者，更是推動者和塑造者。感謝零售UP技術人欄目的邀請，本文藉此機會回顧一下自己的算法之路上的一些故事和思考，希望能帶給讀者一些幫助。介紹自

2024-05-22 11:56:42

共创数字经济新生态，华为云生态领航者·AI先遣队圆满落幕

5月9-11日，華爲雲生態“領航者·AI先遣隊”課程班在杭州成功舉辦，本次課程聚焦於AI前沿探索與實踐的高端研修，匯聚了來自華爲雲生態夥伴企業的高層決策者，共同開啓了一場關於智慧升級與生態共建的深度對話。華爲雲生態領航者·AI先

2024-05-16 10:58:48

好劲！Zabbix Meetup广州站精彩回顾

Zabbix Meetup 廣州站精彩回顧 4月27日，Zabbix城市行再次來到廣州，於未來社區成功舉辦。天氣不佳但熱情依舊，這場盛會集合了講師們的經驗心得、案例分享，5

2024-05-24 22:34:06

分布式任务调度内的 MySQL 分页查询优化

作者：vivo 互聯網數據庫團隊- Qiu Xinbo 本文主要通過圖示介紹了用主鍵進行分片查詢的過程，介紹了主鍵分頁查詢存在SQL性能問題，如何去創建高效的索引去優化主鍵分頁查詢的SQL性能問題對於數據分佈不均

2024-05-24 12:09:18

构建无服务器数仓（三）EMR Serverless 操作要点、优化以及开放集成测试

引言在數據驅動的世界中，企業正在尋求可靠且高性能的解決方案來管理其不斷增長的數據需求。本系列博客從一個重視數據安全和合規性的 B2C 金融科技客戶的角度來討論雲上雲下混合部署的情況下如何利用亞馬遜雲科技雲原生服務、開源社區產品以及第三方工

2024-05-23 21:22:10

风控指南：国内车险欺诈呈现四大趋势

2024年4月11日，國家金融監督管理總局官網發佈國家金融監督管理總局關於《反保險欺詐工作辦法（徵求意見稿）》公開徵求意見的公告。《徵求意見》共6章、37條，明確反保險欺詐工作目標是建立“監管引領、機構爲主、行業聯防、各方協同”四位一體的

2024-05-23 12:16:45

KubeEdge v1.17.0发布！数据处理能力与易用性全面提升

本文分享自華爲雲社區《KubeEdge v1.17.0發佈！數據處理能力與易用性全面提升》，作者：雲容器大未來。 KubeEdge社區v1.17.0 版本正式發佈。新版本爲邊緣節點和設備帶來了更多的新能力，同時持續在易用性上

2024-05-23 10:58:31

Gen AI 连接非结构化数据，Unstructured Data Meetup 第二场官宣杭州！

定了！6 月 15 日，備受硅谷開發者喜愛的 Unstructured Data Meetup 第二場將在杭州舉辦！衆所周知，AI 三要素包括：算力、算法和數據。數據的價值愈發凸顯，而其中非結構化數據更是備受關注。IDC 預測，到 202

2024-05-20 21:25:07

白鲸开源CEO郭炜在2024 DataOps发展大会上获聘专家

2024年5月15日，白鯨開源CEO郭煒在2024 DataOps發展大會上被正式聘任爲DataOps專家，並獲得了榮譽證書。本次大會由中國通信標準化協會主辦，中關村科學城管委會提供支持，大數據技術標準推進委員會（CCSATC601）承辦，

2024-05-16 11:28:50

网络爬虫安全：90后小伙，用软件非法搬运他人原创视频被判刑

央視《今日說法》欄目近日報道了一名程序員開發非法視頻搬運軟件獲利超700多萬，最終獲刑的案例。國內某知名短視頻平臺報警稱，有人在網絡上售賣一款視頻搬運軟件，使用軟件的人可以繞過平臺的審覈機制，一鍵“搬運”竊取他人作品非法轉載投稿。警方調查

2024-05-16 00:19:26

探索未知：风靡硅谷开发者的 Unstructured Data Meetup 即将登陆中国

“最硅谷”的 Unstructured Data Meetup 即將來襲！衆所周知，AI 三要素包括：算力、算法和數據。數據的價值愈發凸顯，而其中非結構化數據更是備受關注。IDC 預測，到 2025 年，全球數據總量中將有超過

2024-05-15 21:26:01

企业大模型如何成为自己数据的“百科全书”？

作者 | 郭煒編輯 | Debra Chen 在當今的商業環境中，大數據的管理和應用已經成爲企業決策和運營的核心組成部分。然而，隨着數據量的爆炸性增長，如何有效利用這些數據成爲了一個普遍的挑戰。本文將探討大數據架構、大模型的集成，以及如

2024-05-15 21:22:50

如何使用低代码快速创建一个复杂交叉报表？

前言在當今數字化時代，數據是企業決策和發展的重要支柱。爲了更好地理解和利用數據，生成清晰、全面的報表至關重要。而複雜交叉報表作爲一種高級數據分析工具，能夠幫助企業深入挖掘數據背後的價值，提供全面的數據概覽和分析結果。然而，傳統創建複雜交

2024-05-15 10:46:57

24小時熱門文章

Python 潮流周刊#52：Python 处理 Excel 的资源

最新文章

東南亞“美團” Grab 的搜索索引優化之法

最新評論文章