数据平台：SuperSQL算子下推 • 码奋

1.SuperSQL的算子下推

SuperSQL的算子下推可以通俗理解为：让计算任务尽量贴近数据存储的位置执行，而不是把所有数据都“搬”到计算引擎处理后再操作。就像“让厨师直接在菜市场处理食材，而不是把菜全运到厨房再切菜”。这样做的好处是减少数据搬运量，从而提升效率。

具体来说，假设你需要对分散在不同数据库（比如MySQL和Hive）的数据做联合分析，传统做法可能需要将两个数据库的数据全部拉取到计算引擎（比如Spark）的内存中，再进行过滤、聚合等操作。这会导致大量数据传输和资源消耗。而SuperSQL的算子下推则是：

“就地处理”

例如，如果查询需要先对MySQL中的数据进行过滤（WHERE条件），SuperSQL会直接让MySQL自己完成过滤，只把过滤后的少量结果传给计算引擎，而不是拉取全部原始数据。这就像让MySQL自己先筛掉不需要的“杂质”。

“能干的活让本地干”

不同数据库擅长不同的操作（比如ClickHouse擅长聚合，MySQL擅长事务处理）。SuperSQL会检查数据源是否支持当前操作（如函数、聚合等），如果支持就直接让数据源执行。例如，一个包含SUM计算的查询，可能让ClickHouse先完成聚合，再传结果给SuperSQL汇总。

“避免无效搬运”

假设一个查询需要对Hive中的100GB数据做筛选，传统方式可能需要将这100GB全拉到计算引擎，而算子下推后，Hive自己完成筛选，可能只返回1GB的有效数据，传输量减少99%

2.基础SQL算子

投影（Project）

支持列筛选和下推，例如SELECT语句中的字段选择。

过滤（Filter）

WHERE条件过滤操作，下推到数据源执行以减少数据传输量。

聚合函数（Aggregate）

如SUM、COUNT、AVG等，若数据源支持则直接下推。

排序（Sort）

ORDER BY语句的排序操作，部分数据源（如MySQL）支持排序下推。

Limit/Offset（Top N）

分页查询中的LIMIT和OFFSET，例如SELECT … LIMIT 10。

3.集合操作&复杂操作与函数

Union/Intersect/Except

支持集合的并集、交集、差集操作，可下推到兼容的数据源执行。

连接（Join）

包括内连接、外连接等，部分场景下支持跨数据源的Join下推。

系统标量函数

如字符串函数（CONCAT）、数学函数（ROUND）等，根据数据源兼容性下推。

用户自定义函数（UDF）

支持UDF下推，需校验数据源是否支持对应函数逻辑。

嵌套查询（Nested Query）

子查询（如IN (SELECT …)）可下推，减少中间结果集。

4.数据源专有函数&非JDBC数据源支持&其他扩展功能

数据源特有函数

例如MySQL的CONCAT_WS、ClickHouse的特定聚合函数等，需校验后下推。

SuperSQL通过扩展适配器支持多种非JDBC数据源，例如：

HBase

通过Phoenix驱动对接，支持HBase表查询。

ElasticSearch

支持全文检索和聚合操作下推。

HDFS/ORC格式表

通过Hive元数据管理实现查询优化。

跨数据中心（DC）计算

结合网络传输成本优化，拆分查询到不同DC执行。

分布式Shuffle任务

支持大规模数据混洗任务的自适应优化

5.场景举例

场景描述

某电商公司需要分析“高价值用户”的购买行为，数据分散在多个系统中：

MySQL：存储用户基本信息（用户ID、手机号、注册时间），需脱敏手机号。

Hive：存储订单数据（订单ID、用户ID、商品ID、金额、时间）。

ElasticSearch：存储用户行为日志（用户ID、搜索关键词、点击时间）。

需求：查询最近1个月购买金额超过5000元，且搜索过“手机”关键词的用户，按总消费金额降序Top 10，并隐藏手机号中间四位

-- 启用安全脱敏规则（手机号掩码）
SET sql.security.mask_phone = TRUE;

-- 联邦查询：跨MySQL、Hive、ElasticSearch联合分析
SELECT 
  u.user_id,
  MASK_PHONE(u.phone) AS masked_phone,  -- 脱敏手机号（算子下推到MySQL执行）
  SUM(o.amount) AS total_amount,        -- 聚合下推到Hive完成
  COUNT(e.keyword) AS search_count      -- ElasticSearch统计搜索次数
FROM 
  mysql.user_db.users AS u              -- MySQL用户表（含脱敏逻辑）
JOIN 
  hive.orders.order_fact AS o           -- Hive订单表
  ON u.user_id = o.user_id
JOIN 
  es.logs.user_behavior AS e            -- ES用户行为日志
  ON u.user_id = e.user_id
WHERE 
  o.order_time >= DATE_SUB(CURRENT_DATE(), 30)  -- Hive过滤最近30天订单（下推）
  AND e.keyword = '手机'                        -- ES过滤关键词（下推全文检索）
  AND e.click_time >= DATE_SUB(CURRENT_DATE(), 30) 
GROUP BY 
  u.user_id, u.phone
HAVING 
  SUM(o.amount) > 5000                   -- Hive本地聚合后二次过滤
ORDER BY 
  total_amount DESC
LIMIT 10;                                -- 最终排序取Top 10