数据平台：数据倾斜以及案例 • 码奋

数据倾斜是指在分布式计算或大数据处理场景中，由于数据分布不均匀，导致某些计算节点处理的数据量远远大于其他节点，进而引发负载不均衡。这种情况会导致系统性能下降，执行时间延长，甚至可能导致系统崩溃或任务失败。

一、数据倾斜的深度分析

1.1 数据倾斜的原因
数据倾斜的产生通常源于以下几个方面：键值分布不均：在分布式处理系统中，数据通常根据某个键进行分区（例如在 MapReduce 或 Spark 中使用 groupByKey、reduceByKey 或 join 操作）。如果某些键值出现的频率极高，而其他键值出现的频率较低，就会导致某些分区包含的数据远远多于其他分区，从而引发数据倾斜。典型场景如：在电商日志中，某些热门商品的点击量或销售量远远大于其他商品。用户行为数据中，某些活跃用户的访问记录远多于普通用户。分区算法不均衡：在分区操作中使用的哈希分区、范围分区等方法，可能未能很好地平衡各个分区的数据量，导致分区之间负载不均。尤其是在哈希分区中，如果大量数据哈希到相同的分区，也会导致倾斜。Join 操作引发的倾斜：在进行 Join 操作时，如果两个表中的某一个表（尤其是较小的表）数据集中在某几个键上，那么在 Join 时会导致某些分区中数据激增，最终引发数据倾斜。典型场景如：用户表和订单表进行 Join 操作时，如果某些用户的订单量特别大，则会造成该用户所在的分区数据量巨大，进而导致倾斜。数据处理操作的热点：某些特定的操作（如去重、求和、排序等）如果对某个大数据集中频繁执行，可能也会造成数据倾斜。例如，在去重操作中，某些值可能大量重复出现，导致某些节点负载过重。1.2 数据倾斜的影响数据倾斜的主要影响表现为：任务执行时间延长：在某些节点负载较重的情况下，其他节点可能已经完成任务并处于空闲状态，但整个任务仍需等待最慢的节点完成，导致整体执行时间延长。资源浪费：由于某些节点需要处理大量数据，可能导致内存溢出、磁盘 I/O 压力增大等问题，进而影响其他任务的执行，造成资源浪费和系统性能下降。任务失败：在极端情况下，数据倾斜会导致某些节点无法承受过大的数据处理压力，最终导致任务失败。

二、典型案例

2.1 MapReduce 中的 WordCount 数据倾斜
在 Hadoop MapReduce 的 WordCount 应用中，假设我们要统计一个大型文本文件中的单词频率。如果某些单词出现的频率特别高（例如“the”、“is”），而其他单词出现的频率较低，则可能会导致部分 Reducer 分区中的数据量过大，导致 Reducer 阶段出现数据倾斜。

public class WordCount {
    public static class TokenizerMapper
            extends Mapper<Object, Text, Text, IntWritable>{

        private final static IntWritable one = new IntWritable(1);
        private Text word = new Text();

        public void map(Object key, Text value, Context context
                        ) throws IOException, InterruptedException {
            StringTokenizer itr = new StringTokenizer(value.toString());
            while (itr.hasMoreTokens()) {
                word.set(itr.nextToken());
                context.write(word, one);
            }
        }
    }

    public static class IntSumReducer
            extends Reducer<Text,IntWritable,Text,IntWritable> {
        private IntWritable result = new IntWritable();

        public void reduce(Text key, Iterable<IntWritable> values,
                           Context context
                           ) throws IOException, InterruptedException {
            int sum = 0;
            for (IntWritable val : values) {
                sum += val.get();
            }
            result.set(sum);
            context.write(key, result);
        }
    }
}

在上面这个 WordCount 案例中，某些高频单词可能会造成特定分区的数据量巨大，导致 Reduce 阶段出现性能瓶颈。2.2 Spark 中的 Join 操作数据倾斜在 Spark 中，Join 操作可能会引发数据倾斜。假设我们有两个数据集，一个是用户行为数据（大数据集），另一个是用户基本信息（小数据集）。如果用户行为数据中某些用户的记录特别多，则可能导致某些分区的数据量极大，最终引发倾斜。

val largeData = sc.textFile("hdfs://path/to/largeData")
val smallData = sc.textFile("hdfs://path/to/smallData")

// largeData: (userId, action)
val largePair = largeData.map(line => (line.split(",")(0), line))

// smallData: (userId, userInfo)
val smallPair = smallData.map(line => (line.split(",")(0), line))

val joined = largePair.join(smallPair)
joined.collect()

在上面的代码中，如果某些 userId 对应的行为记录远多于其他用户，就会导致在 Join 操作中出现数据倾斜。

三、解决数据倾斜的方案

避免倾斜键：
在进行分区或 Join 操作时，尽量避免选择高频出现的键进行分区。例如，可以对高频出现的键进行预处理，将其分布在不同的分区上。调节分区策略：在 Spark 中，可以使用自定义分区器（Partitioner）来更好地控制数据的分布，避免某些分区数据量过大。例如，在 Hash 分区时，可以通过调整 Hash 函数或增加分区数来缓解倾斜。

val partitionedRDD = rdd.partitionBy(new HashPartitioner(100))  // 增加分区数

增加分区数倾斜键的单独处理：对于某些高频出现的键，可以将其单独拿出来处理。例如，在 MapReduce 或 Spark 中，可以在 map 阶段对这些高频键进行单独记录，然后在 reduce 阶段进行单独处理，避免倾斜影响其他数据的处理。

// 针对特殊键（如 userId="12345"）单独处理
val filtered = rdd.filter{ case (userId, data) => userId == "12345" }
// 其他正常键进行分布式处理
val normalProcessing = rdd.filter{ case (userId, data) => userId != "12345" }

采样与数据预处理：通过采样预先估计数据的分布情况，提前处理可能出现倾斜的部分数据，避免在实际处理时发生数据倾斜。对数据集进行预聚合，尤其是在大数据集 Join 时，提前对较小的数据集进行聚合处理，减少后续 Join 时的数据量。使用广播变量（Broadcast）：在 Spark 中，对于较小的表，使用广播变量可以避免大量数据 Shuffle，减轻数据倾斜的影响。

val smallDataBroadcast = sc.broadcast(smallData.collectAsMap())
val joined = largeData.mapPartitions(iter => {
    val smallMap = smallDataBroadcast.value
    iter.map { case (key, value) => (key, (value, smallMap.get(key))) }
})

典型的 Flink 数据倾斜场景

1. 场景：实时日志处理中的用户行为分析
假设我们有一个实时用户行为日志数据流，数据包含 userId、timestamp、action 等字段。我们希望通过 userId 进行聚合，统计每个用户的行为频率。然而，如果某些用户（例如某些高活跃用户或测试用户）产生的行为日志比其他用户多得多，就会导致某些分区收到过量数据，而其他分区处理的数据量很少，最终导致数据倾斜问题，影响整个任务的执行效率。假设我们有如下 Flink 数据处理任务：

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

// 从 Kafka 读取用户行为日志
DataStream<String> rawStream = env.addSource(new FlinkKafkaConsumer<>("user_actions", new SimpleStringSchema(), properties));

// 解析日志，提取 userId 和行为
DataStream<Tuple2<String, String>> parsedStream = rawStream
        .map(line -> {
            String[] parts = line.split(",");
            return new Tuple2<>(parts[0], parts[2]);  // parts[0] 为 userId，parts[2] 为 action
        })
        .returns(Types.TUPLE(Types.STRING, Types.STRING));

// 通过 userId 进行 keyBy 聚合
parsedStream
    .keyBy(0)
    .timeWindow(Time.minutes(1))
    .reduce((value1, value2) -> new Tuple2<>(value1.f0, value1.f1 + "," + value2.f1))
    .print();

env.execute("Flink Data Skew Example");

在这段代码中，我们根据 userId 进行 keyBy 操作，然后在 1 分钟的窗口内对用户行为进行聚合。如果某些用户特别活跃（产生大量的行为日志），这些用户对应的 Task 将收到远超其他 Task 的数据，从而导致某些 Task 负载过重，整个任务的性能下降。

Flink 数据倾斜的解决方法

1. 加盐法（Salting）加盐法是最常用的解决数据倾斜的方式之一。加盐法通过在倾斜键前添加随机的“盐”（即附加的随机值）来打散数据，使得倾斜键的负载分散到不同的 Task 上。最终在 reduce 或 join 操作完成后，再去掉加盐部分。

// 加盐操作
DataStream<Tuple2<String, String>> saltedStream = parsedStream
    .map(value -> {
        int salt = new Random().nextInt(10);  // 随机生成 0-9 之间的数作为“盐”
        return new Tuple2<>(value.f0 + "_" + salt, value.f1);
    })
    .returns(Types.TUPLE(Types.STRING, Types.STRING));

// 通过加盐后的键进行 keyBy 操作
saltedStream
    .keyBy(0)
    .timeWindow(Time.minutes(1))
    .reduce((value1, value2) -> new Tuple2<>(value1.f0, value1.f1 + "," + value2.f1))
    // 在 reduce 完成后去掉加盐部分
    .map(value -> {
        String originalKey = value.f0.split("_")[0];  // 去掉加盐部分
        return new Tuple2<>(originalKey, value.f1);
    })
    .returns(Types.TUPLE(Types.STRING, Types.STRING))
    .print();

通过这种方式，数据根据加盐的键进行分区，从而避免了某些分区的数据量过大问题。

2. 热点数据单独处理对于高频出现的热点数据，可以采用特殊的处理逻辑。将热点数据单独提取出来，进行单独处理，而对其余非热点数据进行常规分布式处理。

// 将热点数据（例如 userId = "1001"）单独处理
DataStream<Tuple2<String, String>> hotKeyStream = parsedStream
    .filter(value -> value.f0.equals("1001"));

// 针对非热点数据进行常规处理
DataStream<Tuple2<String, String>> nonHotKeyStream = parsedStream
    .filter(value -> !value.f0.equals("1001"));

// 针对热点数据使用单独的逻辑进行处理
hotKeyStream
    .keyBy(0)
    .timeWindow(Time.minutes(1))
    .reduce((value1, value2) -> new Tuple2<>(value1.f0, value1.f1 + "," + value2.f1))
    .print("Hot Key Processing");

// 对非热点数据进行常规处理
nonHotKeyStream
    .keyBy(0)
    .timeWindow(Time.minutes(1))
    .reduce((value1, value2) -> new Tuple2<>(value1.f0, value1.f1 + "," + value2.f1))
    .print("Normal Key Processing");

这种方法通过将热点数据独立出来，避免了它们和普通数据混合处理时引发的倾斜问题。

3. 使用 Flink 的 GlobalWindow 和 Broadcast对于小型数据集或维度表（例如用户信息），可以使用 Flink 的 Broadcast 操作，将小数据集广播到每个 Task 上，避免因为 Join 操作导致的数据倾斜。

// 定义广播状态描述符
MapStateDescriptor<String, String> userInfoBroadcastState = new MapStateDescriptor<>(
    "userInfoBroadcastState",
    Types.STRING,
    Types.STRING
);

// 将用户信息广播到每个 Task
DataStream<String> userInfoStream = env.addSource(new FlinkKafkaConsumer<>("user_info", new SimpleStringSchema(), properties));
userInfoStream.broadcast(userInfoBroadcastState);

// 在处理数据流时使用广播变量
parsedStream
    .keyBy(0)
    .connect(userInfoStream.broadcast(userInfoBroadcastState))
    .process(new KeyedBroadcastProcessFunction<String, Tuple2<String, String>, String, Tuple2<String, String>>() {
        @Override
        public void processElement(Tuple2<String, String> value, ReadOnlyContext ctx, Collector<Tuple2<String, String>> out) throws Exception {
            // 从广播状态中获取用户信息
            ReadOnlyBroadcastState<String, String> broadcastState = ctx.getBroadcastState(userInfoBroadcastState);
            String userInfo = broadcastState.get(value.f0);
            out.collect(new Tuple2<>(value.f0, value.f1 + " | " + userInfo));
        }

        @Override
        public void processBroadcastElement(String value, Context ctx, Collector<Tuple2<String, String>> out) throws Exception {
            // 更新广播状态
            String[] parts = value.split(",");
            ctx.getBroadcastState(userInfoBroadcastState).put(parts[0], parts[1]);
        }
    })
    .print();