数据平台:数据倾斜以及案例
数据平台:数据倾斜以及案例

数据平台:数据倾斜以及案例

数据倾斜是指在分布式计算或大数据处理场景中,由于数据分布不均匀,导致某些计算节点处理的数据量远远大于其他节点,进而引发负载不均衡。这种情况会导致系统性能下降,执行时间延长,甚至可能导致系统崩溃或任务失败。

一、数据倾斜的深度分析

1.1 数据倾斜的原因
数据倾斜的产生通常源于以下几个方面:键值分布不均:在分布式处理系统中,数据通常根据某个键进行分区(例如在 MapReduce 或 Spark 中使用 groupByKey、reduceByKey 或 join 操作)。如果某些键值出现的频率极高,而其他键值出现的频率较低,就会导致某些分区包含的数据远远多于其他分区,从而引发数据倾斜。典型场景如:在电商日志中,某些热门商品的点击量或销售量远远大于其他商品。用户行为数据中,某些活跃用户的访问记录远多于普通用户。分区算法不均衡:在分区操作中使用的哈希分区、范围分区等方法,可能未能很好地平衡各个分区的数据量,导致分区之间负载不均。尤其是在哈希分区中,如果大量数据哈希到相同的分区,也会导致倾斜。Join 操作引发的倾斜:在进行 Join 操作时,如果两个表中的某一个表(尤其是较小的表)数据集中在某几个键上,那么在 Join 时会导致某些分区中数据激增,最终引发数据倾斜。典型场景如:用户表和订单表进行 Join 操作时,如果某些用户的订单量特别大,则会造成该用户所在的分区数据量巨大,进而导致倾斜。数据处理操作的热点:某些特定的操作(如去重、求和、排序等)如果对某个大数据集中频繁执行,可能也会造成数据倾斜。例如,在去重操作中,某些值可能大量重复出现,导致某些节点负载过重。1.2 数据倾斜的影响数据倾斜的主要影响表现为:任务执行时间延长:在某些节点负载较重的情况下,其他节点可能已经完成任务并处于空闲状态,但整个任务仍需等待最慢的节点完成,导致整体执行时间延长。资源浪费:由于某些节点需要处理大量数据,可能导致内存溢出、磁盘 I/O 压力增大等问题,进而影响其他任务的执行,造成资源浪费和系统性能下降。任务失败:在极端情况下,数据倾斜会导致某些节点无法承受过大的数据处理压力,最终导致任务失败。

二、典型案例

2.1 MapReduce 中的 WordCount 数据倾斜
在 Hadoop MapReduce 的 WordCount 应用中,假设我们要统计一个大型文本文件中的单词频率。如果某些单词出现的频率特别高(例如“the”、“is”),而其他单词出现的频率较低,则可能会导致部分 Reducer 分区中的数据量过大,导致 Reducer 阶段出现数据倾斜。

public class WordCount {
    public static class TokenizerMapper
            extends Mapper<Object, Text, Text, IntWritable>{

        private final static IntWritable one = new IntWritable(1);
        private Text word = new Text();

        public void map(Object key, Text value, Context context
                        ) throws IOException, InterruptedException {
            StringTokenizer itr = new StringTokenizer(value.toString());
            while (itr.hasMoreTokens()) {
                word.set(itr.nextToken());
                context.write(word, one);
            }
        }
    }

    public static class IntSumReducer
            extends Reducer<Text,IntWritable,Text,IntWritable> {
        private IntWritable result = new IntWritable();

        public void reduce(Text key, Iterable<IntWritable> values,
                           Context context
                           ) throws IOException, InterruptedException {
            int sum = 0;
            for (IntWritable val : values) {
                sum += val.get();
            }
            result.set(sum);
            context.write(key, result);
        }
    }
}

在上面这个 WordCount 案例中,某些高频单词可能会造成特定分区的数据量巨大,导致 Reduce 阶段出现性能瓶颈。2.2 Spark 中的 Join 操作数据倾斜在 Spark 中,Join 操作可能会引发数据倾斜。假设我们有两个数据集,一个是用户行为数据(大数据集),另一个是用户基本信息(小数据集)。如果用户行为数据中某些用户的记录特别多,则可能导致某些分区的数据量极大,最终引发倾斜。

val largeData = sc.textFile("hdfs://path/to/largeData")
val smallData = sc.textFile("hdfs://path/to/smallData")

// largeData: (userId, action)
val largePair = largeData.map(line => (line.split(",")(0), line))

// smallData: (userId, userInfo)
val smallPair = smallData.map(line => (line.split(",")(0), line))

val joined = largePair.join(smallPair)
joined.collect()

在上面的代码中,如果某些 userId 对应的行为记录远多于其他用户,就会导致在 Join 操作中出现数据倾斜。

三、解决数据倾斜的方案

避免倾斜键:
在进行分区或 Join 操作时,尽量避免选择高频出现的键进行分区。例如,可以对高频出现的键进行预处理,将其分布在不同的分区上。调节分区策略:在 Spark 中,可以使用自定义分区器(Partitioner)来更好地控制数据的分布,避免某些分区数据量过大。例如,在 Hash 分区时,可以通过调整 Hash 函数或增加分区数来缓解倾斜。

val partitionedRDD = rdd.partitionBy(new HashPartitioner(100))  // 增加分区数

 增加分区数 倾斜键的单独处理:对于某些高频出现的键,可以将其单独拿出来处理。例如,在 MapReduce 或 Spark 中,可以在 map 阶段对这些高频键进行单独记录,然后在 reduce 阶段进行单独处理,避免倾斜影响其他数据的处理。

// 针对特殊键(如 userId="12345")单独处理
val filtered = rdd.filter{ case (userId, data) => userId == "12345" }
// 其他正常键进行分布式处理
val normalProcessing = rdd.filter{ case (userId, data) => userId != "12345" }

采样与数据预处理:通过采样预先估计数据的分布情况,提前处理可能出现倾斜的部分数据,避免在实际处理时发生数据倾斜。对数据集进行预聚合,尤其是在大数据集 Join 时,提前对较小的数据集进行聚合处理,减少后续 Join 时的数据量。使用广播变量(Broadcast):在 Spark 中,对于较小的表,使用广播变量可以避免大量数据 Shuffle,减轻数据倾斜的影响。

val smallDataBroadcast = sc.broadcast(smallData.collectAsMap())
val joined = largeData.mapPartitions(iter => {
    val smallMap = smallDataBroadcast.value
    iter.map { case (key, value) => (key, (value, smallMap.get(key))) }
})




典型的 Flink 数据倾斜场景

1. 场景:实时日志处理中的用户行为分析
假设我们有一个实时用户行为日志数据流,数据包含 userId、timestamp、action 等字段。我们希望通过 userId 进行聚合,统计每个用户的行为频率。然而,如果某些用户(例如某些高活跃用户或测试用户)产生的行为日志比其他用户多得多,就会导致某些分区收到过量数据,而其他分区处理的数据量很少,最终导致数据倾斜问题,影响整个任务的执行效率。假设我们有如下 Flink 数据处理任务:

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

// 从 Kafka 读取用户行为日志
DataStream<String> rawStream = env.addSource(new FlinkKafkaConsumer<>("user_actions", new SimpleStringSchema(), properties));

// 解析日志,提取 userId 和行为
DataStream<Tuple2<String, String>> parsedStream = rawStream
        .map(line -> {
            String[] parts = line.split(",");
            return new Tuple2<>(parts[0], parts[2]);  // parts[0] 为 userId,parts[2] 为 action
        })
        .returns(Types.TUPLE(Types.STRING, Types.STRING));

// 通过 userId 进行 keyBy 聚合
parsedStream
    .keyBy(0)
    .timeWindow(Time.minutes(1))
    .reduce((value1, value2) -> new Tuple2<>(value1.f0, value1.f1 + "," + value2.f1))
    .print();

env.execute("Flink Data Skew Example");




在这段代码中,我们根据 userId 进行 keyBy 操作,然后在 1 分钟的窗口内对用户行为进行聚合。如果某些用户特别活跃(产生大量的行为日志),这些用户对应的 Task 将收到远超其他 Task 的数据,从而导致某些 Task 负载过重,整个任务的性能下降。

Flink 数据倾斜的解决方法

1. 加盐法(Salting)加盐法是最常用的解决数据倾斜的方式之一。加盐法通过在倾斜键前添加随机的“盐”(即附加的随机值)来打散数据,使得倾斜键的负载分散到不同的 Task 上。最终在 reduce 或 join 操作完成后,再去掉加盐部分。

// 加盐操作
DataStream<Tuple2<String, String>> saltedStream = parsedStream
    .map(value -> {
        int salt = new Random().nextInt(10);  // 随机生成 0-9 之间的数作为“盐”
        return new Tuple2<>(value.f0 + "_" + salt, value.f1);
    })
    .returns(Types.TUPLE(Types.STRING, Types.STRING));

// 通过加盐后的键进行 keyBy 操作
saltedStream
    .keyBy(0)
    .timeWindow(Time.minutes(1))
    .reduce((value1, value2) -> new Tuple2<>(value1.f0, value1.f1 + "," + value2.f1))
    // 在 reduce 完成后去掉加盐部分
    .map(value -> {
        String originalKey = value.f0.split("_")[0];  // 去掉加盐部分
        return new Tuple2<>(originalKey, value.f1);
    })
    .returns(Types.TUPLE(Types.STRING, Types.STRING))
    .print();

通过这种方式,数据根据加盐的键进行分区,从而避免了某些分区的数据量过大问题。

2. 热点数据单独处理对于高频出现的热点数据,可以采用特殊的处理逻辑。将热点数据单独提取出来,进行单独处理,而对其余非热点数据进行常规分布式处理。

// 将热点数据(例如 userId = "1001")单独处理
DataStream<Tuple2<String, String>> hotKeyStream = parsedStream
    .filter(value -> value.f0.equals("1001"));

// 针对非热点数据进行常规处理
DataStream<Tuple2<String, String>> nonHotKeyStream = parsedStream
    .filter(value -> !value.f0.equals("1001"));

// 针对热点数据使用单独的逻辑进行处理
hotKeyStream
    .keyBy(0)
    .timeWindow(Time.minutes(1))
    .reduce((value1, value2) -> new Tuple2<>(value1.f0, value1.f1 + "," + value2.f1))
    .print("Hot Key Processing");

// 对非热点数据进行常规处理
nonHotKeyStream
    .keyBy(0)
    .timeWindow(Time.minutes(1))
    .reduce((value1, value2) -> new Tuple2<>(value1.f0, value1.f1 + "," + value2.f1))
    .print("Normal Key Processing");

这种方法通过将热点数据独立出来,避免了它们和普通数据混合处理时引发的倾斜问题。

3. 使用 Flink 的 GlobalWindow 和 Broadcast对于小型数据集或维度表(例如用户信息),可以使用 Flink 的 Broadcast 操作,将小数据集广播到每个 Task 上,避免因为 Join 操作导致的数据倾斜。

// 定义广播状态描述符
MapStateDescriptor<String, String> userInfoBroadcastState = new MapStateDescriptor<>(
    "userInfoBroadcastState",
    Types.STRING,
    Types.STRING
);

// 将用户信息广播到每个 Task
DataStream<String> userInfoStream = env.addSource(new FlinkKafkaConsumer<>("user_info", new SimpleStringSchema(), properties));
userInfoStream.broadcast(userInfoBroadcastState);

// 在处理数据流时使用广播变量
parsedStream
    .keyBy(0)
    .connect(userInfoStream.broadcast(userInfoBroadcastState))
    .process(new KeyedBroadcastProcessFunction<String, Tuple2<String, String>, String, Tuple2<String, String>>() {
        @Override
        public void processElement(Tuple2<String, String> value, ReadOnlyContext ctx, Collector<Tuple2<String, String>> out) throws Exception {
            // 从广播状态中获取用户信息
            ReadOnlyBroadcastState<String, String> broadcastState = ctx.getBroadcastState(userInfoBroadcastState);
            String userInfo = broadcastState.get(value.f0);
            out.collect(new Tuple2<>(value.f0, value.f1 + " | " + userInfo));
        }

        @Override
        public void processBroadcastElement(String value, Context ctx, Collector<Tuple2<String, String>> out) throws Exception {
            // 更新广播状态
            String[] parts = value.split(",");
            ctx.getBroadcastState(userInfoBroadcastState).put(parts[0], parts[1]);
        }
    })
    .print();

通过广播操作,小数据集被发送到每个 Task,避免了 Join 操作时可能引发的数据倾斜问题。

往期推荐

数据平台:Flink 基于信用值的流量控制机制

数据平台:Flink的数据传输

数据平台:Flink的两种应用部署模式

3 1 投票
文章评分
订阅评论
提醒

0 评论
内联反馈
查看所有评论
0
希望看到您的想法,请您发表评论x

了解 码奋 的更多信息

立即订阅以继续阅读并访问完整档案。

Continue reading