数据中台归档 • 码奋

数据平台：SuperSQL算子下推

cableching 2025年3月11日 2025年3月11日

SuperSQL通过算子下推将计算贴近数据源执行（如过滤、聚合、脱敏），减少跨源传输量，支持基础SQL操作、跨源JOIN、非JDBC协议（Hive/ES/HBase）及动态引擎选择。其混合优化器（CBO+RBO+HBO）提升查询效率5倍，增量统计信息优化聚合精度。安全层面实现数据脱敏下推与跨域隔离。典型场景中，跨MySQL、Hive、ES的联邦查询将TB级数据传输降至MB级，性能提升3-16倍，满足企业级复杂分析及合规需求。

数据中台2条评论

数据平台：SuperSQL

cableching 2025年3月10日 2025年3月10日

SuperSQL（或写作 SuperSQL/Super-SQL）是一个跨数据库联邦查询系统，旨在通过扩展 SQL 语法实现对多种异构数据源的统一查询和集成分析。它允许用户通过单一的 SQL 语句同时操作多个不同类型的数据库、数据湖或文件系统，而无需手动整合数据或切换工具。

数据中台留下评论

数据平台：Apache Flink数据库实时同步

cableching 2025年1月29日 2025年1月29日

通过 Flink CDC，你可以轻松实现数据库的实时同步。Flink 提供了强大的流处理功能和对不同数据库的连接支持。根据具体的业务需求，你可以调整数据的处理逻辑，确保数据一致性和高效性。

数据中台留下评论

数据平台数据传输加密：对称、非对称与混合加密等的运用

cableching 2024年12月31日 2024年12月31日

数据加密是确保信息安全的关键措施，根据不同的应用场景，可以采用对称加密、非对称加密、TLS/SSL加密、端到端加密和数字签名等技术。对称加密适用于大规模数据传输，非对称加密用于密钥交换和身份验证，TLS/SSL保护网络传输安全，端到端加密确保数据完整性，而数字签名用于验证数据来源。有效的密钥管理是保证加密系统安全的基础。

数据中台留下评论

数据中台的数据库实时同步：作用、性能消耗与优化策略

cableching 2024年12月30日 2024年12月31日

数据库实时同步在数据中台建设中具有重要作用，主要体现在提高系统的高可用性、负载均衡、灾难恢复能力、数据一致性以及支持地理分布式部署。然而，实时同步也会带来一定的性能消耗，主要包括增加 I/O 操作、网络带宽压力、CPU 使用率和存储需求，同时可能引发复制延迟、锁竞争和管理复杂性等问题。因此，在实施数据库实时同步时，需要根据业务需求选择合适的同步方式，并通过提升硬件性能、优化同步策略、监控同步延迟和采用数据压缩等手段，减少性能负担，确保系统稳定高效运行。

数据中台留下评论

Zookeeper的介绍和集群安装

cableching 2024年11月10日 2024年12月23日

Zookeeper 采用 Leader-Follower 架构，集群通常由奇数个节点（服务器）组成，以确保在网络分区或节点故障时仍能实现一致性与可用性。核心机制是 ZAB 协议（Zookeeper Atomic Broadcast），一种崩溃恢复的原子广播协议，保证了在网络分区和崩溃时的最终一致性和持久性。

数据中台留下评论

数据平台：Ceph介绍和安装

cableching 2024年11月7日 2024年12月23日

Ceph 是一个分布式存储系统，旨在提供高可用、高可靠和高扩展性的数据存储解决方案。

数据中台一条评论

开源的商业智能BI：Apache Superset介绍&安装

cableching 2024年10月13日 2024年12月23日

Apache Superset 是一个开源的现代数据可视化和数据探索平台。它允许用户通过简单的界面与数据库进行交互，创建和分享仪表板，进行数据可视化。Superset 支持多种数据源，能够进行快速的数据分析，特别适合于需要对大规模数据进行可视化和探索的场景。核心功能：多数据源支持：支持连接多种数据库（如 MySQL、PostgreSQL、Druid、Presto 等）。数据可视化：内置丰富的图表类型和自定义图表，支持通过拖拽和交互式界面生成图表。仪表板：支持创建和分享动态仪表板，提供灵活的展示方式。SQL 编辑器：提供一个简单易用的 SQL 编辑器，供用户编写查询并立即可视化结果。权限管理：具备完善的权限控制系统，适合团队协作使用。易于扩展：支持通过插件和自定义代码扩展其功能。

数据中台留下评论

开源的商业智能BI：Metabase介绍&安装

cableching 2024年10月4日 2024年12月23日

Metabase 是一个开源的商业智能（BI）和数据分析工具，专注于让用户轻松查询、分析和可视化数据，而不需要编写复杂的 SQL 查询。它旨在帮助非技术人员通过图形界面快速创建仪表板和报表，同时也为有经验的数据分析师提供强大的功能进行更复杂的分析。

数据中台留下评论

数据平台：下一代大数据存储？Ozone

cableching 2024年9月28日 2024年9月28日

Ozone 作为 Hadoop 的分布式对象存储系统，在大数据存储领域展现出强大的实力。它不仅具有易扩展和冗余存储的特点，还能够存储数十亿个不同大小的对象，为大规模数据存储提供了可靠的解决方案。Apache Spark、Hive 和 YARN 等应用无需任何修改即可使用 Ozone，这极大地提高了其在不同场景下的适用性。

2026 年 3 月
一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31