层次 组件 作用 基础设施层 Hadoop HDFS 分布式存储基础 资源管理层 ZooKeeper 分布式协调 数据存储层 HBase, Hive 结构化/非结构化数据存储 计算引擎层 Flink, Hadoop MapReduce 流批数据处理 数据集成层 InfluxDB, Phoenix 时序数据、SQL接口 服务治理层 Sentinel, Seata 微服务治理、事务管理
用途:分布式系统的"神经系统"
HBase RegionServer 状态管理
Kafka 集群协调
Flink JobManager 高可用
HDFS (Hadoop Distributed File System) # 分布式存储
YARN (Yet Another Resource Negotiator) # 资源调度
MapReduce # 批处理计算
架构关系:
HDFS (存储) → MapReduce (计算) → YARN (资源管理)
为 HBase、Hive、Flink 提供底层存储
基于HDFS的列式数据库
用户画像数据
实时日志存储
物联网设备数据
工作流程: sql-- Hive SQL → MapReduce任务 → HDFS数据
SELECT user_id, COUNT(*) FROM user_behavior WHERE dt = '2024-01-01' GROUP BY user_id;
实时计算核心
数据源(Kafka) → Flink(实时计算) → 结果存储(HBase/MySQL)
↓
实时风控、实时推荐、实时监控
专门处理时间序列数据
系统监控指标
IoT传感器数据
应用性能监控(APM)
sql
-- 原本复杂的HBase API操作 -- 变成简单的SQL查询 SELECT * FROM user_table WHERE age > 18;
数据源 → Flume/Kafka → HDFS → Hive(ETL) → HBase(服务) → 业务应用 ↓ MapReduce(分析)
流处理数据流
实时数据 → Kafka → Flink(实时计算) → HBase/InfluxDB → 实时大屏/告警 ↓ Redis(缓存)/MySQL(业务数据)
查询分析流程
业务请求 → Phoenix(SQL) → HBase(存储) → 返回结果 ↓ Hive(离线分析) → 报表系统
🎯 具体业务场景组合 场景1:实时用户行为分析 bash
用户点击流 → Flink(实时统计) → HBase(存储) → Phoenix(SQL查询) → 运营平台 场景2:物联网数据平台 bash
传感器数据 → Flink(流处理) → InfluxDB(时序数据) + HBase(设备信息) → 监控告警 场景3:电商数据中台 bash
业务数据 → HDFS → Hive(ETL) → HBase(数据服务) 实时订单 → Flink(实时处理) → 风控系统 场景4:微服务架构 bash
微服务集群 → Sentinel(流量防护) + Seata(分布式事务) + ZooKeeper(服务发现)
⚡ 性能特点对比
组件 数据模型 延迟 吞吐量 一致性 HBase 列式 毫秒级 高 强一致 Hive 表格式 分钟级 中 最终一致 Flink 流式 毫秒级 很高 精确一次 InfluxDB 时序 毫秒级 很高 可配置
🔧 运维考虑 资源需求 Hadoop/HBase:需要大量磁盘和内存
Flink:需要大量CPU和内存
ZooKeeper:需要低延迟网络
InfluxDB:需要SSD磁盘
监控重点 HDFS磁盘使用率
HBase Region分布
Flink Checkpoint状态
ZooKeeper连接数
💡 总结 这是一个完整的实时大数据平台技术栈:
底层:Hadoop + ZooKeeper 提供基础设施
存储层:HBase + Hive 覆盖实时和离线存储
计算层:Flink 负责实时处理
接口层:Phoenix 提供SQL便利性
专项存储:InfluxDB 处理时序数据
服务治理:Sentinel + Seata 保障微服务稳定性
这个组合能够处理从批处理到流处理、从数据存储到实时分析的完整大数据需求,是构建现代数据平台的成熟方案!
本文作者:小白
本文链接:
版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!