type
status
date
slug
summary
tags
category
icon
password
Hadoop 框架的起源,本质上是一个开源世界对 Google 技术论文体系的工程实现尝试,背景、目标与核心设计理念都高度受 Google 三篇经典论文的启发。
🧱 起源简要时间线:
年份 | 事件 |
2003 年 | Google 发表 GFS 论文(Google File System) |
2004 年 | Google 发表 MapReduce 论文 |
2006 年 | Yahoo! 工程师 Doug Cutting 和 Mike Cafarella 开始开发 Hadoop(Apache Lucene 子项目) |
2008 年 | Hadoop 从 Lucene 中独立,成为 Apache 顶级项目 |
📚 核心灵感来源
Hadoop起源于Google的三篇论文
Google 技术 | 对应 Hadoop 模块 | 功能 |
GFS(Google File System) | HDFS(Hadoop Distributed File System) | 分布式文件系统,支持大数据量读写 |
MapReduce | MapReduce 引擎 | 分布式计算模型,分 map / reduce 两阶段 |
Bigtable(后期) | HBase(非核心) | 分布式列式数据库,类 Bigtable |
👨💻 核心人物:Doug Cutting
- 原本是 Lucene 搜索库作者,后加入 Yahoo!
- 为了解决大规模数据处理问题,受到 Google 论文启发,启动 Hadoop 项目
- Hadoop 这个名字来源于他儿子的一只玩具象(黄象),象征着“大而可靠”
🎯 初衷与目标:
- 用廉价商用机器组成集群,处理大规模数据(PB 级别)
- 提供容错机制(通过副本、重试机制自动恢复)
- 利用 MapReduce 编程模型,将计算逻辑拆成分布式任务执行
- 给业界一个开源替代品 —— 不被 Google 垄断的分布式计算能力
🌍 谁推动了早期发展?
- Yahoo! 是早期最大支持者,将其投入实际业务,甚至为其成立 Hortonworks 推进
- 后续 Cloudera、Facebook、LinkedIn 等也深度参与贡献
- Apache 基金会在 2008 年将其列为顶级项目,形成了后来庞大的 Hadoop 生态圈
📚 主要发行版
🔹 Cloudera:
- CDH 的全称是 Cloudera’s Distribution including Apache Hadoop
- Cloudera Manager 的闭源部分后来与 Cloudera Navigator(数据治理模块)捆绑售卖
- Impala 实际技术上优于 Hive-on-MapReduce,但落后于 Presto 与 Spark SQL
- 2019 年 Cloudera 宣布放弃原本“半开源半闭源”的策略,全面转向开源(但云版仍保留专有组件)
- 合并 Hortonworks 后,CDH 和 HDP 合流为 CDP(Cloudera Data Platform),新产品强调混合云部署与 Kubernetes 支持
🔹 MapR :
- MapR FS 实际是一个 POSIX 兼容的分布式文件系统,最大优势是能被标准应用当作本地磁盘使用
- MapR DB 是其内部封装的 HBase 兼容数据库,支持 JSON 文档模型
- MapR Streams 是 Kafka 的替代品,使用统一的 MapR 文件系统底座
- 实际上 MapR 从 2018 年起就陷入营收危机,多轮裁员,2019 年卖给 HPE
- HPE 主要收购的是其技术资产,而非组织架构或市场通道
🔹 Hortonworks:
- Hortonworks 主推 Ambari 管理工具,用于替代 Cloudera Manager,但开源、功能有限
- Hortonworks 长期贡献最大的项目为 Apache Hive 与 Tez,Hive LLAP 也是其推进交互式查询的方向
- 与微软的 HDInsight 合作,实为 Microsoft Azure 的 Hadoop-as-a-Service 早期产品
- 合并时以“对等合并”的名义操作,但实际被 Cloudera 吞并整合
- Hortonworks 提出的“100% 开源”理想,在企业场景下被证明为商业失策(缺乏溢价能力)
📚 发展史
从崛起到合并:Cloudera、MapR、Hortonworks 三大 Hadoop 发行版的兴衰之路
在大数据尚未成为行业热词的2008年,Cloudera 就率先踏出了 Hadoop 商业化的第一步。随后的十年里,Cloudera、MapR、Hortonworks 三家公司在 Hadoop 生态中激烈角逐,分别走出了一条开源整合、深度改造、以及社区主义三种路径。然而到了2019年,这三家公司不是合并、就是被收购,辉煌一时的 Hadoop 发行版战争终以资源整合和黯然退场收场。这背后,是技术路线、商业策略与时代趋势共同作用的必然结果。
Cloudera:从正统发行商到混合云转型的领跑者
Cloudera 由 Christophe Bisciglia、Amr Awadallah 和 Jeff Hammerbacher 于2008年创立,早期目标是做 Hadoop 版的 AWS EMR,但很快转型为 Hadoop 的"Red Hat",通过整合开源软件、添加企业功能、出售支持服务来盈利。他们发布了 CDH(Cloudera's Distribution including Apache Hadoop),成为最早也是最广泛使用的 Hadoop 商业发行版。
其闭源管理平台 Cloudera Manager 是其商业模式的关键支点,提供企业级部署、监控、升级等工具。Cloudera 通过双轨制:CDH 开源 + 企业组件收费,在早期大受欢迎,但也埋下了与社区博弈的种子。
2009年起,Accel Partners 等风投持续加码,2014年英特尔更是以 7.4 亿美元换取 18% 股份,将 Cloudera 估值推向 41 亿美元巅峰。为了巩固数据仓库领域的话语权,Cloudera 推出了交互式 SQL 引擎 Impala 和分布式列存储引擎 Kudu,虽技术先进,但生态未能拉开差距,最终未能构筑护城河。
而真正令 Cloudera 底气十足的,是2009年请来 Hadoop 之父 Doug Cutting 担任首席架构师,为其贴上了“正宗血统”的标签。与此同时,Cloudera 的企业策略愈加保守,产品发布节奏缓慢、云原生能力落后,逐渐失去技术领先地位。2017年上市后估值腰斩,最终在2018年与 Hortonworks 合并,推出 CDP(Cloudera Data Platform)以求突围混合云战场。
MapR:技术主义的孤岛与终极兼容的幻觉
2009年成立的 MapR 由 John Schroeder 与 M.C. Srivas 创立,后者曾任职于 Google 文件系统团队。MapR 从一开始就不信任 Hadoop 的 HDFS,决定自研一套高性能、可 POSIX 挂载的文件系统 —— MapR FS,并围绕它逐层重写核心生态组件:MapR-DB 替代 HBase、MapR Streams 替代 Kafka,自称“无缝兼容、性能倍增”。
在架构上,MapR 的系统确实具有技术优势,部署简洁、性能稳定、统一权限体系一体化极高。但这也带来了极高的商业代价:封闭、不透明、客户迁移壁垒大,一旦上船就很难跳船。
MapR 的客户数远不如 Cloudera,却能做到相似营收,正是依靠其高溢价的系统销售。Google Ventures 的入场也一度让市场刮目相看。然而,随着云计算崛起与开源生态反击,MapR 的封闭策略日益显露劣势。2019年,MapR 资金链断裂,被 HPE 收购,结束了其孤岛式征程。
Hortonworks:开源理想主义的破局与溃败
2011年,雅虎拆分 Hadoop 团队,与 Benchmark Capital 合作成立 Hortonworks,由雅虎 Hadoop 副总裁 Eric Baldeschwieler 领导。该公司打出“100% 开源”的旗号,推出 HDP(Hortonworks Data Platform),试图通过纯开源赢得市场信任。
Hortonworks 最大的优势是对 Apache 社区的深度参与,其贡献了 Hive、Tez、Ambari 等多个核心项目,试图推动 Hive 成为主力交互式引擎。但其过于理想主义的策略使其产品缺乏商业溢价空间,也缺乏企业客户真正刚需的管控能力与集成服务,最终只能依靠低价竞争。
早年与微软合作开发 Hadoop on Windows(后成为 HDInsight 的基础)本可成为转折点,但合作关系摇摆不定,Hortonworks 最终未能借助微软攀升。为了生存,Hortonworks 率先 IPO,但上市估值仅 10 亿,半年后即腰斩。
2018 年 10 月,Hortonworks 被 Cloudera 合并,最终退出 Hadoop 三巨头之争。
技术路线与时代错配:三者共同的结局
这三家公司代表了 Hadoop 商业化的三种路径:
- Cloudera:Red Hat 式双轨模式,最终自我革命向云转型
- MapR:全面闭源改造,技术优势下的商业自缚
- Hortonworks:社区理想主义,战略纯粹但盈利乏力
但三者共同的命运,是在云原生 + 开源基础设施 + 对象存储 + Serverless 崛起的冲击下,未能成功演化为新一代平台。
Spark 取代 MapReduce,Kubernetes 替代 YARN,Presto/Trino 压倒 Impala/Drill,S3 替代 HDFS,Snowflake、BigQuery、Databricks 等新巨头横空出世。Hadoop 发行版的黄金时代宣告终结,留下的是技术路线的分支、历史经验的参考,以及“开源 + 商业化”博弈中值得反思的轨迹。
尾声:从三雄争霸到边缘化,Hadoop 的下一站是什么?
Cloudera 尚存,CDP 继续演化;MapR 化身 HPE 数据平台组件;Hortonworks 被写入并购史册。Hadoop 不再是舞台中央的主角,但它塑造了整个分布式数据系统的工业体系,也孕育了大数据工程师的第一代方法论。
在云原生数仓席卷全球的今天,我们该问的或许不是“Hadoop 还值不值得用”,而是:下一个被云打穿的基础设施,是不是你正在构建的那一层?
- 作者:tacjin
- 链接:http://jin.wiki/article/23be55fd-4dcc-8021-81c9-f89bd0a1a7e6
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。