Databricks
顶级数据与 AI 资产,但当前私人估值仍计入大量未来完美执行
Databricks 是顶级后期数据与 AI 平台,但对照上市可比公司和现有披露,当前 $134B 价格仍显偏高。
封面要素
公司概况
Databricks 是一家后期非上市数据与 AI 基础设施公司,起步于 Apache Spark 生态,如今销售覆盖数据工程、lakehouse 存储与治理、数仓、AI/BI、模型与 agent 工具,以及相邻数据库服务的多云平台。公司已达到私募市场罕见规模,披露收入 run-rate 超过 $5B,Fortune 500 渗透很深,AI 收入流增长很快;但公开披露仍低于投资人清晰承销 $134B 入场价通常需要的水平。
- 成立时间
- 2013-01-01
- 创始人
- Ali Ghodsi, Matei Zaharia, Ion Stoica
- 创立地点
- Berkeley, California, USA
- 总部
- San Francisco, California, USA
- 产品
- Databricks 销售一个统一、按用量计费的数据与 AI 平台,将 lakehouse 存储格式、数据工程、数仓、治理、AI/BI、模型与 agent 工具,以及 Azure、AWS、Google Cloud 上的多云部署整合在一起。
- 客户
- 大型企业、数字原生公司、公共部门机构,以及希望为分析和生产级 AI 配一套受治理多云平台的数据 / AI 团队。
- 商业模式
- 主要靠 DBU 和相邻 serverless 服务按用量变现;增长来自工作负载扩张、更高价值的 AI 产品、数仓、治理,以及大客户内部更广的平台采用。
- 阶段
- Late-stage private / pre-IPO
- 融资情况
- 公开融资脉络从 2024 年 12 月 $62B Series J,推进到 Series K 条款下超过 $100B,再到 2025 年 12 月 $134B Series L,随后 2026 年 2 月完成一揽子股权与债务融资。
执行摘要
主要优势
- 后期公司里少见的规模:收入运行率超过 $5B,且仍在快速增长。
- 企业客户深度强,包括高支出客户队列和多云分发。
- AI 变现已真实超过 $1B 运行率,不只是产品营销。
- 技术创始人根基深,产品面横跨数据、治理和 AI。
- 融资通道和自由现金流信号,降低了近期融资压力。
主要风险
- $134B 标记仍高度依赖管理层披露的运行率,而不是经审计报表。
- 上市软件可比公司只能有限支撑当前溢价倍数。
- 毛利率、集中度、股权结构优先级、债务条款和 AI 经济性披露不足。
- 超大规模云厂商、Snowflake 和开放数据格式的竞争,可能压缩差异化和定价。
- 在这个估值水平,进行中的版权诉讼和治理不透明仍然重要。
未决问题
- 适合 IPO 级承销的经审计收入与毛利率桥接。
- 精确股权结构表、优先股堆叠、债务契约,以及任何员工流动性定价条款。
- 客户集中度、按产品拆分的队列留存,以及续约期限数据。
- 按产品、利润率和转嫁基础设施敞口拆分的 AI 收入贡献。
- 完整治理名单、委员会结构,以及诉讼准备金或保险细节。
目录
01公司概览
1.1 身份、使命,以及当前公开可见的公司形态
Databricks 如今展示的是一家大型后期非上市基础设施公司,而不是一家窄口径 Spark 供应商。当前最干净的身份来源是官网 about 页面:它称 Databricks 是数据与 AI 公司,并把 Data Intelligence Platform 定义为统一承载数据、治理和 AI 的基础底座。总部明确落在 San Francisco,联系页面给出 160 Spear Street 的具体地址,后续章节可以据此把公司地理锚定。公开规模口径也在变化,值得保留:about 页面仍写着超过 15,000 家组织使用 Databricks,而当前新闻资料包和 2025–2026 年后续新闻稿已把数字推进到超过 20,000 名客户。因此,报告后文最稳妥可复用的身份是:一家总部位于 San Francisco、非上市的数据与 AI 平台公司,采用多云运营模式,企业覆盖面很广,并明确依赖自身围绕 Data Intelligence Platform 的叙事。[CO004, CO005, CO006, CO007, CO008, CO009]
| 指标 | 数值 / 状态 | 日期 | 置信度 | 缺口 / 备注 |
|---|---|---|---|---|
| 成立年份 | 2013 | 2013 | 高 | Databricks 的公司介绍材料和新闻资料包口径一致。 |
| 总部 | San Francisco, California | 2026 年公开页面 | 高 | 具体联系地址是 160 Spear Street, 15th Floor。 |
| 阶段 | 晚期私有 / 可选择 IPO | 2026-01-23 | 中 | 有 $134B 估值和 CNBC 的 IPO 前报道支撑;公司仍为私有。 |
| 客户数 | 20000 | 2026 年新闻资料包 / 2025–2026 年发布 | 高 | 公司当前声称 20,000+;旧版 about 页面仍写 15,000+,因此采用较新数字,并把旧数字作为历史背景。 |
| 员工数 | 10000 | 2026 年新闻资料包 | 中 | 公司当前声称员工 10,000+;CNBC 2025 年 6 月报道约 8,000 人,因此应把轨迹视为上行,而不是精确点估计。 |
| 办公室数量 | 30 | 2026 年新闻资料包 | 中 | 公司称全球 30+ 个办公室,但审核材料中没有发布完整办公室清单。 |
| 收入运行率 | 5400 | 2026-02-09 | 中 | 年化收入运行率,不是经审计 GAAP 收入。 |
| 最新公开估值 | 134 | 2025-12-16 | 高 | Series L 与后续 CNBC 报道均指向 $134B。 |
| 已披露资本方案 | 7 | 2026-02-09 | 中 | 2026 年 2 月披露同时包含约 $5B 股权和约 $2B 债务额度;这不同于公司生命周期内的累计融资。 |
| 公开累计融资 | 公开来源称融资约 $20B,并有多笔债务 / 股权方案,但确切累计资本基础尚未完全勾稽。 |
将这些值作为公司概况的标准基线。公开记录混合年化运行率、股权、债务和老股交易时,表格把缺乏支撑的生命周期总额保留为空值,而不制造精确感。
[CO001, CO006, CO007, CO009, CO010, CO011]1.2 创始人、领导层纵深与治理披露边界
创始人记录异常扎实,尽管完整高管和董事会名单并不透明。Databricks 称公司由七名 UC Berkeley AMP Lab 研究人员在 2013 年创立,官方创始人页面列出 Ali Ghodsi、Ion Stoica、Matei Zaharia、Patrick Wendell、Reynold Xin、Andy Konwinski 和 Arsalan Tavakoli-Shiraji。这个事实重要,因为公司至今仍从技术起源故事中获得合法性:Berkeley 和 Spark 不是营销点缀,而是创始人-市场契合的核心证据。Ali Ghodsi 的 Berkeley 个人资料和 CACM Spark 论文进一步证明,Databricks 来自创造 Apache Spark 的同一学术与开源生态。相比创始人披露,公开高管信息更薄。Ali Ghodsi 作为联合创始人兼 CEO 很容易核验,但所审阅的董事会页面主要只能证明治理界面存在,不能说明所有董事是谁,也不能说明委员会和投资人权利如何分配。该点应作为真实尽调缺口处理,不能用文字带过。[CO001, CO002, CO003, CO013, CO014, CO015]
| 人物 | 职务 | 背景 | 创始人-市场契合或职能覆盖 | 关键人依赖 |
|---|---|---|---|---|
| Ali Ghodsi | 联合创始人、CEO | UC Berkeley 学者;Spark 时代创始人;融资和产品方向的公开代表 | 连接技术起源叙事、企业叙事和资本市场沟通 | 高 |
| Ion Stoica | 联合创始人 | UC Berkeley 教授、AMP Lab 代表人物 | 为 Databricks 的分布式系统可信度和学术研究根基提供支撑 | 中 |
| Matei Zaharia | 联合创始人 | Apache Spark 创建者、Databricks 技术创始人 | 连接 Spark、lakehouse 可信度和平台架构的核心人物 | 高 |
| Patrick Wendell | 联合创始人 | Spark 时代 Databricks 工程负责人,列名于 CACM Spark 论文 | 为早期平台设计的延续性增加工程深度 | 中 |
| 技术联合创始人:Andy Konwinski / Arsalan Tavakoli-Shiraji / Reynold Xin | 联合创始技术班底 | 官方创始人页面列名,具有 Berkeley 和开源根基 | 让公司原始技术班底不止于 CEO 主导叙事 | 中 |
创始人披露充分;创始人之外的公开高管和董事会细节要薄得多。
[CO002, CO003, CO013, CO014, CO015, CO016]1.3 资本形成、投资人版图与私募市场成熟度
Databricks 已进入超大型非上市公司融资区间,进程同时得到公司披露和独立报道支持。决定性拐点是 2024 年 12 月的 Series J 公告:Databricks 称正安排预期 $10B 的非稀释性融资,估值 $62B,并预期收入 run-rate 跨过 $3B,同时实现正自由现金流。到 2025 年 9 月,公司称已跨过 $4B run-rate,AI 收入 run-rate 超过 $1B,并以超过 $100B 的估值完成 $1B Series K。2025 年 12 月 Series L 又把公开估值推到 $134B,收入 run-rate 为 $4.8B;2026 年 2 月更新则称 Databricks 已跨过 $5.4B 收入 run-rate,并完成超过 $7B 的一揽子融资,包含股权和债务。这些都是后期私募市场成熟度和 IPO 可选性的明确信号。尚未解决的是精确股权结构表,以及在非稀释性融资、股权、债务和 2025 年员工流动性计划混合之后的真实累计融资额。[CO017, CO018, CO019, CO020, CO025, CO027]
| 利益相关方 | 角色 | 控制权或经济重要性 | 尽调问题 |
|---|---|---|---|
| Thrive Capital | Series J 领投 / Series K 共同领投 | 2024 年 $62B 融资的领投方,2025 年 >$100B 轮次也参与领投 | 确认董事会权利、清算优先权,以及 J/K/L 各轮是否有按比例认购或超额按比例认购权利。 |
| Andreessen Horowitz | Series J 共同领投 / Series K 共同领投 | 多次出现在 2024–2025 年新股融资名单中 | 确认 Series L 后持股比例及任何特殊治理权。 |
| Insight Partners | Series J 共同领投 / Series K 共同领投 / 组合投资方 | 多轮融资中列名,且仍公开将 Databricks 列为被投公司 | 确认当前经济权益,以及 Insight 是否拥有观察员或提名权。 |
| Series J 联合领投方:DST Global / GIC / WCM | Series J 共同领投方 | 帮助托住 2024 年大型非稀释融资方案 | 索取融资文件,厘清结构、认股权证条款和偿付顺位。 |
| 参投方:MGX / Ontario Teachers / Sands / Wellington / ICONIQ | 2024–2025 年融资列名参与方 | 体现广泛主权 / 机构支持,但持股比例不清 | 索取股权结构表和附函,勾稽准确持仓。 |
| 员工和前员工 | 2024–2025 年要约或二级交易的流动性交易对手 | Series J 明确包含流动性安排,TechCrunch 报道 2025 年有两轮二级交易 | 索取要约文件、参与率和定价,理解士气和稀释。 |
| 贷款方 / 债务提供方 | 补充融资提供方 | 2026 年 1–2 月债务工具把 Databricks 的资本基础扩展到股权之外 | 索取债务契约、到期时间表、担保包和允许留置权条款。 |
| 云 / 平台合作伙伴(SAP、Microsoft、Google) | 分发和生态利益相关方 | 审核记录中并非股权所有者,但对商业化路径和平台触达具有战略重要性 | 按合作伙伴确认商业集中度、收入分成和依赖。 |
经济重要性有公开支撑;精确所有权和控制权利则没有。
[CO017, CO018, CO019, CO027, CO030, CO031]公开 KPI 组合显示,Databricks 已是规模很大的私营企业软件平台;当前规模信号清晰,但所有权细节仍不完整。
客户数和员工数是公司披露的下限,不是精确计数;收入为年化运行率,不是经审计收入。
[CO009, CO010, CO032, CO036, CO038, CO052]1.4 规模信号、生态触达,以及可复用为事实底座的内容
最强公开规模信号不只是估值标题,而是 Databricks 客户质量和生态指标。公司材料如今声称全球客户超过 20,000 家、Fortune 500 渗透率 70%、员工超过 10,000 人、办公室超过 30 个。独立报道补充了有用细节,但不能完全替代公司说法:CNBC 称 Databricks 在 2025 年 6 月约有 8,000 名员工、近 50 名客户年支出超过 $10M、截至 2025 年 1 月的财年收入为 $2.6B。随后公司披露,2025 年 9 月、2025 年 12 月和 2026 年 2 月,年度收入 run-rate 超过 $1M 的客户群分别超过 650、700 和 800。分发也不只是单一直营动作。SAP 称 Business Data Cloud 嵌入 Databricks 技术,Microsoft 和 Google 各自把 Databricks 作为第一方云产品营销。合在一起,这些信号支持一个可复用判断:Databricks 是一家已具规模的企业平台,多云触达强,增购动能强,客户基础足以支撑大额支出队列。[CO009, CO010, CO011, CO012, CO021, CO022]
1.5 后续可复用里程碑,包括仍在发酵的不利标记
里程碑记录足够丰富,后续章节不应重新发现一遍。Databricks 成立于 2013 年,2023 年收购 MosaicML 以加速企业生成式 AI,2024 年推进收购 Tabular 以汇合 Delta Lake 与 Apache Iceberg 生态,2025 年初与 SAP 合作,2025 年中同意收购 Neon,以更深切入 AI agent 的运营数据库。这些战略动作与 Series J、Series K、Series L 以及 2026 年 2 月债务加股权扩张的融资序列高度一致。时间线中明确应纳入的一项不利事件,是与 Mosaic 时代和 DBRX 相关模型训练有关的持续版权诉讼。The Register 与 Saveri 均显示,该案在 2026 年 4 月驳回动议后仍存续,因此不是可以忽略的陈旧指控。后续风险工作应把它作为活跃的 IP 与模型治理问题延续。[CO017, CO018, CO025, CO027, CO032, CO036]
| 日期 | 事件 | 类型 | 金额 / 估值 / 状态 | 参与方 | 含义 |
|---|---|---|---|---|---|
| 2013-01-01 | Databricks 成立 | 创立 | 公司成立 | 七名 UC Berkeley AMP Lab 研究人员 | 公司规范起点,也支撑后来的创始人-市场契合叙事。 |
| 2023-07-19 | MosaicML 收购完成 | 产品 | TechCrunch 报道 $1.3B | Databricks 与 MosaicML | 推动 Databricks 更快进入企业生成式 AI 训练和定制。 |
| 2024-06-04 | 宣布收购 Tabular | 产品 | 已达成协议;2024-06-07 完成 | Databricks 与 Tabular | 把 Apache Iceberg 创建者和 Delta Lake 创建者聚到一起,减少格式碎片化。 |
| 2024-12-17 | 宣布 Series J 融资 | 融资 | 预计 $10B 非稀释融资,估值 $62B | Thrive、a16z、DST、GIC、Insight、WCM 等 | Databricks 成为巨额融资的私有公司,同时瞄准 $3B 收入运行率和正自由现金流。 |
| 2025-02-13 | SAP Business Data Cloud 上线,嵌入 Databricks 技术 | 合作 | 合作已上线 | SAP 与 Databricks | 强化企业分发和业务数据定位。 |
| 2025-05-14 | 宣布 Neon 收购协议 | 产品 | 已宣布协议 | Databricks 与 Neon | 将战略延伸到面向开发者和 AI 智能体的无服务器 Postgres。 |
| 2025-09-08 | 披露 Series K 及 $4B 收入运行率 | 规模 | $1B,估值 >$100B | 参与方:Databricks、a16z、Insight、MGX、Thrive、WCM | 显示估值上台阶、自由现金流转正,以及 AI 变现上升。 |
| 2025-12-16 | 披露 Series L 及 $4.8B 运行率 | 融资 | 融资 >$4B,估值 $134B | Databricks 与 Series L 投资者 | 将公司推入新的估值区间,并强化平台宽度。 |
| 2026-02-09 | Series L 后融资方案扩容 | 治理 | 融资方案 >$7B,包含约 $2B 债务额度 | Databricks 与融资交易对手 | 证明 Databricks 能在晚期股权之上叠加债务,而不是急于上市。 |
| 2026-04-21 | 与 DBRX 有关的版权主张通过驳回动议阶段 | 反向 | 活跃诉讼 | 作者、Databricks、Mosaic 系被告 | 形成活跃的 IP 和模型治理风险,后续章节不能忽视。 |
这是本报告采用的公开事实时间线;优先列入会实质改变身份、规模、战略或风险的里程碑。
[CO001, CO017, CO018, CO019, CO020, CO027]Databricks 的重大拐点显示,公司从开源根基转向后期私募市场规模和 AI 平台扩张,同时存在正在进行的法律悬压。
[CO001, CO017, CO018, CO020, CO027, CO032]Databricks 的身份、平台、客户、资本基础、合作伙伴渠道和诉讼风险不是孤立数据点,而是一套相互牵动的系统。
[CO003, CO004, CO005, CO009, CO017, CO018]1.6 图表
02市场分析
2.1 市场边界与规模测算口径
划定 Databricks 边界时,应从其变现表面向外推,而不是从所有贴着 AI 或云标签的美元开始。公司呈现的是一个基于 lakehouse 的平台,统一存储、处理、治理、BI 和 AI 工作负载,再在上层叠加 agent 开发和受治理商业智能。因此,最相关的直接支出池是 lakehouse 软件与服务、受治理分析、基于企业数据的 AI 开发,以及公共部门数据现代化。应排除通用云基础设施、芯片、从不触及 Databricks 工作流的基础模型支出,以及不绑定平台的广义咨询或系统集成工作。公开市场估算确认了需求,也说明为什么单一 TAM 标题会误导:Grand View 将 2025 年核心数据 lakehouse 市场定在 USD 13.94B,GMI 为 USD 14.2B,TBRC 为 USD 10.33B;IDC 对 2025 年 AI 支撑技术的 USD 337B 预测则是更宽的外层包络,远大于 Databricks 实际可争取的收入池。正确解读是:Databricks 有宏观顺风和可信核心品类,但没有公开可拆出的 SAM 或 SOM。因此,估值争论不应锚在绝对 TAM 话术,而应锚在 Databricks 能否整合那些原本分散在数仓、BI、治理、流处理和定制 AI 堆栈中的预算。[CM053, CM054, CM055, CM056, CM057, CM060]
| 发布方 | 年份 | 地理范围 | 数值 | CAGR | 方法 | 置信度 | 限制 |
|---|---|---|---|---|---|---|---|
| Grand View Research | 2024 | 全球 | 11.35 | 当前数据 lakehouse 市场快照 | 中 | 仅核心 lakehouse 类别,不是 Databricks 专属收入池 | |
| Grand View Research | 2025 | 全球 | 13.94 | 23.2 | 发布方对截至 2033 年核心数据 lakehouse 市场的预测 | 中 | 预测窗口和类别边界与其他发布方不同 |
| Global Market Insights(发布方) | 2024 | 全球 | 11.9 | 当前数据 lakehouse 市场快照 | 中 | 仅核心 lakehouse 类别,不是更宽泛的 AI 平台口径 | |
| Global Market Insights(发布方) | 2025 | 全球 | 14.2 | 25 | 发布方对截至 2034 年核心数据 lakehouse 市场的预测 | 中 | 时间跨度更长,方法也不同于 Grand View 和 TBRC |
| The Business Research Company | 2025 | 全球 | 10.33 | 当前数据 lakehouse 市场快照 | 中 | 定义比部分其他发布方估算更短期 | |
| The Business Research Company | 2026 | 全球 | 12.58 | 21.8 | 基于 2025 年基准的近期预测 | 中 | 不能与 2033–2034 年终点直接比较 |
| The Business Research Company | 2030 | 全球 | 27.28 | 21.4 | 核心 lakehouse 类别五年预测 | 中 | 时间跨度短于 2033–2034 年预测 |
| IDC FutureScape | 2025 | 全球 | 337 | AI 支撑技术支出的外沿上限 | 低 | 远宽于核心数据 lakehouse 类别或 Databricks SAM | |
| IDC FutureScape | 2028 | 全球 | 749 | AI 支撑技术外沿预测 | 低 | 不能与仅限 lakehouse 的估算比较;只适合作宏观背景 |
所有数值均以 USD billions 计。前七行估算核心数据 lakehouse 类别;IDC 行是更广义的 AI 支撑技术外沿,用来说明 Databricks TAM 取决于边界选择。
[CM023, CM024, CM025, CM028, CM029, CM030]给 Databricks 估值,应看几层嵌套支出口径:宽口径 AI 支出、更窄的核心湖仓品类、偏企业买家的需求切片,以及尚未披露的 Databricks 专属 SAM/SOM。
这张图是边界视角,不是严格 TAM-SAM-SOM 瀑布。公开来源能支撑外层口径和核心品类,但无法隔离 Databricks 专属 SAM 或 SOM。
[CM024, CM029, CM031, CM027, CM038, CM037]最可比的公开区间,是 2025 年核心数据湖仓市场,而不是宽得多的 AI 支撑技术支出口径。
该区间保留一个统一单位和一个品类定义:2025 年核心数据湖仓市场规模。更宽的 AI 支撑技术支出不可比,因此不纳入区间。
[CM024, CM029, CM031]2.2 买方分层、预算与采用路径
买方地图比单一数据工程预算更宽。官方和伙伴材料显示,Databricks 先卖给中央数据平台团队,再延伸到分析负责人、数据科学家、ML 工程师、应用开发者和公共部门数据办公室。Microsoft 的 Azure Databricks 概览明确把数据工程、ML 与 AI、BI、流式分析列为核心工作负载,意味着内部拥护者和预算所有者不止一个。Databricks 自身的 AI/BI 和 Unity Catalog 页面展示了一条路径:从受治理 SQL 与语义层,走进非技术业务用户工作流;Mosaic AI 则推向模型和 agent 构建者。采购也随分层变化:部分交易可通过 AWS Marketplace、Google Cloud 或 Azure 关系进入,公共部门项目则强调机构合规、财政决策,以及州、地方、联邦和高等教育场景中的安全数据共享。该品类的企业权重仍然关键:Grand View 称大型企业占 2024 年数据 lakehouse 收入的 71.4%,这符合 Databricks 的多云、重治理推介,也说明最重要预算掌握在 CIO、CDO、平台和受监管运营负责人手中,而不只是孤立实验团队。上述路径彼此重叠,但花钱方式不同。[CM059, CM060, CM065, CM066, CM067, CM068]
| 细分 | 买方 | 用户 | 付款方 / 工作流 | 预算所有者 | 采用触发点 |
|---|---|---|---|---|---|
| 中央数据平台 | CIO、CDO 或平台负责人 | 数据工程师和平台团队 | Lakehouse 整合、ETL、治理和共享数据服务 | 中央 IT、数据办公室或平台预算 | 需要替换碎片化存储、ETL、治理和分析资产 |
| 分析和 BI | 分析负责人、财务系统负责人或业务运营负责人 | 分析师、财务团队和业务经理 | 受治理的 SQL 分析、仪表盘、语义层和对话式 BI | 分析、财务运营或共享数据预算 | 需要更快的自助分析,但不想再堆一个 BI 孤岛 |
| AI 与 ML 构建者 | CTO、工程副总裁或 ML 平台负责人 | 数据科学家、ML 工程师和智能体开发者 | 模型训练、智能体评估、向量搜索、服务和受治理的 GenAI 工作流 | 工程、产品或数据科学预算 | 需要把 AI 从试验推到企业数据上的生产环境 |
| 应用与产品团队 | 产品负责人或工程经理 | 构建数据或 AI 应用的开发者 | 在面向客户或内部应用中使用 Databricks 数据、SQL 和 AI 服务 | 产品工程预算 | 需要共享数据平台底座,但不想在内部自建整套栈 |
| 公共部门与高等教育 | 机构 CIO、数据办公室负责人或大学管理者 | 政策团队、分析师和领域运营人员 | 合规分析、财政决策支持、安全数据共享和公共服务 AI 用例 | 机构技术、项目或院校预算 | 需要合规现代化,并打通跨机构或校园数据访问 |
| 受监管企业 | 风险、合规、财务或运营负责人 | 分析师、审核人员和业务线专家 | 在敏感数据上跑可信分析和 AI,并保留可审计性与监督 | 带治理监督的职能预算 | 需要提高生产力,但不能牺牲血缘、控制和政策执行 |
Databricks 横跨技术平台预算和业务用户分析预算,但公开证据最强指向的仍是企业级、重治理的采购中心。
[CM059, CM065, CM066, CM067, CM068, CM069]数据平台控制、清晰 ROI 和治理需求同时出现时,Databricks 最契合;公共部门和高度监管工作流仍有吸引力,但节奏更慢。
[CM065, CM066, CM067, CM068, CM069, CM070]2.3 增长驱动、采用约束与估值相关性
需求背景足以支撑品类继续扩张。IDC 预计 AI 支撑技术支出将在 2025 年达到 USD 337B、到 2028 年超过 USD 749B;Confluent 报告称 90% 受访 IT 领导者正在增加数据流投资,44% 报告 5x ROI。Deloitte 也称,2025 年员工 AI 访问量增长 50%,且 40% 以上项目已进入生产的公司将在六个月内翻倍。但同一批来源也揭示了 Databricks 承销真正需要关注的摩擦。Deloitte 称,只有五分之一公司具备成熟的自主 AI agent 治理,且企业在基础设施、数据、风险和人才上的准备程度不如战略层面。McKinsey 把安全性、不准确性、网络安全和培训缺口列为主要障碍。FinOps 显示 AI 支出治理正在上移优先级,CIO 则指出过时数据资产仍无法很好地喂给 AI 系统。EU AI Act 与 NIST AI RMF 进一步说明,高影响用例的节奏由受治理部署决定,而不是原始实验热情。竞争也很激烈:Snowflake 2026 年业绩显示既有厂商动能强劲,客户预算理性化仍在继续。落实到估值,Databricks 受益于庞大长期需求,但持久上行仍取决于它能否比同业和替代方案更快把受治理试点转成可重复的生产预算。[CM038, CM039, CM040, CM041, CM042, CM043]
| 细分 / 类别 | 纳入支出 | 排除支出 | 买方 / 付款方 | 关联性 |
|---|---|---|---|---|
| 统一 lakehouse 平台 | 围绕 lakehouse 架构的存储、处理、SQL、治理和共享数据基础设施核心平台支出 | 通用对象存储、非托管计算,以及不承载 Databricks 工作负载的单点 ETL 支出 | CIO、CDO、数据平台负责人和中央 IT 预算 | Databricks 核心平台落地的主要直接类别 |
| 受治理分析和 BI | Databricks SQL、AI/BI、语义层、仪表盘,以及基于受治理企业数据的对话式分析 | 独立 BI 席位许可或从不接入 Databricks 数据和语义层的报表支出 | 分析负责人、财务运营、商业智能团队和共享数据预算 | 从技术数据团队扩展到业务用户工作流的直接路径 |
| 基于企业数据的 AI、ML 和 agent 开发 | 与企业数据相连的模型开发、agent 评估、向量搜索、服务化和带护栏的 GenAI 工作负载 | 从不使用 Databricks 数据管道或治理的基础模型 API 支出或通用推理支出 | CTO、工程副总裁、ML 平台负责人、产品工程和数据科学预算 | 高增长邻近市场,把 Databricks 推到经典分析之外 |
| 公共部门数据现代化 | 机构数据集成、合规分析、安全数据共享,以及高等教育或政府 AI 用例 | 不落在 Databricks 工作负载上的通用系统集成、公有云迁移或咨询支出 | 机构 CIO、项目负责人、数据办公室、采购和教育管理者 | 独立垂直行业打法,销售受采购和合规强影响 |
| 现状替代栈 | 可被替换的传统数仓、碎片化 ETL 管道、单点 BI 工具、自管 Spark 和内部 AI 工具 | 不替换既有工作流或数据栈的净新增 AI 基础设施支出 | 维护既有工具的现有 IT 和分析预算负责人 | 替换预算的主要来源,也是最清晰的实际替代集合 |
| 广义 AI 支撑技术外沿 | 被广义宏观预测计入的 AI 支撑软件、基础设施和云改造 | 假设所有 AI 支撑支出都会转化为 Databricks 收入 | CIO、CTO、云平台负责人和转型预算池 | 可作为需求背景的外沿上限,但太宽,不能称为 Databricks SAM |
边界从 Databricks 变现表面出发:lakehouse 基础设施、受治理分析、企业数据上的 AI 工作负载和公共部门现代化。通用云基础设施和广义 AI 赋能支出仍是背景,不是直接市场规模。
[CM053, CM054, CM055, CM056, CM057, CM058]| 驱动 / 约束 | 方向 | 时间 | 影响 | 尽调问题 |
|---|---|---|---|---|
| 支撑 AI 的技术支出扩张 | 上行 | 12-36 个月 | 扩大受治理数据与 AI 平台的宏观预算池 | 要求管理层拆分核心湖仓、BI 与 GenAI 工作负载的收入敞口。 |
| 从试验转向业务重塑 | 上行 | 当前 | 支撑更大的平台型采购:把数据、基础设施和 AI 合在一起,而不是买单点工具 | 要求提供对阵单点方案和现有内部自建的胜率数据。 |
| 实时数据与流式处理 ROI | 上行 | 当前 | 强化统一平台的采购理由:用新鲜、可信的数据喂给 AI | 要求提供 Databricks 上流式处理、湖仓与 AI 工作负载的附加率。 |
| 大企业预算集中 | 上行 | 当前 | 支持 Databricks,因为该品类仍以大企业和重治理场景为主 | 要求按企业规模拆分 Databricks 收入结构,并提供平均扩张路径。 |
| 公共部门与教育现代化 | 上行 | 12-24 个月 | 安全共享和合规比从零做 AI 的热潮更重要的垂直场景,会释放需求 | 要求提供公共部门管线、合同规模和采购周期基准。 |
| 自主智能体治理不成熟 | 下行 | 当前 | 即便试验铺开,也会拖慢高影响 AI 工作流落地 | 要求提供受治理智能体的生产部署数量,并与概念验证(PoC)对比。 |
| 监管合规时间线 | 下行 | 12-24 个月 | EU 和信任框架会抬高 AI 进入敏感工作流的成本,尤其是在缺少控制时 | 要求提供 AI 透明度、监控和高风险用例支持的产品路线图证据。 |
| FinOps 审查与 AI 支出治理 | 下行 | 当前 | 预算负责人在扩大支出前,更严格地审视单位经济、预测和政策 | 要求提供 AI 工作负载的毛利率和回本假设,尤其是无服务器与模型服务用量。 |
| 传统数据现代化积压 | 下行 | 当前 | 组织仍要先清理数据、补治理、做现代化,AI 预算才会转成可持续的平台支出 | 要求提供实施周期、迁移卡点和对专业服务的依赖。 |
| 既有厂商竞争与预算理性化 | 下行 | 当前 | 强劲对手和预算审查会拉长销售周期,削弱合同期限的确定性 | 要求提供对阵 Snowflake、云原生替代方案和内部平台团队的赢单 / 输单数据。 |
核心承销问题不是 AI 需求是否存在,而是 Databricks 能否在摩擦累积前,把广泛需求转成受治理、可留存、持续多年的生产支出。
[CM038, CM039, CM040, CM041, CM042, CM043]Databricks 采用通常从数据平台现代化开始,再扩展到受治理的分析和 AI;但规模化生产要等采购、治理和预算证明跑通。
[CM054, CM055, CM060, CM061, CM062, CM071]2.4 图表
03竞争格局
3.1 竞争版图与买方替代方案
Databricks 不再只与经典云数仓竞争。其平台叙事覆盖主流云上的集成、存储、处理、治理、共享、分析和 AI,因此相关集合包括直接数据平台同业、既有云套件、相邻流处理厂商,以及自管理开源堆栈这一现状选项。Snowflake 仍是最接近的直接同业,因为它销售面向分析和 AI 的托管跨云平台,并有自己的治理和消费模型。BigQuery、Microsoft Fabric 和 AWS Redshift 是最大既有替代方案,因为它们各自能通过既有云关系吸收同一企业预算的一部分,再从分析延伸到 AI 和治理。Confluent 与 Databricks 的重叠更窄,主要在流处理和实时处理,但它会争夺上游数据架构决策,从而压低数仓或 lakehouse 支出。最后一组替代仍很强:自管理 Spark、Trino 和其他内部构建组合,让有能力的平台团队可以完全避开部分供应商支出,尽管需要承担更多运营负担。因此,Databricks 同时在与平台厂商、云捆绑包和内部自建路径竞争。[CP001, CP002, CP011, CP014, CP024, CP029]
按开放多云姿态,以及端到端企业数据与 AI 工作流覆盖宽度,对主要替代方案做序数定位。
坐标轴是基于已审阅平台、治理和定价页面推导的有证据支撑序数分数,不是已发布市场数据集。
[CP002, CP003, CP014, CP024, CP029, CP036]3.2 直接同业、既有厂商与相邻挑战者
Snowflake 是最清晰的直接既有厂商,因为它已经具备规模:客户超过 13,300 家,733 名客户年支出超过 $1M,790 名 Forbes Global 2000 客户。它与 Databricks 的差异在架构和经济性上:Snowflake 是一项托管公有云服务,存储、计算和云服务分层独立;Databricks 则倚重 lakehouse 架构、开源血统,以及从数据工程到 AI 工作流的更宽主张。BigQuery 更像云原生替代,而不是同形态公司同业,但它重要,因为 Google 能把 serverless 分析产品与大型云销售动作和不断增强的 Apache Iceberg 支持配在一起。Microsoft Fabric 是最重要的捆绑式进入者:它在 OneLake 上把数据工程、数仓、Power BI 和 Copilot 驱动工作流打包成 SaaS 环境,并叠加 Purview 支持的治理和 Azure 采购杠杆。AWS Redshift 在已标准化 S3、SageMaker 和 AWS 运营的客户中仍是强大既有方案。Confluent 更窄,但战略相关,因为实时数据管道和基于 Flink 的预处理可以在数据到达 Databricks 或 Snowflake 数仓之前先捕获价值。合起来看,这些替代方案说明:当买方想要一个受治理的多工作负载平台时,Databricks 胜率更高;当客户已深处超大云厂商捆绑包,或只需要一个聚焦组件时,Databricks 的部分优势会消失。[CP008, CP009, CP010, CP011, CP014, CP016]
| 竞争对手 | 类别 | 规模 / 融资 | 目标客群 | 核心差异化 | 相对 Databricks 的关键短板 |
|---|---|---|---|---|---|
| Databricks | 参照平台 | Series J 轮预计融资 $10B,估值 $62B;500+ 个 ARR 运行率达 $1M 的客户;15,000+ 家组织 | 企业数据工程、分析、治理和 AI 团队 | 多云湖仓,加上统一治理、AI/BI 和开放格式姿态 | 按工作负载拆分的公开实际成交价和净留存仍未披露;开放格式会降低硬锁定 |
| Snowflake | 直接既有对手 | Q4 FY26 产品收入 $1.23B;733 个 $1M+ 客户;790 个 Forbes Global 2000 客户 | 以 SQL 为主的企业分析、数据共享和 AI 工作负载 | 安装基数大,托管服务简单易用,跨云覆盖强 | 计算 credit 模型和托管服务取向,让它不如 Databricks 贴近开源 |
| Google BigQuery | 既有云平台 | Google Cloud 2024 年 Q4 收入达 $12.0B | 以 GCP 为中心的分析、AI 和湖仓买家 | 无服务器分析,加上托管 Apache Iceberg 支持和 Google AI 分发 | 最适配的是 Google Cloud 采购关系内部,而不是中立的多云控制平面 |
| Microsoft Fabric | 既有捆绑套件 | Microsoft Intelligent Cloud 在 FY25 Q4 收入达 $29.9B | Power BI、Azure 和以业务用户为中心的分析体系 | 端到端 SaaS 分析,带 OneLake、Copilot 和 Purview 支撑的治理 | Microsoft 生态引力帮 Fabric 加分,但也让它不如 Databricks 云中立 |
| AWS Redshift | 既有数据仓库 / 湖仓替代品 | AWS 2024 年分部销售额达 $107.6B | AWS 原生数据仓库、S3 湖仓和 AI 工作负载 | 入门价格低、AWS 集成深、zero-ETL,以及毗邻 S3 / SageMaker | 取向仍围绕 AWS 和 SQL 数据仓库,不是中立的数据到 AI 控制平面 |
| Confluent Cloud + Flink | 相邻实时挑战者 | FY2024 订阅收入 $922.1M;总收入 $963.6M | 流式优先的工程团队和实时 AI / 数据团队 | 统一 Kafka + Flink 栈可在数据仓库支出发生前,把转换左移 | 不是覆盖广泛企业分析的完整数据仓库 / BI / 语义治理平台 |
| Self-managed Spark / Trino | 现状 / 内部自建 | 开源软件;基础设施和人力由内部承担 | 有强基础设施控制诉求的成熟平台团队 | 引擎选择空间最大,并避免平台许可证锁定 | 运维负担、安全、治理和用户赋能都回到客户身上 |
各行比较买家解决同一类企业数据与 AI 任务的主要路径,包括直接同行、既有套件、相邻流式厂商和内部自建。
[CP005, CP008, CP009, CP010, CP011, CP020]3.3 定价、包装、切换成本与多栖使用
定价结构是该市场长期多栖使用的主要原因之一。Databricks 采用随用随付、按秒计费,并提供承诺用量折扣;但公开材料更强调模型结构,而不是一张简单标价表。Snowflake 对计费机制披露更明确:存储、计算和数据传输彼此独立,计算以 credits 计量,即便小型 standard warehouse 也每小时消耗 2 credits。BigQuery 通过按 TiB 扫描和 slot-hour 承诺展示类似透明结构。Fabric 把购买决策转成共享 Capacity Units 和预留节省,同时仍保留可能偏向 Microsoft 中心化 部署的 Power BI 许可细节。Redshift 设定清晰低门槛的 serverless 和 provisioned 起价,并可借力既有 AWS 企业承诺。Confluent 使用基于用量的 Kafka 和 Flink 单元,在流处理而非数仓是重心时很有吸引力。结果是,Databricks 的切换成本只有在平台拥有治理、语义和多种工作负载之后才真正成立。在那之前,多栖使用是理性的:企业可以保留 Snowflake 做 SQL 密集型共享,BigQuery 做 GCP 驻留分析,Fabric 服务 Power BI 重度团队,Redshift 做 AWS 原生数仓,Confluent 处理流数据,同时仍用 Databricks 做工程或 AI。[CP003, CP005, CP006, CP007, CP017, CP018]
| 平台 | 价格 / 单位 / 合同模式 | 包含能力 | 折扣 / 未知项 | 含义 |
|---|---|---|---|---|
| Databricks | 按量付费、按秒计费;可签承诺用量合同 | 统一的数据、分析、治理、SQL、AI 和 AI/BI 界面 | 实际净价因 SKU 和云而异;公开页面强调计费结构,而非单一标价 | 灵活,但外部人士更难与更简单的数据仓库资费精确对标 |
| Snowflake | 存储 + 计算 + 数据传输;计算使用 credit 点数;小型标准数据仓库 = 2 credits/hour | 托管 SQL 分析和 AI 平台,配独立虚拟数据仓库 | Credit 单价取决于版本 / 云协议;按秒计费,但每次启动最低 60 秒 | 计量设计透明,但预测成本需要严格管理 credit 点数 |
| BigQuery | 按需为每扫描 TiB $6.25,或按版本采用每 slot-hour 容量定价 | BigQuery 各版本提供无服务器分析、预留、自动扩缩和 AI 功能 | 实际成本取决于扫描字节数或 slot 承诺 | 低摩擦进入容易,但低效扫描或持续 slot 需求会让成本跳升 |
| Microsoft Fabric | 通过按量付费或预留购买共享 Capacity Units;公开称预留可节省约 41% | 数据工程、数据仓库、BI、AI 体验和 OneLake 放在同一 SaaS 环境中 | 发布 / 共享流程往往仍需 Power BI Pro;部分价值取决于既有 Microsoft 合同 | 在 Microsoft 体系里,捆绑经济性很强,即便逐项功能对比仍有争议 |
| AWS Redshift | 预置型从 $0.543/hour 起,无服务器从 $1.50/hour 起;RPU-hour 按秒计费 | 数据仓库、S3 湖仓查询、zero-ETL 和 AI 集成 | 预留最多可降低无服务器计算成本 45%;准确 TCO 取决于 S3 和相邻 AWS 用量 | 低入门价和 AWS 承诺消费杠杆,形成可信的价格切口 |
| Confluent Cloud + Flink | Kafka 通过 eCKUs 自动扩缩;Flink 按 CFUs / 分钟计价;可签年度承诺 | 流式处理、数据模式、治理和无服务器 Flink 处理 | 数据仓库和 BI 支出仍在别处;价格优势取决于流式优先架构 | 团队想在支付下游数据仓库成本前转换或过滤数据时,吸引力更强 |
本表比较公开计费机制和打包姿态,而不是谈判后的企业净价。
[CP005, CP006, CP017, CP018, CP019, CP025]3.4 护城河耐久性、开放格式与不利证据
Databricks 最强差异化仍来自三件事的组合:开放 lakehouse 定位、受治理数据与 AI 工作流,以及足以横跨工程和业务用户的产品宽度。Unity Catalog 是核心,因为它已从权限扩展到 lineage、语义、业务指标和开放格式治理;AI/BI 则通过原生仪表盘和对话式分析,绕开按席位 BI 定价,削弱了相对 Microsoft 的一个经典短板。但不利证据很关键。Databricks 自己在推进 Iceberg REST catalog 支持和外部引擎互操作,这在战略上聪明,但也降低专有锁定。BigQuery 现在有托管 Iceberg 支持,Redshift 强调通过 AWS lakehouse 使用开放格式和 Iceberg 兼容访问,Snowflake 也以自己的 Iceberg 和 Open Catalog 姿态回应。Fabric 带来另一类威胁:即便它不如 Databricks 云中立,也能凭 Microsoft 采购、Power BI 分发和 Copilot 熟悉度赢下务实标准化决策。结论是,Databricks 看起来仍比大多数单产品对手位置更好,但其护城河不再是格式锁定。关键在于,在云捆绑包把底层基础设施商品化之前,Databricks 能否继续成为开放数据、AI 资产和业务语义上的最佳受治理控制平面。[CP003, CP004, CP007, CP012, CP013, CP027]
| 采购标准 | Databricks | Snowflake | BigQuery | Fabric | Redshift | Confluent / 内部自建 |
|---|---|---|---|---|---|---|
| 跨云中立性 | 强 | 强 | 部分 | 部分 | 部分 | 内部自建 = 强;Confluent = 中等 |
| 受治理的开放表姿态 | 强 | 中等 | 中等 | 中等 | 中等 | 内部自建 = 中等 |
| 同一平台内的业务用户 BI | 强 | 部分 | 部分 | 强 | 部分 | 弱 |
| 流式 / 实时能力深度 | 中等 | 部分 | 部分 | 中等 | 中等 | 强 |
| 数据仓库简洁性 / 低管理路径 | 中等 | 强 | 强 | 强 | 强 | 弱 |
| 开源 / 引擎可迁移性 | 强 | 中等 | 中等 | 中等 | 中等 | 强 |
单元格是对已审阅公开产品、文档和定价表面的序数化总结;不代表各类别的功能深度或运营成熟度完全相同。
[CP002, CP003, CP007, CP012, CP013, CP016]| 护城河主张 | 威胁 | 严重性 | 缓解措施 / 尽调问题 |
|---|---|---|---|
| Unity Catalog 治理覆盖数据和 AI 资产 | Snowflake、BigQuery、Fabric 和 AWS 都在围绕开放格式与共享目录强化治理 | 高 | 要求提供仅凭治理广度就替代捆绑型既有厂商的赢单 / 输单数据 |
| 开放格式领先降低买方对锁定的担忧 | 一旦 Iceberg 互操作性成为标配,同样的开放性也会降低 Databricks 特有的切换成本 | 高 | 检验客户在计算引擎仍多栖部署时,是否仍把 Databricks 标准化为控制平面 |
| AI/BI 降低对单独 BI 工具的需求 | Fabric 可把 Power BI、Copilot 和 Microsoft 采购打包成更简单的高管级购买 | 高 | 要求提供 AI/BI 在 Microsoft 中心账户中的附加率和扩张数据 |
| 多云姿态扩大买方池 | 超大规模云厂商仍可利用既有云支出承诺和服务邻近性,收窄评估范围 | 中 | 按既有云归属和受监管垂直行业,复核大客户胜率 |
| 开源血统支撑工程师内部信任 | 自管 Spark、Trino 和流处理栈对愿意承担运维负担的团队仍有可信度 | 中 | 量化有多少大客户从内部自建升级为付费 Databricks,而不是继续自管 |
主要风险不是某个更强的单点竞争对手,而是整个栈中捆绑和互操作性压力一起收敛。
[CP003, CP007, CP012, CP013, CP027, CP030]这张图概括 Databricks 和保留的主要替代方案如何覆盖企业湖仓决策最关心的购买标准。
矩阵单元格概括公开产品定位和架构证据;有意避开私有功能采用或实施质量方面缺乏支撑的说法。
[CP003, CP007, CP013, CP024, CP027, CP029]序数计分卡,列出最可能决定 Databricks 能否在市场向开放格式和巨头捆绑收敛时守住份额的竞争维度。
分数是分析师基于已审阅公开证据做出的序数判断,不是经审计市场基准。
[CP003, CP007, CP012, CP013, CP030, CP044]3.5 图表
04财务
4.1 收入模型、变现表面与公开牵引力质量
Databricks 现在在财务上更像一个宽口径消费平台,而不是单一分析 SKU。已审阅的公开定价和产品表面显示出多个变现入口:数据工程和数仓计算、AI 和模型服务工作负载、AI/BI,以及更新的数据库产品。承销时最重要的区别在于,这些是基于用量的收入流,不是基于席位的订阅。Databricks 和 Microsoft 均描述了由 DBU 驱动、按秒粒度计费的模式;Microsoft 还明确指出,Azure 客户同时支付 VM 基础设施费用和 DBU 平台费用。双账单结构很重要,因为公开牵引力说法很强,却不等同于已实现的软件毛利。牵引力方面,公司和独立来源在快速扩张路径上相互吻合:从 $2.6B 的已确认 fiscal-2025 收入,到 2025 年 7 月 $3.7B 年化 run-rate,再到 2025 年 9 月 $4.0B、2026 年 2 月 $5.4B。AI 已从营销覆盖层变成实质第二引擎:Databricks 称 AI 产品在 2025 年 9 月跨过 $1.0B 年化收入、到 2026 年 2 月达到 $1.4B;CRN 另称数据仓库收入 run-rate 仍超过 $1.0B。这个组合信号比单一窄口径数仓故事更健康。[CI001, CI002, CI003, CI004, CI005, CI006]
| 收入来源 | 机制 | 单位 | 当前价值 / 状态 | 收入质量 | 尽调问题 |
|---|---|---|---|---|---|
| 核心数据工程计算 | Jobs、通用和无服务器工作负载按 DBU 及所附基础设施用量计费 | DBU-hour 加云基础设施 | 核心变现界面仍在价格页公开且保持活跃 | 中;定价机制公开,但实际净费率不公开 | 要求按工作负载提供每 DBU 实际价格,并按计算类别提供毛利率。 |
| Databricks SQL / 数据仓库 | 无服务器 SQL 及相关数据仓库计算 | DBU-hour | 到 Q3 2025,收入运行率超过 $1B | 中;披露的运行率很强,但不是经审计的收入确认 | 要求提供数据仓库收入结构、数据仓库附加情况和按部署模式拆分的毛利率。 |
| AI 产品 | 模型服务、AI Gateway,以及基于受治理数据的智能体和模型工具 | DBU-hour 和基于请求负载的用量 | 2025 年 9 月运行率突破 $1B,2026 年 2 月达到 $1.4B | 中;多方信源相互印证,但仍是公司主导披露 | 要求拆分 AI 收入:服务、工具和合作伙伴模型转付。 |
| AI/BI | 原生 BI 和对话式分析嵌入平台,不按 BI 席位授权 | 基于用量的平台消费 | 公开定位是不收按席位或按许可证的 BI 费用 | 中;打包方式公开,但独立收入未披露 | 要求提供 AI/BI 附加率、用户结构和每个活跃账户的实际变现。 |
| Lakebase / 数据库 | 面向 AI 智能体的无服务器 Postgres 和数据库无服务器计算 | 数据库计算和存储用量 | 2026 年融资加速的战略扩张方向;收入未披露 | 低;新产品,未公开披露收入贡献 | 要求提供当前签约额、客户数,以及按 Lakebase 工作负载拆分的服务成本。 |
| 专业服务 / 支持 | 附着在平台交易上的实施、迁移和支持服务 | 服务与支持费用 | 公开披露未分拆 | 低;无公开拆分 | 要求提供服务结构、毛利率,以及服务是战略投入还是盈亏平衡。 |
各行区分公开变现机制和仍未披露的部分。基于用量的界面可见;实际收入结构不可见。
[CI001, CI002, CI005, CI006, CI007, CI008]| 产品 / 对比项 | 价格单位 / 合同 | 公开标价 / 计费信号 | 折扣 / 未知项 | 来源 |
|---|---|---|---|---|
| Databricks 核心平台 | 按量付费 DBU | 无前期成本,按秒计费 | 实际净价和企业折扣区间未披露 | Databricks 定价页 |
| Azure Databricks 承诺用量 | 1 年或 3 年 DBCU 预购 | 相比按量付费 DBU 最高节省 37% | 节省只覆盖 DBU,不覆盖完整底层云账单 | Microsoft Azure 定价 |
| Databricks AI/BI | 按平台内嵌用量计费,而不是按 BI 席位 | 不收按席位或按许可证的 BI 费用 | 实际变现路径和附加销售率未披露 | Databricks AI/BI 页面 |
| Snowflake | 计算和存储有标价表 / 计算器 | 托管弹性计算,加单独存储定价 | 容量 / 存储折扣需要合同表,营销页面未展示 | Snowflake 定价 |
| BigQuery | 按 TiB 随用随付或预留 slot | 每月首个免费 TiB 之后,按需分析为每 TiB $6.25;容量口径使用 slot | 实际企业折扣随承诺用量和版本变化 | Google BigQuery 定价 |
| Amazon Redshift | 预置或 serverless RPU | Serverless 起价为每小时 $1.50,活跃时按秒计费 | 预留可降低成本,但会形成承诺结构,并产生单独传输 / 存储费用 | Amazon Redshift 定价 |
本表把 Databricks 标价机制与可比公司的变现结构放在一起,说明用量型数据平台经济性实际如何采购。它不尝试估算 Databricks 每个工作负载的实际净收入。
[CI001, CI003, CI026, CI027, CI028, CI029]Databricks 通过按用量计费的 DBU 以及相邻 AI / 数据库服务,把企业采用转成收入;但客户账单仍另有云基础设施费用。
[CI001, CI002, CI004, CI013, CI017, CI037]最干净且有来源支撑的 2025 年末至 2026 年初收入区间,是 Databricks 年化收入运行率。
这张图使用两个季度内披露的三个运行率点。中位是 2025 年 12 月披露值,不是统计中点。
[CI009, CI013]4.2 GTM 动作与实际存在的公开单位经济代理指标
Databricks 仍不披露 CAC、回本期、quota 效率或销售周期,因此正确做法是依赖公开扩张代理指标,而不是捏造 SaaS 精确度。最好信号来自支出队列和留存。CNBC 报道称,Databricks 在 2025 年 6 月净留存超过 140%,新财年第一季度近 50 名客户年支出超过 $10M,约有 8,000 名员工,同时仍在积极招聘。到 2026 年 2 月,Databricks 和 CRN 都提到,年度收入 run-rate 超过 $1M 的客户超过 800 家,超过 $10M 的客户超过 70 家。这些队列强烈指向一种先落地再扩张的动作,在工程、数仓、BI 和 AI 工作负载之间有实质交叉销售空间。Sacra 还估算,截至 2024 年 6 月,平均合同价值约 $208,696,这在方向上有用,但不能替代已签 ARR 披露。因此,本章应把 Databricks 的销售效率视为有希望但只部分可见:公开证据支持既有企业账户内的强扩张,但没有揭示完整回本模型所需的获客成本、折扣强度或达产时间。[CI017, CI018, CI021, CO023, CI023, CI045]
| 指标 | 数值 | 置信度 | 为什么重要 | 尽调要求 |
|---|---|---|---|---|
| 截至 2025 年 1 月财年的确认收入(十亿美元) | 2.6 | 中 | 至少用一个已报道财年收入数据锚定运行率口径。 | 确认经审计 GAAP 收入、递延收入,以及按产品划分的收入确认政策。 |
| 截至 2026 年 2 月的年化收入运行率(十亿美元) | 5.4 | 中 | 显示进入 2026 年时的规模和加速,但运行率不等同于确认收入。 | 按季度把运行率与已签约收入、确认收入对齐。 |
| 净收入留存率 | >140% | 中 | 显示存量客户内扩张强,支撑用量驱动的先落地再扩张逻辑。 | 按企业客群和产品线提供队列级 NRR。 |
| $1M+ 年化收入运行率客户 | 800 | 中 | 高支出大客户群,是衡量企业深度和交叉销售韧性的实用代理指标。 | 提供这些客户的队列总留存和毛利率画像。 |
| $10M+ 年化收入运行率客户 | 70 | 中 | 超大型客户说明嵌入程度深,也会抬高集中度问题。 | 提供前 10 大客户敞口,以及与超大规模云厂商 / 渠道的重叠。 |
| 平均合同价值代理指标(USD) | 208696 | 低 | 第三方估计只能为最大客户之外的典型交易规模提供方向性参照。 | 用内部 ACV / 年度支出分布校验。 |
| 公开毛利率 | 低 | 毛利率是把高用量增长和可持续现金生成串起来的关键缺口。 | 按主要工作负载和云提供经审计毛利。 | |
| 公开 CAC / 回本周期 | 低 | 没有 CAC 或回本周期,就无法像公开 SaaS 公司那样承销销售效率。 | 提供混合口径和仅企业口径的 CAC、回本周期、销售代表生产力曲线。 | |
| 自由现金流状态 | 截至 2025 年 9 月和 2026 年 2 月,过去 12 个月为正 | 中 | 说明即便未完整披露利润率,经营杠杆仍在改善。 | 按季度提供经营现金流、资本开支和自由现金流的绝对值。 |
Databricks 未公开细节的字段故意保留为空。表格把公开代理指标与缺失的承销输入分开。
[CI013, CI015, CI017, CI018, CI020, CI021]| 缺失指标 | 为什么重要 | 最佳公开代理指标 | 精确尽调路径 |
|---|---|---|---|
| 按工作负载划分的实际净价 | 标价无法揭示净收入质量或折扣强度。 | 只有公开 DBU 机制和承诺用量折扣。 | 索取前 100 大合同样本,包含标价、折扣、云和产品组合。 |
| 经审计毛利率和贡献利润率 | 增长可以很好看,利润率质量却恶化。 | Snowflake 和 Confluent 文件提供可比项;Sacra 只给出 Databricks 的低置信度估计。 | 索取按产品线划分的经审计毛利和基础设施成本分摊。 |
| 现金余额和债务条款 | 没有精确流动性和义务,无法建模资本充足性。 | CNBC 称 Databricks 拥有数十亿美元现金和约 $2B 债务额度。 | 索取交割现金、债务文件、到期时间表和契约摘要。 |
| 月度烧钱和现金跑道 | 现金跑道是私营公司最基础的承销测试。 | 自由现金流为正说明压力较低,但不是完整跑道模型。 | 索取过去 18 个月月度现金桥和下行情景跑道。 |
| CAC、回本周期和销售周期长度 | 后期软件承销需要看清 GTM 效率。 | NRR >140%、800+ 个 $1M 客户和 70+ 个 $10M 客户说明扩张强,但不说明获客效率。 | 按细分市场索取队列 CAC、回本周期、管道转化和销售代表生产力。 |
| 客户集中度和头部账户敞口 | 超大客户群可能掩盖对少数战略账户或渠道的依赖。 | 公开来源显示有 70+ 个客户年化支出超过 $10M,但没有披露头部客户集中度。 | 索取收入集中度、前 20 大账户趋势,以及超大规模云厂商 / 云市场渠道重叠。 |
这些是把强劲公开增长叙事转成完整投资级财务模型的核心障碍。
[CI014, CI017, CI018, CI021, CI044]公开单位经济性证据中,扩张行为最扎实;获客效率和利润率披露最弱。
[CI017, CI018, CI021, CO023, CI045]4.3 成本结构、毛利率路径,以及双账单为何重要
最干净的公开利润率线索不是 Databricks 审计报表,而是平台机制和可比公司申报文件。Databricks 自己称,总拥有成本包括两部分:直接平台成本,以及运行工作负载所需的底层云基础设施成本。Microsoft 补充了运营细节:Azure Databricks 客户同时为 VM 和 DBU 付费,闲置池仍可能产生基础设施账单,承诺用量采购可以降低 DBU 价格,但不能消除云账单。这意味着 Databricks 的利润率质量取决于软件抽成率、工作负载组合、谈判后的超大云厂商经济性,以及新 AI serving 和数据库用量在规模跟上前压缩利润率的程度。Snowflake 的 2026 10-K 是有用的上界可比:即便增加了 $248.1M 第三方云基础设施费用(包括 AI inference),产品毛利率仍为 72%。Confluent 的申报文件则是警示性反例:它称公有云定价会实质影响毛利率,Confluent Cloud 历史平均价格低于其 传统平台,公司还转向免费试用和随用随付的落地动作,短期波动更大。独立 Databricks 专项分析也指向同一方向。CloudForecast、Mammoth 和 Revefi 都强调,DBU 定价加单独云费用会让支出更难预测,尤其当 AI 工作负载尖峰出现时。含义是,Databricks 仍可能具备有吸引力的软件经济性,但缺少经审计的毛利和经营现金流细节,利润率承销仍不完整。[CI002, CI003, CI004, CI005, CI006, CI007]
Databricks 看起来不如硬件重的 AI 公司资本密集,但主要现金流敏感项在云经济性、AI 工作负载组合,以及未披露的债务 / 流动性细节。
由于 Databricks 不公布经审计毛利率、资本开支或现金跑道,这张图是定性地图。
[CI014, CI015, CI032, CI033, CI034, CI037]4.4 资本充足性、融资依赖与财务结论
公开证据指向较低近期融资压力,但仍留下重要承销空洞。Databricks 已从 2024 年 12 月 Series J 一揽子融资——目标是 AI 投资、收购、国际 GTM 扩张和员工流动性——推进到 2025 年 9 月 Series K,再到 2026 年 2 月超过 $7B 的一揽子融资,其中约 $5B 为股权、约 $2B 为额外债务 capacity。叠加公司关于过去 12 个月自由现金流为正的公开表述,Databricks 更像是在融资增长选项,而不是填补已披露的流动性危机。CNBC 还报道公司现在账上有数十亿美元现金,但没有精确余额、债务定价、契约组合、摊还时间表或月度 burn rate。这足以支持一个前瞻判断:相较许多后期 AI 公司,Databricks 收入质量强,短期资本强度风险低;但仍不足以完成贷款人式或 IPO 式流动性模型。本章的实际结论是,Databricks 近期看起来财务耐久,拥有多个增长引擎和充足外部资本通道;但在把公开 run-rate 叙事视为完全承销前,尽调仍应优先核查已实现定价、经审计利润率、现金与债务时间表、客户集中度风险。[CO028, CI012, CI013, CI014, CI015, CI024]
| 资本指标 | 公开数值 / 状态 | 证据 | 承销含义 | 尽调要求 |
|---|---|---|---|---|
| 手头现金 | CNBC 称 2026 年 2 月融资包之后,Databricks 目前手头有数十亿美元现金,但未给出确切余额。 | 流动性看起来充足,但无法建模精确现金。 | 索取当前现金、受限现金和交割后流动性瀑布。 | |
| 月度烧钱速度 | 未公开披露月度烧钱;公司转而强调自由现金流为正。 | 无法用公开数据计算精确现金跑道。 | 索取月度现金消耗桥,以及增长放缓情景下的烧钱情景。 | |
| 现金跑道(月) | 没有精确现金余额,也没有烧钱速度。 | 尽管融资渠道强,现金跑道仍是证据缺口。 | 索取基准、下行情景和并购调整后的现金跑道模型。 | |
| 计划资金用途 | AI 产品、收购、国际市场拓展、员工流动性、Lakebase、Genie | Series J 轮和 2026 年 2 月公司声明明确资金用于增长、产品、并购和流动性。 | 资金看起来偏增长导向,而不是救助导向。 | 索取董事会批准的资本计划和 12-24 个月投放预算。 |
| 下一轮触发因素 | 暂无公开的即时触发因素;IPO / 私募融资看起来是可选项,而非紧急事项 | 自由现金流为正,加上 >$7B 融资包,降低了近期融资依赖。 | 近期资本风险看起来低,但市场窗口仍会影响 IPO 路径。 | 确认管理层对 IPO、债务提款或下一轮私募融资的触发点。 |
| 债务 / 授信义务 | 2026 年 2 月披露 ~$2B 额外债务额度;详细条款未披露 | 债务扩大灵活性,但可能嵌入未公开的契约、定价和到期风险。 | 未来充足性部分取决于未披露债务条款。 | 索取债务协议、契约、到期阶梯和担保包。 |
本表有意聚焦未来流动性和融资依赖,而不是重复报告其他地方已经建立的完整历史轮次时间线。
[CI014, CI015, CI024, CI025]4.5 图表
05产品与技术
5.1 产品范围与客户工作流覆盖
理解 Databricks,最好把它看成一个从分析之前开始、并延伸到分析之后的工作流平台。当前产品表面覆盖 ingestion 与 transformation 模式、bronze-silver-gold lakehouse 组织、集中治理、BI 消费、AI 模型部署和运营型应用数据库。LakeFlow 重要,因为它把 ingestion、transformation 和编排拉近平台,而不是把这些任务完全留给伙伴。Unity Catalog 和 AI/BI 重要,因为它们推动 Databricks 从技术平台所有权走向面向业务的语义、lineage 和对话式分析。Mosaic AI Model Serving 把工作流延伸到实时和批量 inference,Lakebase 则通过把 Postgres 与 lakehouse 配对,进一步推向运营型应用开发。最终结果是一条更宽的客户旅程:摄取并清洗数据,集中治理,把指标和 dashboards 暴露给业务用户,部署模型和外部模型 端点,并越来越多地在同一受治理数据资产之上构建应用或 agents。这种宽度有战略价值,因为它减少工具蔓延;但也意味着承销 Databricks 时,需要评估这些模块协同得多连贯,而不是只判断单一数仓 SKU。[CE001, CE002, CE007, CE011, CE012, CE014]
| 模块 / 产品线 | 主要用户 | 状态 / 成熟度 | 差异化 | 尽调缺口 |
|---|---|---|---|---|
| 核心湖仓 + 奖牌架构 | 数据工程师和平台团队 | 成熟核心工作流 | 从原始数据到增值数据,跨 bronze、silver、gold 层走一条统一治理路径 | 需要按工作负载提供迁移摩擦和各云性能证据。 |
| Unity Catalog | 数据平台、治理、安全和分析团队 | 成熟控制平面支柱 | 开放格式治理、数据血缘、联邦,以及跨数据和 AI 资产的行 / 列控制 | 需要公开证据证明较新的业务语义和 AI 治理功能采用深度。 |
| Databricks SQL + AI/BI | 分析师、业务用户和语义层负责人 | 成熟分析产品,业务用户触达正在扩大 | 在受治理数据上提供原生 BI,带对话式分析且公开口径没有按席位 BI 费用 | 需要公开证明生产环境 BI 采用、并发和仪表盘迁移成功。 |
| Mosaic AI Model Serving | ML 工程师、应用开发者和平台团队 | 成熟服务面,外部模型治理正在扩展 | 面向内部和外部模型的统一 REST 部署和 serverless 服务 | 需要相对替代方案的独立延迟、成本和护栏基准。 |
| LakeFlow | 数据工程团队 | 正在扩展;2024 年推出,仍在整合合作伙伴重叠 | 内置摄取、转换和编排,减少对独立数据流水线工具的需求 | 需要公开证据证明连接器广度、可靠性和大规模生产引用。 |
| Lakebase | 应用开发者和智能体构建者 | 新兴但进展明显;据报道 2026 年 GA | 与湖仓集成的运营型 Postgres,支持分支、时间点恢复、缩容至零 | 需要客户量、服务成本和多云可用性细节。 |
| Lakewatch | 安全团队和 SecOps 分析师 | 2026 年新推出 | 把 Databricks 数据平台延伸到 AI 辅助 SIEM 工作流 | 需要公开基准、客户引用和误报 / 有效性数据。 |
| CLI + Python SDK | 开发者和平台工程师 | 近期持续发布的活跃生态工具 | 除 notebook 之外的多云自动化和开发者工作流 | 需要完整生态中更广泛的使用量和贡献者趋势。 |
各行把成熟核心平台层与 Lakebase、Lakewatch 等较新的扩张产品分开。“状态 / 成熟度”反映公开发布证据,而不是内部收入贡献。
[CE002, CE007, CE012, CE022, CE028, CE037]| 用户任务 | 当前工作流 | Databricks 方案 | 可衡量收益 | 限制 |
|---|---|---|---|---|
| 摄取 SaaS 和数据库数据 | 团队通常在分析前串起独立的摄取、复制和编排工具 | Databricks 内的 LakeFlow 摄取、转换和编排 | LakeFlow 推出是为了减少对定制或第三方摄取栈的需求 | 公开证据没有显示连接器可靠性或大规模实际替换率。 |
| 创建受治理的企业数据产品 | 数据落在割裂的数据存储和治理工具里,控制重复 | 奖牌分层加 Unity Catalog 治理和数据血缘 | 统一治理和数据血缘降低审计摩擦,也让下游使用更容易追踪 | 治理运营效率的公开证据目前主要仍来自供应商。 |
| 让业务用户自助分析 | BI 依赖独立语义层和按席位授权模型 | 受治理数据上的 AI/BI Dashboards、Genie、Databricks SQL 和 Business Semantics | 公开口径没有按席位 BI 费用,对话式分析降低访问摩擦 | 客户从既有 BI 工具迁移的工作量没有公开量化。 |
| 部署和管理 AI 推理 | 团队分别管理模型端点、API 和供应商凭据 | Mosaic AI Model Serving,带 REST API、serverless 扩缩和集中治理的外部模型 | 统一批处理和实时推理路径,在一个控制平面下简化部署 | 独立的延迟、成本和安全比较有限。 |
| 在受治理数据上构建运营应用 | 运营数据库和分析仓库被 ETL 与独立工具隔开 | Lakebase 增加了与湖仓和 Databricks Apps 集成的 Postgres | VentureBeat 报道,早期采用者根据不同客户案例将应用交付时间缩短 75%-95% 或 56%-92% | 这些性能结果由公司通过媒体报道披露,尚未被广泛审计。 |
只有在保留来源提供具体工作流或结果陈述时,才纳入收益。媒体报道的客户结果置信度低于经审计基准数据。
[CE011, CE013, CE020, CE021, CE022, CE023]工作流从源数据摄取开始,走向受治理分析、AI 部署和运营应用交付。这张图突出 Databricks 如何从核心湖仓根基扩展到管道工具和 Postgres 支撑的应用。
[CE011, CE013, CE020, CE021, CE022, CE028]这张定性成熟度图梳理 Databricks 各能力区。核心治理与湖仓层看起来已经成熟;BI 和 AI 服务处在成熟到扩张阶段;Lakebase 与 Lakewatch 仍是较新的产品线,还需要更广泛的公开证据。
成熟度标签是分析师综合公开发布证据、文档深度和独立报道作出的判断;不是公司提供的评分。
[CE004, CE011, CE022, CE028, CE031, CE033]5.2 架构、部署模型与关键依赖
最有公开支撑的架构图是混合式:Databricks 管理 control plane,经典计算仍在客户云账户中运行,serverless 计算则运行在 Databricks 管理的基础设施上。Azure 文档和独立架构分析都描述了 control-plane / compute-plane 分离,Databricks 自身架构指南也围绕 control plane、compute plane 和 storage 来组织平台。在数据路径上,Databricks 持续推动 medallion pattern,因为 bronze、silver、gold 层让 ingestion、validation 和 consumption 步骤更容易表达成一条受治理 pipeline。Unity Catalog 随后充当这些资产上方的 metadata 和 policy plane,model serving 则通过 REST APIs 和 serverless scaling 暴露受治理 inference endpoints。因此,依赖图不只是超大云厂商。Databricks 还依赖开放表格式政治、Google Cloud 上的 BigQuery 和 Gemini 等伙伴云服务、NVIDIA RAPIDS 等 GPU 加速路径,以及客户希望集中治理第三方模型时的 OpenAI、Anthropic 等外部模型提供商。该架构灵活且有差异化,但也意味着产品质量取决于 Databricks 能否在同一 control plane 下管理好云边界、开放格式互操作和外部服务性能。[CE003, CE015, CE016, CE017, CE018, CE019]
| 层 / 组件 | 角色 | 依赖 | 风险 |
|---|---|---|---|
| 账户 + 控制平面 | 托管 Web app、账户服务、API 和中央协调 | Databricks 管理的控制平面和账户服务 | 如果中央服务降级,控制平面集中会放大故障半径。 |
| Workspace + classic 计算平面 | 在客户云账户中运行 notebook、任务和客户管理的计算 | 客户云网络、身份和 classic 集群配置 | 安全姿态随 workspace 设计和云账户卫生而变化。 |
| Serverless 计算 | 运行模型服务和 serverless SQL,无需客户管理公网 IP | Databricks 管理的 serverless 基础设施和单独条款启用 | 客户控制更少,服务族 SLA 和事故率的公开透明度也更低。 |
| 湖仓数据流水线 | 通过 bronze、silver、gold 质量层组织数据 | 存储系统、摄取工具和奖牌架构规范 | 如果 silver / gold 控制薄弱,上游低质量数据仍会传播。 |
| Unity Catalog 元数据平面 | 执行治理、数据血缘、发现和联邦 | 开放格式、外部系统和跨云策略配置 | 元数据中心化是战略优势,也会变成控制平面依赖。 |
| AI 部署层 | 通过 REST API 和 AI Functions 服务内部及外部模型 | Serverless 计算、模型注册表,以及 OpenAI、Anthropic 等第三方模型提供商 | 延迟、成本和策略结果部分取决于外部模型供应商。 |
| 开放生态 + 伙伴云层 | 通过 Iceberg、BigQuery、Gemini 和 GPU 加速扩展 Databricks | Google Cloud、NVIDIA 和开放表格式互操作 | 差异化与合作伙伴表现和开放格式标准演进绑定。 |
| 运营数据库层 | 为 AI 智能体和运营应用运行 Lakebase Postgres | 源自 Neon / Mooncake 的数据库技术,加 Unity Catalog 同步 | 相比核心湖仓,新产品类别公开的扩展和可靠性历史更少。 |
本表强调运营模型依赖,而不是底层实现细节。公开来源支持控制平面拆分、奖牌式数据流水线和伙伴依赖,但不支持内部服务拓扑。
[CE015, CE018, CE019, CE020, CE022, CE023]五层技术栈展示 Databricks 如何把面向用户的分析和应用工作流,与集中治理、湖仓管道、AI 服务和多云基础设施连起来。架构很宽,但控制平面和合作伙伴生态仍是关键依赖。
[CE003, CE007, CE012, CE018, CE020, CE022]有向图展示塑造 Databricks 产品交付的主要外部和内部依赖:超大规模云厂商、开放格式、GPU、外部模型,以及 Databricks 中央控制平面。
[CE018, CE019, CE024, CE028, CE030, CE034]5.3 信任、安全、隐私、合规与可靠性姿态
Databricks 有足够公开信任材料,能显示严肃企业姿态,但不足以把信任视为完全去风险。Trust Center 称安全内建于平台每一层,并公开向买方指向加密、网络控制、审计、身份集成、访问控制和数据治理。合规页面列出一长串与受监管买方相关的框架,包括 FedRAMP、HIPAA、GDPR、PCI-DSS、ISO 27001/27017/27018/27701 和 SOC;其中 SOC 3 公开,其他报告可通过尽调渠道获取。Serverless SQL 提供了一个具体架构信任信号,因为 Databricks 称这些 warehouses 没有公共 IP 地址。与此同时,可靠性仍是活跃运营问题,而不是已解决的勾选项:在运行日期,AWS 状态页显示多个区域存在部分计算中断,尽管 AI/BI 和 Apps 大体正常。独立 uptime 监控只能提供有限安慰,因为它们通常汇总 uptime,却不发布详细事故数据或根因。AI 安全 也仍在移动中,不是关闭问题。Databricks 公开讨论 AI 安全资源,并在 2026 年 3 月推出 Lakewatch 作为 AI 辅助 SIEM 产品,但关于检测质量、误报或负责任 AI 控制在生产环境表现的独立证据仍很少。[CE025, CE031, CE032, CE033, CE044, CE045]
| 控制 / 认证 / 质量信号 | 状态 | 范围 | 缺口 |
|---|---|---|---|
| 加密、网络控制、审计、身份集成、访问控制、治理 | 公开记录 | Databricks Trust Center 所述的平台级信任姿态 | 公开页面没有量化控制有效性或事故预防结果。 |
| 无公网 IP 的 Serverless SQL | 公开记录 | AWS 上的 Serverless SQL 网络隔离 | 本身不披露正常运行时间、出口策略覆盖或全部 serverless 服务边界。 |
| 合规框架:FedRAMP, HIPAA, GDPR, PCI-DSS, ISO 27001/27017/27018/27701, SOC | 公开列出 | 受监管行业和隐私在支持云上的姿态 | 框架清单不等同于客户特定配置或范围匹配。 |
| SOC 3 公开;SOC 1 和 SOC 2 可通过尽调渠道获取;报告每年刷新三次 | 公开记录 | 审计节奏和报告可得性 | 除可得性和节奏外,本章没有公开 SOC 细节。 |
| 按服务族和区域划分的实时状态页 | 公开记录 | 活跃事故的运营可见性 | 历史 MTTR、严重度分布和根因报告仍有限。 |
| Lakewatch AI 辅助 SIEM 发布 | 近期发布 | 将平台延伸到 AI 安全运营 | 独立有效性证据和客户部署仍稀少。 |
信任证据在控制覆盖和合规广度上最强,在量化可靠性和独立 AI 安全有效性上最弱。
[CE025, CE031, CE032, CE033, CE044, CE045]5.4 成熟度、差异化与路线图信号
最强差异化信号是,Databricks 试图成为开放数据、AI 资产以及如今运营型应用数据的受治理 control plane,而不只是 Spark jobs 运行的地方。Unity Catalog 的开放格式姿态、federation 支持和 lineage 功能是该战略核心;Google Cloud 的 Iceberg 评论和 theCUBE 的 2025 summit 总结也强化了这一点:开放性是真实产品方向,而非一次性话术。2024–2026 年发布节奏同样显示范围持续扩张:LakeFlow 处理 ingestion 和编排,2025 summit 把语义、agent tooling 和 Lakebase 推到前台,Lakebase 在 2026 年初 GA,Lakewatch 数周后又新增安全层。开发者信号也指向同一方向。CLI 和 Python SDK 在 2026 年 4 月有活跃发布,SDK 文档强调跨 AWS、Azure 和 GCP 的统一支持,这符合平台公司而非窄包装应用的覆盖形态。公开证据因此支持一个判断:Databricks 在核心 lakehouse、治理和开发者工具上产品成熟度较宽,在 BI 和 AI serving 上成熟度扩张,在运营数据库和 AI-security 产品上成熟度仍早。弱项在前瞻可见性:Databricks 保持活跃发布说明 节奏,但不发布带日期的路线图,外部投资人难以清晰区分近期发布与长期野心。[CE004, CE006, CE009, CE010, CE027, CE035]
| 日期 / 阶段 | 功能 / 里程碑 | 状态 | 含义 | 来源 |
|---|---|---|---|---|
| 2024-05-14 | NVIDIA 发布 RAPIDS-on-Databricks 技术指南 | 生态能力已有文档 | 说明 Databricks 在投入 GPU 加速的开发者工作流,而不只是 CPU 绑定分析。 | NVIDIA 技术博客 |
| 2024-06-12 | LakeFlow 发布,覆盖摄取、转换和编排 | 已发布 | 把 Databricks 向上游推进到内置数据流水线工具,降低对相邻供应商的依赖。 | TechCrunch |
| 2025-06-11 | Data + AI Summit 2025 更新围绕 Unity Catalog 语义、开放格式、生成式 AI 工具和 Lakebase | 已宣布 / 扩展中的方向 | 显示平台正从湖仓核心扩向更广的企业数据与 AI 操作层。 | theCUBE Research |
| 2025-08-30 | Google Cloud 博客强调 Unity Catalog 跨目录支持 Iceberg | 合作伙伴确认的生态里程碑 | 强化 Databricks 开放格式与互操作路线。 | Google Cloud 博客 |
| 2026-02-03 | 据报道 Lakebase 已正式 GA,基于 Neon 和 Mooncake 技术 | 独立媒体报道已 GA | Databricks 不再只服务分析,也切入运营应用和智能体工作流。 | VentureBeat |
| 2026-03-24 | Lakewatch AI 安全产品发布 | 新产品发布 | Databricks 由此进入 SIEM 式安全工作流,但也新增一层验证压力。 | TechCrunch |
| 2026-04-30 | 公开发布渠道可见 CLI v0.299.0 和 Python SDK 0.106.0 | 开发者工具节奏活跃 | 开发者工具迭代足够快,已可作为产品化信号。 | GitHub / PyPI |
| 2026-05-04 | 发布说明索引更新至 2026 年 5 月,并点名 Lakeflow 声明式管道和无服务器能力 | 当前发布节奏可见 | 证明平台仍在迭代,但不能当作带日期的前瞻路线图。 | Databricks 文档 |
本表只看会改变产品范围或成熟度、且外部可见的里程碑;不根据公开版本和公告之外的信息 推断未披露的未来日期。
[CE027, CE035, CE037, CE038, CE040, CE041]5.5 图表
06客户
6.1 客户分层与可见买方地图
Databricks 的公开客户图景很宽,但按购买语境拆开看最有用,而不是把它当成单一 logo 墙。公司自身 2025 和 2026 年披露如今把规模锚在超过 20,000 家组织和 70% Fortune 500,而 CNBC 在 2025 年中仍引用超过 15,000 名客户。这个变化重要,因为它显示的是广度和动能,而不是一次性营销数字。可见买方地图也比核心数据工程销售更宽。Microsoft、Google Cloud 和 SAP 都把 Databricks 定位为企业分析与 AI 采购路径;具名账户覆盖电信、支付、媒体、零售、医疗健康和公共部门式工作负载。实践中,Databricks 卖给平台负责人、数据与 AI 团队、治理负责人,并越来越多卖给使用 AI/BI 和受治理分析的业务用户。付款方通常是中央平台或云预算,但伙伴路径会影响采购和续约控制。这让 Databricks 看起来像一家拥有多个买方中心的规模化企业平台,而不是单一工作负载工具。[CU001, CU002, CU003, CU042, CU043, CU044]
| 客群 | 采购方 / 用户 / 付费方 | 用例 | 规模 | 收入 / 战略价值 | 缺口 |
|---|---|---|---|---|---|
| 大型全球企业 | CDO/CIO、平台团队、分析师、受治理的业务用户 | 统一数据、分析、AI 与智能体工作负载 | 公司称客户数 20,000+;Fortune 500 渗透率 70% | 最大的扩张来源和大客户群 | 未公开区分活跃、付费和渠道导入客户 |
| 消费与数字体验品牌 | 市场营销、数据科学、产品、运营 | 实时搜索、粉丝体验、个性化、门店运营 | 公开重点提及 7-Eleven、FOX Sports、Rivian、Block | 说明 Databricks 能走出传统后台分析 | 未公开消费品牌客户的合同金额或续约细节 |
| 金融服务与支付 | 数据平台、治理、入驻、欺诈、风险团队 | AI 助手、安全数据协作、管道优化 | 当前披露中明确点名 Mastercard 和 Block | 治理和隐私权重高,因此标杆价值高 | 未公开收入集中度或采购周期细节 |
| 受监管医疗、制造业与公共部门 | 制造运营、合规、数据工程、联邦承包商 | 运营数据统一、可靠性和合规分析 | Insulet,以及 FedRAMP/Azure IL5 公共部门就绪度 | 支撑以信任为牵引的受监管工作负载扩张 | 未公开公共部门订单额或医疗留存数据 |
| 经合作伙伴导入的企业买家 | 云架构师、企业平台团队、SAP 数据所有者 | 通过 Azure、Google Cloud Marketplace 或 SAP Business Data Cloud 采购 | Azure、Google Cloud 和 SAP 都保留活跃的 Databricks 采购路径 | 扩大分销触达,并降低部分企业采购摩擦 | 未披露直营与合作伙伴来源客户占比 |
本分层拆开可见的采购场景和渠道,而不是把客户证据笼统塞进一个企业客户大桶。
[CU001, CU002, CU003, CU042, CU043, CU044]6.2 具名部署证明在包含可衡量结果时最有力
最强公开客户证明不是 logo 存在,而是带具体结果的具名部署。2025 年 7 月 Databricks 峰会回顾给出最干净的近期集合。7-Eleven 在超过 13,000 家门店中用 Databricks 打造多用途 agentic 营销助手,也用 Databricks 工作流支持 Unity Catalog 迁移。FOX Sports 构建 Cleatus AI,用自然语言回答球迷问题,并称 AI 驱动搜索让查询成功率提升 2x。Mastercard 同时提供工作流和经济性证明:其 onboarding 助手用 Databricks 构建,使用人在环路反馈,Databricks 称 Mastercard 将查询时间缩短 80%、存储降低 70%,处理周期从数月压缩到数天。AT&T 是伙伴域中最佳大型企业迁移证明,Microsoft 记录其在 Azure Databricks 上实现五年 ROI 300%、减少超过 80 个 schemas,数据科学周期约快 3x。Insulet 补充了医疗健康和制造证明,处理速度快 12x,数据栈成本大幅下降。合起来,这些引用支持多个垂直和多种部署形态中的真实生产使用,而不只是 会场演示。[CU011, CU012, CU013, CU014, CU015, CU016]
| 客户 | 客群 | 部署 / 用例 | 生产环境 / 试点 | 结果 | 限制 |
|---|---|---|---|---|---|
| 7-Eleven | 零售 / 门店运营 / 市场营销 | 智能体营销助手、Unity Catalog 迁移支持、技师知识检索 | 公开展示的生产用例 | 跟踪 13,000+ 家门店的表现,并用工作流指导迁移步骤 | 未公开合同金额、续约数据或 ROI |
| FOX Sports | 媒体 / 消费者互动 | Cleatus AI 粉丝助手,可用自然语言搜索比分、统计和解说 | 生产 | AI 搜索让粉丝查询成功率提升到原来的两倍以上 | 未披露商业指标或留存条款 |
| Mastercard | 金融服务 / 支付 | 生成式 AI 入驻助手,以及数据管道优化和治理 | 生产 | 入驻提速,据报道流失下降,查询时间降 80%,存储降 70%,处理周期从数月缩到数天 | 未披露客户经济性和续约细节 |
| AT&T | 电信 / 企业数据平台 | 将大型数据资产迁移到 Azure Databricks,并落地 AutoClassify ML 用例 | 生产 | 五年 ROI 300%,减少 80+ 个 schema,数据科学周期快约 3x | 案例研究聚焦内部平台价值,不体现外部收入结果 |
| Insulet | 医疗 / 制造 | 用 Lakeflow Connect 统一制造和客服数据 | 生产 | 处理快 12x、TCO 低 97%,并接近实时地摄取企业数据 | 公开证据仅来自公司撰写材料;没有独立结果审计 |
本表优先列出结果可量化或有可信佐证的最清晰具名账户,而不是穷尽客户名单。
[CU012, CU013, CU014, CU015, CU016, CU017]按具名账户衡量公开客户证据的相对强度。
[CU012, CU016, CU019, CU020, CU024, CU026]6.3 耐久度方向上很强,但公开留存证明仍不完整
公开耐久性证据偏正面,但尚不足以像承销一家充分披露的上市软件公司那样承销 Databricks。最强披露信号是公司持续净留存超过 140%,2025 年 9 月和 2026 年 2 月重复披露,并得到 CNBC 和 CRN 佐证。大客户队列也指向同一方向:同一大致时期内,Databricks 从 650 多名增长到 800 多名 $1M 年度 run-rate 客户,$10M 客户从近 50 名增至超过 70 名。这些都是真实扩张指标。但公开留存证据仍止步于投资人理想状态之前。没有公开 GRR,没有分段 churn,没有 cohort waterfall,也没有合同期限披露。评价页面只能作为方向性材料。Databricks 自己的 Gartner 回顾指向强 AI/BI 满意度,可访问的独立 review 页面也持续出现关于成本控制、复杂性和上手体验的抱怨。正确结论是,Databricks 展现了强扩张和有意义产品价值,但公开来源仍不能按 cohort 或产品线证明续约耐久度。[CU004, CU005, CU006, CU007, CU008, CU009]
| 指标 | 值 | 日期 | 来源 | 置信度 | 含义 | 缺失分母 |
|---|---|---|---|---|---|---|
| 公开客户数(历史参照) | 15,000+ | 2025-06-12 | CNBC | 中 | 说明在 2025-2026 融资周期前,规模已经很大 | 未区分付费账户和活跃账户 |
| 公开客户数(公司当前说法) | 20,000+ | 2026-02-09 | Databricks 新闻稿 | 中 | 锚定当前在企业和 AI 买家中的覆盖广度 | 未按产品家族或地域拆分 |
| Fortune 500 渗透率 | 70% | 2026-02-09 | Databricks 新闻稿 | 中 | 显示企业触达很深、标杆价值高 | 未披露每个 Fortune 500 账户的渗透深度 |
| 年运行率 $1M+ 客户 | 650+ | 2025-09-08 | Databricks 新闻稿 | 中 | 支撑大账户先落地再扩张的动能 | 未披露该队列总留存率 |
| 年运行率 $1M+ 客户 | 800+ | 2026-02-09 | Databricks 新闻稿 / CRN | 中 | 显示大客户账户到 2026 年仍在快速扩张 | 未公开该队列贡献的收入占比 |
| 年支出 $10M+ 客户 | 近 50 | 2025-06-12 | CNBC | 中 | 证实到 2025 年中,大客户队列已具备实质规模 | 未披露前 10 大客户集中度 |
| 年运行率 $10M+ 客户 | 70+ | 2026-02-09 | Databricks 新闻稿 / CRN | 中 | 指向更深的企业嵌入和交叉销售 | 未按客群或云渠道拆分 |
| 净留存率 | >140% | 2025-09 至 2026-02 | Databricks / CNBC / CRN | 中 | 衡量平台扩张耐久性,公开指标里它最有参考价值 | 无 GRR、流失或分时段队列数据 |
轨迹行依赖公开的覆盖广度和支出队列指标,而不是没有依据地估算活跃席位或部署数量。
[CU001, CU003, CU004, CU005, CU006, CU007]| 指标 | 值 / null | 客群 | 置信度 | 尽调索取 |
|---|---|---|---|---|
| 净留存率 | >140% | 整体平台 | 中 | 索取按产品家族和客户层级拆分的 GRR、logo 流失和留存。 |
| AI/BI 评价信号 | 167 条已验证评价中,评分 4.8 / 5,94% 愿意推荐 | 分析和 BI 用户 | 中 | 验证 AI/BI 满意度能否转化为更广泛的平台续约。 |
| PeerSpot 评价样本 | 93 条评价;多次出现成本管理投诉 | 企业评价网站受众 | 低 | 按客群索取支持 SLA、FinOps 工具采用率和成本治理结果。 |
| Capterra 归档评价信号 | 17 条归档评价;缺点中反复出现设置和界面复杂度 | 混合用户群 | 低 | 索取新团队或小团队从入驻到见效的时间,以及培训要求。 |
| Mastercard 入驻流失方向 | 流失下降,具体百分比未披露 | 支付入驻工作流 | 低 | 索取上线前后的量化放弃率,以及企业推广范围。 |
| 公开 GRR / 队列留存 | 全部客群 | 低 | 索取企业、受监管和 AI 重度客户按月、按年的队列留存。 | |
| 公开合同期限 / 续约条款 | 全部客群 | 低 | 按账户层级索取加权平均剩余期限和标准续约节奏。 |
公开耐久性证据里,NRR 最强;队列留存、GRR 和合同期限细节最弱。本表有意替代 原计划的队列图,因为未找到公开的 0-100 留存队列数据。
[CU008, CU009, CU010, CU034, CU035, CU036]| 证据领域 | 公开信号 | 缺失项 | 为何未使用图表 |
|---|---|---|---|
| 净留存率 | 2025-2026 年公开反复提到整体 NRR >140% | 无 GRR、logo 流失或 0-100 分时段留存序列 | 队列图需要真实百分比分桶,而不是方向性的扩张信号。 |
| $1M+ 和 $10M+ 队列 | 公开披露 650+、800+、近 50 和 70+ 个大账户 | 无这些大客户层级的队列续约或收缩历史 | 支出层级数量能显示扩张,但满足不了留存队列的数据契约。 |
| 评价和满意度信号 | AI/BI 评分强,但 PeerSpot 和 Capterra 显示成本与复杂度投诉 | 这些评价与实际付费续约行为之间没有关联数据 | 评价文本有助于定性判断耐久性,但不能填入数值队列单元格。 |
| 具名客户案例 | Mastercard、AT&T、FOX Sports、7-Eleven 和 Insulet 展示了在线部署和结果 | 这些客户案例没有公开合同期限、队列或续约分母 | 案例研究证明生产使用,不证明随时间变化的留存百分比。 |
本附表有意替代原计划的留存队列图,因为公开来源没有提供 0 到 100 之间的分时段留存百分比。
[CU005, CU006, CU007, CU008, CU009, CU010]6.4 扩张逻辑可信,但集中度和渠道经济性仍部分隐藏
即便没有完整 cohort 披露,Databricks 的扩张逻辑也清晰可见。平台可以从数据工程或云迁移采购起步,再扩展到治理、AI serving、AI/BI、运营数据产品或客户专属 agent 工作流。AT&T 在同一架构上有近 90,000 名内部用户,Mastercard 从数据管道扩展到接入助手,都是用例变宽的具体例子。公开伙伴表面强化了同一模式。Azure 把 Databricks 定位为第一方 Azure 服务,Google Cloud 通过 Marketplace 提供 Databricks,SAP 如今把 SAP Databricks 作为第一方服务嵌入 Business Data Cloud。这些路径应当让 Databricks 在大型企业中更容易购买、更难被替换。未解问题是经济控制。公开来源没有显示收入中有多少来自伙伴,头部客户集中度多高,或精心挑选的引用名单是否夸大了扩张容易度。因此,Databricks 在客户采用质量和交叉销售逻辑上看起来强,但在把客户耐久度视为完全承销前,仍需要对头部账户集中度、渠道组合和条款结构做私下尽调。[CU005, CU006, CU019, CU024, CU031, CU041]
| 扩张驱动 | 集中度风险 | 影响 | 尽调路径 |
|---|---|---|---|
| 用量牵引的平台扩张,从数据工程延伸到 AI、BI 和运营用例 | $10M+ 大客户队列已有实质规模,但头部客户占比未披露 | 增长强劲,但基座最顶端的收入集中度未知 | 索取前 10 和前 20 大客户 ARR 占比、总留存率,以及大客户队列的产品挂载情况。 |
| AT&T 和 Mastercard 显示,平台标准化后可在内部先落地再扩张 | 切换成本强,可能掩盖对少数深度嵌入账户的依赖 | 能提升耐久性,但若某个战略账户放慢消耗,也会放大下行风险 | 索取最大客户按 workspace、地区和产品家族拆分的用量集中度。 |
| 经 Azure、Google Cloud 和 SAP 的合作伙伴渠道 | 合作伙伴导入交易可能压缩经济性,或转移续约控制权 | 渠道杠杆能帮助获客,但会削弱对采购和利润率的直接控制 | 按渠道索取直营与合作伙伴来源订单额、Marketplace 组合和续约归属。 |
| 可对外引用的 AI 用例,如 7-Eleven、FOX Sports、Mastercard 和 Insulet | 筛选后的案例可能高估平均部署成功率,低估失败试点 | 公开验证不错,但幸存者偏差仍是实打实的尽调问题 | 按客群索取过去四个季度的赢单 / 输单数据、失败试点数量和客户背书。 |
| 评价样本大、AI/BI 满意度高,但成本投诉反复出现 | 如果成本治理弱,小型或不成熟买家扩张可能更慢 | 即使头部账户继续扩张,也可能限制成熟企业团队之外的采用深度 | 索取小账户的成本治理挂载率、培训覆盖和支持解决指标。 |
扩张逻辑可见,但集中度和渠道经济性仍明显披露不足。
[CU005, CU006, CU019, CU024, CU031, CU035]大型 Databricks 账户从最初的平台需求,到生产上线,再到跨工作负载扩张的可观察路径。
[CU005, CU006, CU012, CU016, CU019, CU024]从企业需求到标准化多工作负载部署的公开可观察采用路径。
[CU005, CU006, CU012, CU016, CU019, CU029]6.5 图表
07风险
7.1 法律、监管与安全风险真实存在,尽管公开信任表面很强
Databricks 的公开合规和信任姿态,比许多私有基础设施厂商更强:公司发布隐私通知、可下载的 DPA、信任中心、尽调包、法律中心,并在技术文档里明确安全责任。这能降低初始尽调摩擦,也说明公司为进入受监管企业做了准备。剩余风险在于,文档齐备不等于风险已经出清。EU AI Act 已经生效,通用 AI 模型义务分阶段落地;公共部门授权明确按云和软件包划分;Databricks 仍卷在与 Mosaic 和 DBRX 相关的版权纠纷中。Books3 / RedPajama 诉讼不是抽象的 AI 政策讨论,而是一个正在推进的法律程序,横跨美国和加拿大,赔偿不确定,还可能外溢到企业 AI 买家的声誉判断。因此,Databricks 在纸面准备上优于许多同业,但仍暴露在监管范围扩张、模型治理审查和诉讼结果的组合风险中,仅靠公开数据很难定价。[CR001, CR004, CR007, CR008, CR009, CR010]
| 风险 | 司法辖区 / 来源 | 状态 | 可能性 | 严重性 | 缓释 | 剩余敞口 | 尽调路径 |
|---|---|---|---|---|---|---|---|
| 与 Mosaic / DBRX 相关的 AI 版权诉讼 | 美国联邦 + 加拿大 | 美国案件仍在审理,另有拟议中的加拿大集体诉讼 | 中 | 高 | 诉讼抗辩、模型治理证据、隐私 / 信任材料 | 证据开示、赔偿或和解可能抬高法律成本,也增加企业信任摩擦 | 索取完整诉讼备忘录、准备金分析、保险覆盖和训练数据来源 |
| EU AI Act 与 AI 治理义务 | 欧盟 / EEA | GPAI 和高风险用途的分阶段义务在 2025 和 2026 年开始 | 中高 | 高 | DPA、SCCs、信任材料、Unity Catalog 治理主张 | 如果 Databricks 比客户假设更接近提供方义务,合规成本和 GTM 摩擦都会上升 | 按产品、模型角色和地区索取 AI Act 适用性地图 |
| 公共部门授权范围 | 美国联邦 | 截至 2026-01-16,Azure Commercial 上的 Databricks 已获 FedRAMP Certified | 中 | 中高 | 云专项授权,加上增强型合规控制 | 投资人可能误以为公共部门就绪度覆盖所有云、地区或 SKU | 索取按云 / 地区 / 产品拆分的授权矩阵和续期状态 |
| 隐私合同与传输制度 | 全球 | 隐私通知、DPA、DPF 和法律中心均公开 | 中 | 中 | 标准合同条款、补充措施、可下载 DPA、信任中心 | 跨境处理、第三方服务商和共享责任在事件发生后仍可能造成合同摩擦 | 索取企业 MSA、赔偿条款、子处理方条款和客户红线趋势 |
各行按剩余严重性排序,不按公开披露多少排序。
[CR004, CR005, CR006, CR010, CR011, CR012]7.2 运营风险会通过故障、共同责任和合作伙伴集中度传导
Databricks 的运营风险不只是核心服务能否保持可用,而是有多少关键工作流叠在特定云部署、合作伙伴模型和客户侧配置之上。官方状态页提供可见性,但第三方监控显示 Azure Databricks 的事故量仍足以把可靠性作为承销变量,而不是脚注。Databricks 自己的文档也说明,安全和合规由 Databricks、客户和云厂商共同承担。云基础设施里这种结构很常见,但大型企业评估续约或事故响应时,客户误配置、工作负载放置或控制缺口,实践中仍可能变成 Databricks 的问题。与此同时,公司的 AI 路线图越来越深地绑定 Google Gemini、Anthropic Claude、SAP 的嵌入式数据云路径,以及超大规模云厂商原生买家关系。这些合作明显加快分发、扩大功能宽度,但也在账户控制、模型访问和毛利率泄漏上形成集中依赖,公开来源没有量化这些风险。[CR008, CR009, CR018, CR019, CR020, CR021]
| 失效模式 | 证据 | 可能性 | 严重性 | 缓释成熟度 | 剩余敞口 | 未解决缺口 |
|---|---|---|---|---|---|---|
| 特定云的宕机与性能降级 | IsDown 报告过去 90 天 20 起事件,自 2023 年 1 月以来 173 起;官方状态页存在 | 中高 | 高 | 中 | 企业工作负载仍可能因云厂商区域故障或恢复缓慢而中断 | 未公开 SLO、事后复盘或客户 SLA 抵扣细节 |
| 共享责任配置错误 | Databricks 文档称,安全与合规由 Databricks、客户和云服务商共同承担 | 中 | 高 | 中 | 客户侧缺口仍可能演变成 Databricks 的流失、法律或声誉问题 | 没有按客户细分披露由配置错误驱动的事件发生率 |
| 高级控制作为附加项,而不是显而易见的默认基线 | Enhanced Security and Compliance 是一个具名附加项,包含 FedRAMP High、FedRAMP Moderate 和 HIPAA | 中 | 中高 | 中 | 部分高保障控制可能需要明确的打包方式或工作负载选择 | 没有公开的附加购买率,也没有按层级披露的基线控制 |
| 安全透明度弱于合规营销 | 信任、隐私和法律页面已公开,但详细事件历史没有公开 | 中 | 中 | 中低 | 当前缓释姿态更依赖文档,而不是事件历史 | 没有公开的泄露登记、事件分类或根因分析节奏 |
本表关注纳入公开缓释措施之后的剩余敞口,而不是控制措施是否存在。
[CR007, CR008, CR009, CR018, CR019, CR020]| 依赖 | 交易对手 / 市场 | 角色 | 集中度 | 失效情景 | 严重性 | 缓释措施 | 剩余敞口 |
|---|---|---|---|---|---|---|---|
| 云与渠道集中度 | Microsoft, Google Cloud, SAP | 托管、采购、嵌入式分发、企业销售路径 | 高 | 捆绑、定价或政策变化削弱 Databricks 的账户控制力或经济性 | 高 | 多云覆盖和广泛合作伙伴组合 | 大型企业分发仍集中在少数战略路径上 |
| 前沿模型访问 | Anthropic, Google Gemini, OpenAI | 为 AI 智能体和企业功能提供模型访问 | 中高 | 模型重新定价、安全限制或可用性变化抬高 COGS,或拖慢路线图交付 | 高 | 多个模型合作伙伴加上 Mosaic AI 工具 | 外部模型提供商仍塑造成本和功能可用性 |
| 嵌入式企业数据路径 | SAP Business Data Cloud | Databricks 成为另一套企业平台内部的基础设施 | 中 | SAP 对客户上下文或产品路线图的控制力超过 Databricks | 中高 | Databricks 触达大型 SAP 客户资产 | 渠道杠杆伴随更低的账户直接控制力 |
| 云原生替代品 | 云厂商 / 数据平台:Microsoft Fabric, AWS EMR, Snowflake | 一体化数据、数据库、Spark 和 AI 替代方案 | 高 | 客户把标准统一到云或数据资产里已有的在位技术栈 | 高 | Databricks 仍凭开源血统和合作伙伴广度做差异化 | 在位者可以捆绑数据、AI、治理和采购,Databricks 从公开信息看无法完全抵消 |
风险不在于 Databricks 缺少合作伙伴,而在于几家最重要的合作伙伴也在塑造定价、路线图速度或竞争边界。
[CR023, CR024, CR025, CR026, CR027, CR028]Databricks 的依赖栈横跨云、模型和渠道伙伴;广度有帮助,但关键节点仍集中到足以影响判断。
这张图展示关键依赖与竞争节点,不是完整生态图。
[CR023, CR024, CR026, CR027, CR028, CR029]7.3 最大剩余风险可能是估值和执行,而不是眼前的财务压力
公开记录没有显示 Databricks 目前财务疲弱。公司称收入、AI 变现和自由现金流都在扩大,多个独立媒体也印证其融资额和私人估值快速抬升。正因如此,估值风险才重要。Databricks 的估值从 2025 年 1 月的 $62 billion,升至 2025 年 8–9 月超过 $100 billion,又在 2025 年 12 月至 2026 年 2 月达到 $134 billion,同时叠加了数十亿美元债务额度。公司还在试图跳出经典 lakehouse 叙事,扩展到 Lakebase、Agent Bricks、AI 应用和更深的模型供应商关系。执行近乎完美时,高溢价仍可成立;但如果产品线膨胀、合作伙伴经济性、竞争捆绑或 IPO 时间表滑坡,这个估值就会变脆。Microsoft Fabric、AWS EMR 和 Snowflake 都说明,Databricks 不是在真空里竞争;大型既有厂商已经在自有体系内推集成的数据 + AI 栈、云规模韧性和更低摩擦的采购。[CR028, CR029, CR030, CR031, CR032, CR033]
| 角色 / 职能 | 依赖或缺口 | 可能性 | 严重性 | 缓释措施 | 尽调路径 |
|---|---|---|---|---|---|
| 产品与平台领导层 | Databricks 同时扩展到 Lakebase、Agent Bricks、AI 应用和更深的模型集成 | 中 | 高 | 资本基础雄厚,投资者支持清晰可见 | 要求披露产品级资源分配、GA 质量指标和发布复盘 |
| 财务与资本市场执行 | 多轮巨额融资加上 >$7B 债务额度,带来 IPO 级控制要求 | 中 | 高 | 自由现金流为正的说法,以及强劲投资者需求 | 要求提供经审计财务包、债务契约和 IPO 准备工作流 |
| 法务 / 合规运营 | 进行中的 AI 版权诉讼和 AI 监管义务,需要深度协调模型治理 | 中高 | 高 | DPA、信任中心、法律中心和合规材料 | 要求提供治理权责图、模型来源控制和准备金流程 |
| SRE 与支持扩张 | Databricks 增加 AI 和运营数据库野心后,企业可靠性审查升温 | 中 | 中高 | 状态页可见度和多云运营覆盖 | 要求提供 SRE 组织图、SLO、事件复盘节奏和可靠性人员计划 |
执行风险抬升,来自战略跨度和估值预期,而不是明显的公开困境信号。
[CR007, CR018, CR032, CR036, CR037, CR038]7.4 缓释措施看得见,但淘汰标准取决于私有尽调缺口能否补上
Databricks 最强的公开缓释因素,是它已经像一家准备接受更深入尽调的公司:信任材料组织清晰,隐私合约明确,公共部门授权已经存在,状态披露也透明到足以让外部监控。这些都是有意义的正面因素。但风险章节应把它们转成具体阈值。如果版权诉讼升级到集体认证、禁令救济,或准备金水平改变单位经济性,法律投资逻辑就会失效。如果故障频率维持高位,又没有公开或私有证据证明 SLO 纪律和事故复盘质量,运营投资逻辑就会变弱。如果超大规模云厂商捆绑或模型供应商重新定价,改变谁控制账户、谁拿走毛利,依赖逻辑就会恶化。在私有尽调补上四个公开材料没有回答的问题之前,估值逻辑仍然脆弱:合作伙伴经济性、客户集中度、债务契约和诉讼下行空间。没有这些答案,Databricks 仍可以是一家出色的公司,但晚期入场价格依然难下手。[CR007, CR010, CR018, CR020, CR021, CR037]
| 风险 | 可监控触发项 | 阈值 / 事件 | 行动含义 |
|---|---|---|---|
| 版权诉讼 | 法院裁定或和解姿态 | 集体诉讼认证、禁令救济,或相对已披露自由现金流具有实质性的准备金需求 | 在下行风险重新定价或计提准备金之前,把法律风险视为足以打破投资逻辑 |
| AI 监管 | AI Act 适用范围扩大 | Databricks 控制的模型或工作流明确落入提供方义务,但未披露合规映射 | 假设合规成本更高、欧盟扩张更慢、合同摩擦更大 |
| 可靠性 | 事件频率和恢复时间 | 多个季度连续出现重大故障,或中位解决时间持续数小时 | 按更慢的企业扩张和更高支持成本承销 |
| 合作伙伴集中度 | 战略合作伙伴捆绑或重新定价 | 超大规模云厂商或模型提供商变化压缩毛利率,或转移账户所有权 | 下调终局利润率假设,并要求更清晰的合作伙伴经济性 |
| 资本依赖 | 债务与流动性轨迹 | 已披露现金生成或 IPO 准备度没有相应改善时,债务再次扩张 | 把 $134B 估值视为偏高,而不仅是激进 |
| 披露质量 | 私募尽调缺口持续存在 | 对集中度、合作伙伴经济性、SLA 或诉讼准备金问题没有给出明确答案 | 暂停,或按不确定性定价,而不是靠叙事动量承销 |
这些阈值设计成可从公开新闻、法院案卷、事件跟踪器和管理层尽调材料中监控,而不是靠直觉判断。
[CR012, CR015, CR016, CR020, CR021, CR037]Databricks 最重的剩余风险集中在法律暴露、合作伙伴集中度与高估值相互强化的地方。
这张热力图用有来源支持的序数评分排序剩余暴露,而不是假装知道合成概率。
[CR010, CR012, CR015, CR016, CR020, CR021]Databricks 的关键风险经由少数渠道传导:法律负担、中断和合作伙伴集中度都会压到利润率、增长持久性和估值支撑。
这张图是定性的,并有来源支持:它展示传导渠道,而不是合成风险模型。
[CR012, CR015, CR020, CR021, CR024, CR026]7.5 图表
08估值
8.1 投资逻辑、反向逻辑和建议
Databricks 仍像私募市场里最强的晚期基础设施资产之一。公开证据支持一种罕见组合:规模、增长、客户深度和改善中的现金生成。公司从 2024 年 12 月 $62 billion 估值的 Series J,到 2025 年 8 月 >$100 billion 估值的 Series K 条款单,再到 2025 年 12 月 $134 billion 估值的 Series L;披露的收入运行率也从预计 2025 年初达到 $3 billion,升至 2025 年底 $4.8 billion,并在 2026 年初达到 $5.4 billion。AI 已不再是旁线叙事;管理层和独立报道都指向 AI 收入运行率超过 $1.4 billion,留存率高于 140%,百万美元客户队列还在扩大。反向逻辑在于,几乎每个乐观数据点仍是管理层主导的运行率披露,而非经审计财务报告。投资者可以欣赏这项资产,同时仍判断当前入场价已经把许多好消息资本化。因此,坦率建议是观察而非买入:公司质量很高,但公开证据还不足够干净,无法证明扣除分母风险、私募市场结构和仍未确定的 IPO 时间表之后,当前价格还留有风险投资式上行空间。[CV001, CV005, CV006, CV007, CV008, CV011]
| 维度 | 投资逻辑 | 反向逻辑 | 什么会改变判断 |
|---|---|---|---|
| 规模与增长 | 收入运行率从 2025 年初预期的大约 $3B 升至 2026 年初的 $5.4B,增速仍为 >55% 至 65%。 | 最强数据点仍是管理层主导的收入运行率快照,而不是经审计财务报表。 | 经审计的收入桥接和逐季度披露会增强确信度。 |
| AI 变现 | 按 Sacra 估计,AI 产品的收入运行率已 >$1.4B,约占总收入运行率的四分之一,看起来已经是实质性第二引擎。 | 如果经济性大量来自转手收入,或会摊薄利润率,AI 组合仍可能夸大价值。 | 按 AI 产品家族披露毛利率,才能证明溢价来自软件质量,还是仅仅来自更高工作负载量。 |
| 客户深度 | >700 到 800 个客户收入运行率超过 $1M,留存率 >140%,说明大客户扩张具备韧性。 | 公开来源仍未按产品披露集中度、流失率或工作负载级净扩张。 | 客户队列披露和集中度数据会显著改善承销质量。 |
| 可比公司溢价 | Databricks 把数据基础设施和 AI 控制平面叙事合在一起,因此相对 Snowflake、MongoDB、Confluent 和 Elastic 应有溢价。 | 按收入运行率约 25x 到 28x,溢价相对多数公开软件基准已经很大。 | 更低入场价,或公开市场 AI 溢价持续存在,会让该溢价更容易承销。 |
| 退出可选性 | IPO 窗口可能在 2026 年或之后打开,形成公开市场重新定价路径。 | 时点仍由管理层控制,披露也很轻;更久留在私募市场也会推迟价格发现。 | 正式 IPO 时间表或保密递表会提高退出信心。 |
反向逻辑聚焦价格和披露,而不是 Databricks 是否具备战略重要性。
[CV003, CV006, CV007, CV008, CV012, CV016]8.2 融资背景、分母限制和可比框架
本章最重要的限制,是分母要诚实。Databricks 是私有公司,所以名义估值是投后轮次估值,不是连续交易的企业价值。公司主要披露年化收入运行率,而不是经审计 GAAP 收入;外部观察者也不知道近期融资堆栈背后的股权结构优先级、要约折扣或债务契约。因此,用 $134 billion 除以 $4.8 billion 或 $5.4 billion 运行率得到的简单倍数有参考价值,但不能直接等同于上市公司 EV/NTM 收入倍数。即便有这个限制,粗略计算仍有信息量。按不同公开分母测算,Databricks 大约落在 25x–28x 运行率。这个水平明显高于 Snowflake、MongoDB、Confluent、Elastic 等当前公开数据平台公司,也高于 ServiceNow 这类规模化工作流标杆;但又低于 Palantir 所隐含的极端 AI 稀缺性倍数。关键在于,Databricks 被定价成一个高溢价混合体:强于普通数据基础设施,但还没到公开市场 AI 狂热的最顶端。因此,可比公司集合支持“合理到偏高”的结论,而不是显然荒谬。Databricks 可以证明溢价合理,但前提是增长、AI 变现和最终披露质量都保持异常强劲。[CV006, CV016, CV020, CV024, CV027, CV028]
| 维度 | 取值 | 理由 |
|---|---|---|
| 建议 | 观察 | 公司质量很强,但公开证据尚不足以支撑 $134B 估值下的清晰安全边际。 |
| 信心 | 中 | 可比公司信号方向清楚,但 Databricks 的关键分母仍是私募收入运行率,而不是经审计收入。 |
| 风险评级 | 高 | 股权结构表、债务条款和 IPO 时点仍未公开,结果分散度依旧很大。 |
| 估值立场 | 偏高 | 当前定价远高于多数公开数据平台可比公司;只有 Databricks 守住 AI 溢价,这一定价才站得住。 |
| 基准情景估值区间 | $110B-$145B | 该区间假设公司继续增长,同时向公开可比公司的估值纪律有所压缩。 |
| 决策含义 | 等待更低入场价或更完整披露 | 更好的价格,或经审计的 IPO 式披露,比另一条融资新闻更能改变判断。 |
建议明确对价格和分母敏感。
[CV006, CV016, CV020, CV021, CV043, CV044]| 可比公司 | 估值 / 市值 | 收入分母 | 隐含倍数 / 状态 | 参考意义 | 局限 |
|---|---|---|---|---|---|
| Databricks(标的) | $134B 私募投后估值 | $4.8B-$5.4B 收入运行率 | ~24.8x-27.9x | 显示新资金愿意为规模加 AI 溢价支付什么价格。 | 私募投后估值和收入运行率,不等同于公开市场 EV / NTM 收入。 |
| Snowflake | $49.85B 市值 | $4.472B FY2026 产品收入 | ~11.1x | 最接近的公开数据平台同行,具备有意义的规模和云经济性。 | 公开市值不是企业价值;产品收入比 Databricks 披露口径更适合作为干净分母。 |
| MongoDB | $21.27B 市值 | $2.01B FY2025 总收入 | ~10.6x | 有用的高增长开发者数据可比公司,带有高端软件叙事。 | 数据库敞口和产品组合不同于 Databricks 的湖仓加 AI 平台。 |
| Confluent | $11.13B 市值 | $1.167B 2025 收入 | ~9.5x | 有用的实时数据基础设施可比公司,显示更窄基础设施公司的交易位置。 | 流式处理聚焦比 Databricks 更窄,不应单独作为直接估值锚。 |
| Elastic | $5.24B 市值 | $1.483B 2025 收入 | ~3.5x | 展示缺少强劲当前 AI 溢价时,普通基础设施软件的下行位置。 | 搜索 / 可观测性组合和更弱增长,让它更像估值下限,而不是直接同行。 |
| ServiceNow | $94.84B 市值 | $13.278B 2025 收入 | ~7.1x | 已具规模的工作流软件基准,显示成熟且高利润企业软件能交易在什么水平。 | ServiceNow 披露更好、模型更成熟,因此这个可比公司主要锚定普通软件的上限。 |
| Palantir | $350.05B 市值 | $4.475B 2025 收入 | ~78.2x | 当叙事和政府 / AI 需求都极端时,公开市场 AI 稀缺溢价可以到什么水平。 | Palantir 是异常值;把它直接作为 Databricks 锚点会高估公允价值。 |
分母刻意混用,应只作方向性参考:公开可比公司用当前公开市值除以最新年度收入,Databricks 则用私募投后估值除以披露的收入运行率。
[CV006, CV016, CV027, CV028, CV029, CV030]8.3 情景分析和价格敏感性
情景表应被视为定价纪律工具,而不是管理层指引。乐观情景下,Databricks 让增长更久接近当前水平,把 AI 收入占比转化为持久的利润率和平台溢价,并在 IPO 窗口到来时,看起来仍更像 AI 控制平面,而不是成熟数据仓库厂商。这个结果可以支撑高于当前标记的估值。基准情景下,公司继续执行良好,但公开市场可比压力,以及从运行率叙事走向 IPO 级别审查的过程,会压缩溢价,使 $134 billion 入场后的上行有限。悲观情景下,公司仍然不错,但“不错”不够:增长放缓,AI 变现更像成本转嫁而非软件杠杆,或公开软件倍数继续锚定在当前 Snowflake / MongoDB / ServiceNow 区间附近。结果是,公开证据指向宽分散,但分布偏向基准情景。因此,本章对资产本身保持正面,对价格保持纪律。风险不在于 Databricks 疲弱,而在于当前价格给普通执行失误或更苛刻 IPO 市场留下的空间太小。[CV008, CV016, CV017, CV018, CV022, CV024]
| 情景 | 假设 | 估值 / 回报逻辑 | 关键风险 | 概率信号 |
|---|---|---|---|---|
| 乐观 | 收入运行率接近 $8B-$8.5B,AI 组合保持溢价,IPO 买方继续给 AI 控制平面公司高于普通软件可比公司的奖励。 | $180B-$220B;以 $134B 入场并持有 2-3 年,毛回报大约 1.3x-1.6x。 | 即使面对公开市场审查和更广泛软件重新定价,溢价倍数也必须维持。 | 有可能,但需要执行到位且 IPO 市场配合。 |
| 基准 | 收入运行率达到约 $6.0B-$6.6B,披露只小幅改善,Databricks 重新定价到公开软件可比公司的上沿。 | $110B-$145B;以 $134B 入场,毛回报大约 0.8x-1.1x。 | 当前头条价格给正常倍数压缩留下的空间有限。 | 从公开证据看最合理,因为它同时承认质量和分母限制。 |
| 悲观 | 增长放缓至成熟软件水平,AI 经济性差异化减弱,或公开可比公司仍锚定在约 10x-15x。 | $55B-$85B;以 $134B 入场,毛回报大约 0.4x-0.6x。 | 如果公开市场纪律先于披露质量改善到来,好公司也可能给出差的入场点。 | 如果价格发现快于 Databricks 披露,下行空间很实质。 |
| 概率加权姿态 | 偏向基准情景,因为质量可见,但价格支撑不完整。 | 支持观察,而不是买入。 | 股权结构表不透明和 IPO 时点让结果分散度保持很宽。 | 后期私募定价不能只靠对资产的欣赏。 |
区间是基于当前公开可比公司和明确分母限制搭建的投委会讨论工具,不是管理层指引。
[CV016, CV017, CV018, CV022, CV024, CV026]| 触发项 | 阈值 / 事件 | 对投资逻辑的传导 | 行动含义 |
|---|---|---|---|
| 增长放缓 | 披露质量改善前,公开增长显著低于 >55%-65% 区间 | 压低当前把 Databricks 与普通数据基础设施可比公司区分开的溢价倍数 | 除非价格大幅下调,否则从观察转向回避 |
| AI 变现不及预期 | AI 收入运行率增长,但尽调证明毛利率或附加购买经济性偏弱 | AI 溢价变成质量更低的转手收入 | 下调估值区间,并在投资前要求产品级利润率证据 |
| 公开倍数压缩 | Snowflake / MongoDB / ServiceNow 式收入倍数进一步收缩 | 压缩未来 IPO 的市场出清区间 | 不要用过时的公开市场倍数承销今天的私募标记 |
| 股权结构表悬压 | 优先股结构、要约折价或债务契约实质性降低普通股价值 | 头条估值不再代表新增普通股资本能够赚到的回报 | 基于普通股经济性重建模型,而不是基于投后头条估值 |
| IPO 时间线滑坡 | 又一轮融资周期后,仍看不到有意义的 IPO 准备或披露路径 | 把流动性推得更远,并让估值困在私募标记反馈环中 | 提高要求回报,或等待折价老股流动性 |
触发项聚焦可观察的承销断点,而不是宽泛的公司质量担忧。
[CV008, CV016, CV017, CV018, CV021, CV024]从 Databricks 规模、披露质量、可比公司溢价和退出时点一路推导到最终建议的决策链。
[CV016, CV018, CV021, CV043, CV044, CV055]Databricks 在公开可比公司倍数与 AI 溢价倍数区间切换时的方向性估值结果。
估值来自公开可比公司加情景收入运行率假设;不是管理层指引,也不是企业价值测算。
[CV043, CV044, CV045, CV046, CV047, CV048]当前后期入场点下 Databricks 的低、中、高估值包络。
这些区间使用估值 / 收入运行率代理,因为 Databricks 没有发布搭建完整企业价值(EV)模型所需的经审计收入和资本结构细节。
[CV052, CV053, CV054, CV058]8.4 入场纪律、投资逻辑失效触发点和最终尽调问题
什么会改变判断?更干净的股权结构表、经审计收入和毛利率披露,以及证明 AI 层具备真正软件经济性而不只是工作负载增长的证据,都会明显加分。价格本身也可能比另一条融资新闻更快改变建议。如果普通股等价入场价低于当前基准区间下沿,尤其是在公司带着更好披露进入正式 IPO 流程时,不对称性会有吸引力得多。反过来,如果 Databricks 失去支撑其溢价的增长和留存画像,或私募融资条款显示普通股持有人排在比名义估值暗示更多的结构之后,建议应下调。实际结论是,Databricks 作为公司可投,但作为价格尚未被充分承销。投资者应把它视为一个需要激进尽调的实时观察标的,而不是盲目的晚期动量买入。公开记录足以支持以中等信心、较高风险给出观察建议;剩余尽调清单决定下一步是上调到买入,还是下调到回避。[CV020, CV021, CV051, CV055, CV056, CV057]
| 主题 | 缺失证据 | 重要性 | 负责人 / 尽调路径 |
|---|---|---|---|
| 股权结构表与优先条款 | 当前股数、轮次价格、清算优先权、要约折价和员工流动性条款 | 普通股上行空间可能与 $134B 头条估值有实质差异 | 公司 / 律师 / 领投方 |
| 收入桥接 | 从收入运行率披露到经审计 GAAP 收入和递延收入的季度桥接 | 避免基于营销口径分母支付过高价格 | 财务尽调 / 审计师 |
| 毛利率和 SBC | 按产品家族拆分的经审计毛利率和股权激励费用负担 | 判断 AI 增长是真正的软件杠杆,还是昂贵的云成本转手收入 | 财务尽调 / IPO 准备工作流 |
| 债务条款 | 债务定价、契约条款包、到期结构,以及任何担保或交叉违约特征 | 债务能力影响真实普通股经济性和风险 | 资金管理团队 / 贷款方尽调 |
| 客户集中度和 NRR 细节 | 头部客户敞口、流失队列、按 AI 和核心平台产品拆分的 NRR | 溢价倍数需要证明最大增长引擎具备持久性 | 销售运营 / 客户分析 |
| IPO 准备度和流动性路径 | 董事会层面的 IPO 标准、投行准备工作,以及任何当前老股交易窗口 | 入场回报高度依赖时点和下一次真实价格发现事件 | CEO / CFO / 投行 |
这些要求是把强公司判断转化为更干净估值判断所需的最低材料包。
[CV020, CV021, CV051, CV057, CV058]按投委会口径呈现当前价格下 Databricks 投资判断中最关键的维度。
[CV016, CV018, CV021, CV051, CV055, CV057]免责声明
本报告是基于公开证据的尽调快照,不构成投资建议。重要的财务、法律、技术和合同事实仍未公开;作出任何投资决策前,应直接向管理层和一手文件核验。
证据索引
| 编号 | 陈述 | 可信度 | 来源 |
|---|---|---|---|
| CO001 | Databricks was founded in 2013. | 高 | SO001, SO002 |
| CO002 | Databricks says the company was founded by seven researchers from UC Berkeley's AMP Lab. | 中 | SO002 |
| CO003 | The official founders page names Ali Ghodsi, Ion Stoica, Matei Zaharia, Patrick Wendell, Reynold Xin, Andy Konwinski, and Arsalan Tavakoli-Shiraji as Databricks founders. | 中 | SO004 |
| CO004 | Databricks describes itself as the data and AI company. | 高 | SO001, SO002 |
| CO005 | Databricks says its Data Intelligence Platform provides a unified foundation for data and governance combined with AI models tuned to an organization's characteristics. | 中 | SO001 |
| CO006 | Databricks says it is headquartered in San Francisco. | 高 | SO001, SO002, SO003 |
| CO007 | Databricks lists 160 Spear Street, 15th Floor, San Francisco, California as its contact address. | 中 | SO003 |
| CO008 | The current about page says more than 15,000 organizations worldwide rely on Databricks. | 中 | SO001 |
| CO009 | The Databricks press kit says the company has more than 20,000 customers globally. | 高 | SO002, SO008, SO009, SO010 |
| CO010 | The Databricks press kit says the company has more than 10,000 employees worldwide. | 中 | SO002 |
| CO011 | The Databricks press kit says the company operates 30-plus offices around the globe. | 中 | SO002 |
| CO012 | Databricks says 70% of the Fortune 500 use its platform. | 中 | SO002 |
| CO013 | Databricks maintains a public board-of-directors page. | 中 | SO006 |
| CO014 | Ali Ghodsi is Databricks' co-founder and CEO. | 高 | SO023, SO014 |
| CO015 | UC Berkeley says Ali Ghodsi cofounded Databricks with six UC Berkeley academics who built Apache Spark. | 中 | SO023 |
| CO016 | The Spark CACM paper credits Matei Zaharia, Reynold Xin, Patrick Wendell, Ali Ghodsi and other Berkeley-linked authors, anchoring Databricks' founder bench in Apache Spark's creation. | 中 | SO022 |
| CO017 | On December 17, 2024 Databricks announced a Series J financing with $10 billion of expected non-dilutive funding and $8.6 billion completed to date. | 高 | SO007, SO027 |
| CO018 | Databricks said the Series J financing valued the company at $62 billion. | 高 | SO007, SO027, SO014 |
| CO019 | Databricks said Thrive Capital led Series J, with Andreessen Horowitz, DST Global, GIC, Insight Partners and WCM Investment Management as co-leads. | 高 | SO007, SO027 |
| CO020 | Databricks said in the Series J announcement that it expected to cross a $3 billion revenue run-rate and achieve positive free cash flow in the quarter ending January 31, 2025. | 高 | SO007, SO027 |
| CO021 | CNBC reported in June 2025 that Databricks expected annualized revenue to reach $3.7 billion by July 2025 with 50% year-over-year growth. | 中 | SO014 |
| CO022 | CNBC reported Databricks generated $2.6 billion of revenue in the fiscal year ending January 2025. | 中 | SO014 |
| CO023 | CNBC reported that nearly 50 Databricks customers were spending over $10 million annually in the first quarter of fiscal 2026. | 中 | SO014 |
| CO024 | CNBC reported Databricks had roughly 8,000 employees in June 2025 and was hiring 3,000 people in 2025. | 中 | SO014 |
| CO025 | Databricks announced in September 2025 that it crossed a $4 billion revenue run-rate with growth above 50% year over year. | 中 | SO008 |
| CO026 | Databricks said its AI products had exceeded a $1 billion revenue run-rate by September 2025. | 中 | SO008 |
| CO027 | Databricks said it was closing a $1 billion Series K at a valuation above $100 billion in September 2025. | 高 | SO008, SO018 |
| CO028 | Databricks said it had achieved positive free cash flow over the prior 12 months by September 2025. | 中 | SO008 |
| CO029 | Databricks said more than 650 customers were consuming over $1 million in annual revenue run-rate by September 2025. | 中 | SO008 |
| CO030 | TechCrunch reported in August 2025 that Databricks was closing about $1 billion of new funding at a $100 billion valuation, co-led by Thrive and Insight Partners. | 中 | SO018 |
| CO031 | TechCrunch reported Databricks had already offered employees two secondary liquidity rounds in 2025. | 中 | SO018 |
| CO032 | Databricks announced on December 16, 2025 that it was raising more than $4 billion in a Series L financing at a $134 billion valuation. | 高 | SO009, SO015 |
| CO033 | Databricks said it crossed a $4.8 billion revenue run-rate in Q3 2025 with growth above 55% year over year. | 高 | SO009, SO015 |
| CO034 | Databricks said both its AI products and its Data Warehousing business had surpassed $1 billion revenue run-rate by December 2025. | 中 | SO009 |
| CO035 | Databricks said more than 700 customers were consuming over $1 million in annual revenue run-rate by December 2025. | 中 | SO009 |
| CO036 | Databricks announced on February 9, 2026 that it crossed a $5.4 billion revenue run-rate with growth above 65% year over year. | 中 | SO010 |
| CO037 | Databricks said the February 2026 financing package exceeded $7 billion, including roughly $5 billion of equity at a $134 billion valuation and roughly $2 billion of additional debt capacity. | 高 | SO010, SO015 |
| CO038 | Databricks said more than 800 customers were consuming over $1 million in annual revenue run-rate by February 2026. | 中 | SO010 |
| CO039 | SAP said in February 2025 that SAP Business Data Cloud natively embeds Databricks technology for data engineering, machine learning and AI workloads. | 中 | SO019 |
| CO040 | Microsoft markets Azure Databricks as an Azure-managed environment for the data and AI lifecycle. | 中 | SO025 |
| CO041 | Google Cloud markets Databricks on Google Cloud as a partnership offering for scalable analytics and AI workloads. | 中 | SO026 |
| CO042 | Databricks said it completed the MosaicML acquisition on July 19, 2023. | 高 | SO011, SO016 |
| CO043 | TechCrunch reported Databricks agreed to pay $1.3 billion for MosaicML. | 中 | SO016 |
| CO044 | Databricks said the MosaicML deal was meant to help enterprises train, customize and deploy generative AI models on their own data. | 中 | SO011 |
| CO045 | Databricks said on June 4, 2024 that it agreed to acquire Tabular and updated on June 7, 2024 that the acquisition had completed. | 高 | SO012, SO017 |
| CO046 | Databricks said the Tabular deal brought the creators of Apache Iceberg together with the creators of Delta Lake to push open lakehouse interoperability. | 高 | SO012, SO017 |
| CO047 | Databricks said on May 14, 2025 that it agreed to acquire Neon to deliver serverless Postgres for developers and AI agents. | 中 | SO013 |
| CO048 | The Register reported in April 2026 that a federal judge let authors' copyright claims against Databricks continue over DBRX and Mosaic-related training data. | 高 | SO020, SO021 |
| CO049 | Saveri says the plaintiffs filed suit on March 8, 2024 and that on April 21, 2026 the court denied Databricks' motion to dismiss DBRX-related claims. | 中 | SO021 |
| CO050 | Insight Partners publicly lists Databricks as a portfolio investment. | 中 | SO024 |
| CO051 | TechCrunch reported in August 2025 that Databricks had raised about $20 billion since founding. | 低 | SO018 |
| CO052 | CNBC described Databricks in January 2026 as one of the highly valued private technology companies primed to go public in 2026. | 中 | SO015 |
| CM001 | Databricks says its Data Intelligence Platform is built on a lakehouse and is intended for an entire organization to use data and AI. | 中 | SM001 |
| CM002 | Databricks says lakehouse architecture combines data lakes and data warehouses to reduce costs and accelerate data and AI initiatives. | 中 | SM002 |
| CM003 | Databricks says the lakehouse offers one architecture for integration, storage, processing, governance, sharing, analytics, and AI. | 中 | SM002 |
| CM004 | Databricks says the lakehouse supports structured and unstructured data across major clouds. | 中 | SM002 |
| CM005 | Databricks says AI/BI runs directly on governed data in Unity Catalog. | 高 | SM004, SM005 |
| CM006 | Databricks says integrated semantics create one version of truth across BI dashboards, AI agents, and downstream tools. | 高 | SM004, SM005 |
| CM007 | Databricks says AI/BI supports natural-language dashboard creation and conversational analytics for business users. | 中 | SM005 |
| CM008 | Databricks says Mosaic AI is for building production AI agents on enterprise data. | 中 | SM003 |
| CM009 | Databricks says Mosaic AI provides built-in evaluation for agents using any AI model. | 中 | SM003 |
| CM010 | Databricks says Unity Catalog can enforce guardrails, access controls, rate limits, and lineage across AI workflows. | 高 | SM003, SM004 |
| CM011 | Databricks says Unity Catalog applies governance across structured data, unstructured data, business metrics, and AI models. | 中 | SM004 |
| CM012 | Databricks says Unity Catalog uses open lakehouse formats and open APIs to reduce lock-in. | 高 | SM004, SM007 |
| CM013 | Databricks public-sector materials list state and local government, federal agencies, and higher education as distinct target segments. | 中 | SM006 |
| CM014 | Databricks says public-sector agencies use the platform to track revenue, strengthen compliance, and improve fiscal decision-making. | 中 | SM006 |
| CM015 | Databricks says Delta Sharing and Databricks Marketplace let public-sector users share data without copying it and without requiring counterparties to run Databricks. | 中 | SM025 |
| CM016 | AWS Marketplace has a Databricks seller profile, giving buyers a standard marketplace procurement route. | 中 | SM009 |
| CM017 | Google Cloud positions Databricks as a partner offering with access to Gemini, open-source models, and BigQuery. | 中 | SM010 |
| CM018 | Microsoft describes Azure Databricks as a unified, open analytics platform for enterprise-grade data, analytics, and AI at scale. | 中 | SM011 |
| CM019 | Microsoft documentation identifies data engineering as a core Azure Databricks use case. | 中 | SM011 |
| CM020 | Microsoft documentation identifies machine learning, AI, and data science as core Azure Databricks use cases. | 中 | SM011 |
| CM021 | Microsoft documentation identifies data warehousing, analytics, and BI as core Azure Databricks use cases. | 中 | SM011 |
| CM022 | Microsoft documentation identifies real-time and streaming analytics as a core Azure Databricks use case. | 中 | SM011 |
| CM023 | Grand View Research estimates the global data lakehouse market at USD 11.35 billion in 2024. | 中 | SM015 |
| CM024 | Grand View Research expects the data lakehouse market to reach USD 13.94 billion in 2025. | 中 | SM015 |
| CM025 | Grand View Research projects the data lakehouse market will reach USD 74.00 billion by 2033 at a 23.2% CAGR. | 中 | SM015 |
| CM026 | Grand View Research says North America held 35.2% of 2024 data lakehouse revenue. | 中 | SM015 |
| CM027 | Grand View Research says large enterprises held 71.4% of 2024 data lakehouse revenue. | 中 | SM015 |
| CM028 | Global Market Insights estimates the data lakehouse market at USD 11.9 billion in 2024. | 中 | SM016 |
| CM029 | Global Market Insights expects the data lakehouse market to reach USD 14.2 billion in 2025. | 中 | SM016 |
| CM030 | Global Market Insights projects the data lakehouse market will reach USD 105.9 billion by 2034 at a 25% CAGR. | 中 | SM016 |
| CM031 | The Business Research Company says the data lakehouse market reaches USD 10.33 billion in 2025. | 中 | SM017 |
| CM032 | The Business Research Company says the data lakehouse market reaches USD 12.58 billion in 2026 at a 21.8% CAGR from 2025. | 中 | SM017 |
| CM033 | The Business Research Company projects the data lakehouse market reaches USD 27.28 billion in 2030 at a 21.4% CAGR. | 中 | SM017 |
| CM034 | The Business Research Company says data lakehouse deployments span both cloud-based and on-premise models. | 中 | SM017 |
| CM035 | The Business Research Company says data lakehouse demand spans both large enterprises and SMEs. | 中 | SM017 |
| CM036 | The Business Research Company says key data lakehouse end markets include IT and telecom, BFSI, retail and e-commerce, healthcare and life sciences, manufacturing, and energy and utilities. | 中 | SM017 |
| CM037 | Public data lakehouse market estimates conflict materially across publishers and forecast windows, so one generic TAM figure would overstate precision for Databricks. | 中 | SM015, SM016, SM017 |
| CM038 | IDC projects worldwide spending on AI-supporting technology will reach USD 337 billion in 2025. | 中 | SM014 |
| CM039 | IDC projects AI-supporting technology spend will surpass USD 749 billion by 2028. | 中 | SM014 |
| CM040 | IDC says 2025 marks a shift from AI experimentation to reinvention driven by AI agents and renovation in data, infrastructure, and cloud. | 中 | SM014 |
| CM041 | Confluent says 89% of IT leaders view data streaming platforms as critical or important to achieving data-related goals. | 中 | SM013 |
| CM042 | Confluent says 44% of IT leaders report 5x ROI from data streaming investments. | 中 | SM013 |
| CM043 | Confluent says 90% of IT leaders are increasing data streaming platform investment in 2025. | 中 | SM013 |
| CM044 | Confluent says 89% of IT leaders think data streaming platforms ease AI adoption by improving data access, quality assurance, and governance. | 中 | SM013 |
| CM045 | Deloitte says worker access to AI rose by 50% in 2025. | 中 | SM019 |
| CM046 | Deloitte says the number of companies with at least 40% of AI projects in production is set to double in six months. | 中 | SM019 |
| CM047 | Deloitte says only one in five companies has a mature governance model for autonomous AI agents. | 中 | SM019 |
| CM048 | Deloitte says 42% of companies believe their AI strategy is highly prepared, but they feel less prepared in infrastructure, data, risk, and talent. | 中 | SM019 |
| CM049 | Deloitte says legacy data and infrastructure architectures cannot power real-time autonomous AI. | 中 | SM019 |
| CM050 | McKinsey says nearly two-thirds of respondents cite security and risk concerns as the top barrier to scaling agentic AI. | 中 | SM018 |
| CM051 | McKinsey says 74% of respondents identify inaccuracy and 72% cite cybersecurity as highly relevant AI risks. | 中 | SM018 |
| CM052 | McKinsey says nearly 60% of respondents cite knowledge and training gaps as the main barrier to implementing responsible AI practices. | 中 | SM018 |
| CM053 | The FinOps Foundation says 63% of respondents now manage AI spending, up from 31% last year. | 中 | SM022 |
| CM054 | The FinOps Foundation says implementing governance and policy at scale becomes the top future priority as organizations manage more AI and ML spend. | 中 | SM022 |
| CM055 | CIO says companies without modern data infrastructure cannot feed relevant data into AI systems effectively. | 中 | SM023 |
| CM056 | CIO says traditional data platforms are often designed only for structured data and can lack governance and quality features. | 中 | SM023 |
| CM057 | CIO says preparing data for AI is the number-one reason companies pursue data modernization. | 中 | SM023 |
| CM058 | CIO says only 29.1% of companies reported using AI-centric data management platforms such as Vertex or SageMaker. | 中 | SM023 |
| CM059 | NIST says the AI RMF is a voluntary framework for incorporating trustworthiness into the design, development, use, and evaluation of AI systems. | 中 | SM020 |
| CM060 | NIST says it released a generative AI risk management profile in July 2024 and a critical infrastructure trust profile concept note in April 2026. | 中 | SM020 |
| CM061 | The EU AI Act sets risk-based rules for AI developers and deployers. | 中 | SM021 |
| CM062 | The EU AI Act made prohibitions effective in February 2025, GPAI rules effective in August 2025, and begins transparency and high-risk obligations in 2026 and 2027. | 中 | SM021 |
| CM063 | CDOTrends says 85% of surveyed organizations were already using GenAI in at least one function. | 中 | SM024 |
| CM064 | CDOTrends says only 37% of executives and 29% of practitioners thought GenAI applications were production-ready. | 中 | SM024 |
| CM065 | CDOTrends says practitioners cited cost, skills, quality, and governance as the main GenAI deployment hurdles. | 中 | SM024 |
| CM066 | CDOTrends says only 22% of respondents felt their current IT architecture could effectively support new AI applications. | 中 | SM024 |
| CM067 | Databricks’ Economist Impact landing page says companies were quick to adopt GenAI but still struggle to productionize and scale. | 低 | SM008 |
| CM068 | Databricks’ Economist Impact landing page says 71% of practitioners believe their GenAI apps are not production-ready. | 低 | SM008 |
| CM069 | Snowflake says it added 740 net new customers in Q4 fiscal 2026. | 中 | SM012 |
| CM070 | Snowflake says 733 customers spent more than USD 1 million on a trailing-12-month basis. | 中 | SM012 |
| CM071 | Snowflake says it served 790 Forbes Global 2000 customers as of January 31, 2026. | 中 | SM012 |
| CM072 | Snowflake says customers continue to rationalize budgets and prioritize cash-flow management. | 中 | SM012 |
| CM073 | Snowflake says it competes in a continually evolving market where enterprises are increasingly adopting AI for core functions. | 中 | SM012 |
| CP001 | Databricks says its Data Intelligence Platform is built on lakehouse architecture that combines the best elements of data lakes and data warehouses. | 中 | SP001 |
| CP002 | Databricks describes its lakehouse as one architecture for integration, storage, processing, governance, sharing, analytics, and AI across major clouds. | 中 | SP001 |
| CP003 | Databricks markets Unity Catalog as unified governance for all data, analytics, and AI assets. | 中 | SP003 |
| CP004 | Databricks says Unity Catalog applies discovery, access, quality monitoring, and compliance controls across structured data, unstructured files, ML models, and business metrics. | 中 | SP003 |
| CP005 | Databricks pricing is pay-as-you-go with no up-front costs and per-second billing granularity. | 中 | SP002 |
| CP006 | Databricks says committed-use contracts can provide discounts and can flex across multiple clouds. | 中 | SP002 |
| CP007 | Databricks says AI/BI is built natively into the platform and removes per-seat or per-license BI fees. | 中 | SP004 |
| CP008 | Databricks announced an expected $10 billion Series J financing that valued the company at $62 billion. | 中 | SP006 |
| CP009 | Databricks said in December 2024 that it expected to cross a $3 billion revenue run rate and become free-cash-flow positive in the quarter ending January 31, 2025. | 中 | SP006 |
| CP010 | Databricks said it had more than 500 customers consuming at over $1 million annual revenue run rate. | 中 | SP006 |
| CP011 | Databricks said in June 2025 that more than 15,000 organizations, including 70% of the Fortune 500, rely on its platform. | 中 | SP005 |
| CP012 | Databricks said in June 2025 that Unity Catalog added full Apache Iceberg support and native Iceberg REST Catalog APIs. | 中 | SP005 |
| CP013 | Databricks said Unity Catalog can let external engines including Trino, Snowflake, and Amazon EMR read and write Iceberg managed tables with fine-grained governance. | 中 | SP005 |
| CP014 | Snowflake documentation describes the platform as a self-managed cloud service that combines data storage, processing, and analytic solutions. | 中 | SP007 |
| CP015 | Snowflake documentation says customers cannot install and run Snowflake locally or on private cloud infrastructure. | 中 | SP007 |
| CP016 | Snowflake documentation describes its architecture as separate storage, compute, and cloud-services layers, with virtual warehouses as independent compute clusters. | 中 | SP007, SP008 |
| CP017 | Snowflake documentation says total cost is the aggregate of compute, storage, and data-transfer usage. | 中 | SP008 |
| CP018 | Snowflake documentation says virtual warehouses are billed per second with a 60-second minimum each time a warehouse starts. | 中 | SP008 |
| CP019 | Snowflake documentation gives a Small Standard virtual warehouse example of 2 credits per hour. | 中 | SP008 |
| CP020 | Snowflake reported $1.23 billion of product revenue in Q4 fiscal 2026, up 30% year over year. | 中 | SP009 |
| CP021 | Snowflake reported 733 customers with trailing 12-month product revenue greater than $1 million as of January 31, 2026. | 中 | SP009 |
| CP022 | Snowflake reported 790 Forbes Global 2000 customers and more than 9,100 accounts using Snowflake AI features as of January 31, 2026. | 中 | SP009 |
| CP023 | Snowflake says more than 13,300 customers around the world use its AI Data Cloud. | 中 | SP009 |
| CP024 | Google Cloud describes BigQuery as a serverless data analytics platform that does not require users to provision individual instances or virtual machines. | 中 | SP010, SP011 |
| CP025 | BigQuery pricing defaults to on-demand billing per TiB scanned and generally provides up to 2,000 concurrent shared slots per project. | 中 | SP011 |
| CP026 | BigQuery on-demand query pricing lists $6.25 per tebibyte and also offers capacity pricing per slot-hour with BigQuery editions and autoscaling. | 中 | SP011 |
| CP027 | Google Cloud documentation says BigQuery-managed Apache Iceberg tables are designed as a foundation for interoperable lakehouse workflows. | 中 | SP012 |
| CP028 | Alphabet said Google Cloud revenue increased 30% to $12.0 billion in Q4 2024. | 中 | SP013 |
| CP029 | Microsoft Learn describes Fabric as an end-to-end analytics SaaS platform with data engineering, data factory, data science, real-time intelligence, data warehouse, and database workloads over a shared compute and storage model. | 中 | SP016 |
| CP030 | Microsoft Learn says Fabric uses OneLake as a centralized logical data lake and OneLake Catalog as a centralized discovery and governance experience. | 中 | SP016 |
| CP031 | Microsoft Learn says Fabric includes Copilot capabilities and Purview-backed governance, compliance, and auditing across workloads. | 中 | SP014, SP016 |
| CP032 | Microsoft pricing describes Fabric capacity as a shared pool of Capacity Units that can be bought on a pay-as-you-go or reservation basis. | 中 | SP015 |
| CP033 | Microsoft pricing says a one- or three-year Fabric reservation can save about 41% versus pay-as-you-go. | 中 | SP015 |
| CP034 | Microsoft pricing says Power BI Pro is still required for report publishers and consumers on smaller Fabric capacities, while F64/P1 or larger capacities can waive Pro for consumers. | 中 | SP015 |
| CP035 | Microsoft reported $29.9 billion of Intelligent Cloud revenue in fiscal Q4 2025, up 26% year over year. | 中 | SP017 |
| CP036 | AWS positions Amazon Redshift as a cloud data warehouse for analytics and agentic AI that can unify data across Redshift, S3 data lakes, and third-party or federated sources. | 中 | SP018 |
| CP037 | AWS pricing says Redshift Provisioned starts at $0.543 per hour and Redshift Serverless starts at $1.50 per hour. | 中 | SP019 |
| CP038 | AWS pricing says Redshift Serverless bills RPU-hours on a per-second basis with a 60-second minimum and reservations can reduce compute costs by up to 45%. | 中 | SP019 |
| CP039 | Amazon reported AWS segment sales of $28.8 billion in Q4 2024 and $107.6 billion in full-year 2024. | 中 | SP020 |
| CP040 | Confluent says its managed Flink offering unifies Apache Kafka and Apache Flink so Kafka topics become queryable Flink tables. | 中 | SP021 |
| CP041 | Confluent says its fully managed serverless Flink offering uses usage-based pricing calculated in CFUs consumed per minute. | 中 | SP021 |
| CP042 | Confluent pricing says serverless Kafka uses autoscaling eCKUs, with the first eCKU free and listed tiers starting at $2.25 with a two-eCKU minimum. | 中 | SP022 |
| CP043 | Confluent reported $922.1 million of fiscal-year 2024 subscription revenue and $963.6 million of total revenue. | 中 | SP023 |
| CP044 | Apache Spark describes itself as a unified engine for large-scale data analytics. | 中 | SP024 |
| CP045 | Trino describes itself as a distributed SQL query engine for big data. | 中 | SP025 |
| CP046 | Microsoft Learn says OneLake shortcuts can provide zero-copy access to Amazon S3 and Google Cloud Storage in addition to Azure storage. | 中 | SP016 |
| CP047 | Databricks says its lakehouse is built on open source and open standards including Apache Spark, Delta Lake, MLflow, and Delta Sharing. | 中 | SP001 |
| CP048 | BigQuery Iceberg documentation describes metadata snapshot export in Apache Iceberg V2 format and Spark-runtime access patterns for Iceberg tables. | 中 | SP012 |
| CP049 | AWS says Redshift can query data in open formats on Amazon S3 and open Redshift data to AWS and Apache Iceberg-compatible analytics engines through the SageMaker lakehouse. | 中 | SP018 |
| CP050 | Rill argues the competitive center of gravity is shifting from proprietary table formats toward managed Iceberg infrastructure and catalogs, which reduces vendor lock-in. | 中 | SP026 |
| CI001 | Databricks says its pricing is pay-as-you-go with no up-front costs and per-second billing granularity. | 中 | SI001 |
| CI002 | Microsoft says Azure Databricks bills customers for both provisioned virtual machines and Databricks Units based on the selected VM instance. | 中 | SI002 |
| CI003 | Microsoft says customers can save up to 37% over pay-as-you-go DBU prices by pre-purchasing Databricks Commit Units for one-year or three-year terms. | 中 | SI002 |
| CI004 | Microsoft says Azure Databricks does not charge DBUs while instances are idle in a pool, but cloud-instance billing still applies. | 中 | SI002 |
| CI005 | Microsoft Learn says some Azure Databricks serverless features use DBU multipliers, including a 2X multiplier for Data Quality Monitoring. | 中 | SI003 |
| CI006 | Microsoft Learn says SQL Serverless warehouse sizes range from 4 DBUs per hour at 2X-Small to 528 DBUs per hour at 4X-Large. | 中 | SI003 |
| CI007 | Microsoft Learn says CPU model serving bills one concurrent request per hour as 1 DBU per hour. | 中 | SI003 |
| CI008 | Microsoft Learn says AI Gateway inference tables bill 7.143 DBUs per 1 GB of payload. | 中 | SI003 |
| CI009 | Databricks said on September 8, 2025 that it crossed a $4 billion revenue run-rate growing more than 50% year over year. | 中 | SI005 |
| CI010 | Databricks said its AI products recently crossed a $1 billion revenue run-rate by September 2025. | 中 | SI005 |
| CI011 | Databricks said it had achieved positive free cash flow over the prior 12 months by September 2025. | 中 | SI005 |
| CI012 | Databricks said its September 2025 Series K raised $1 billion at a valuation above $100 billion. | 中 | SI005 |
| CI013 | Databricks said on February 9, 2026 that it crossed a $5.4 billion revenue run-rate with growth above 65% year over year. | 高 | SI006, SI010, SI011 |
| CI014 | Databricks said in February 2026 that its financing package exceeded $7 billion, including about $5 billion of equity at a $134 billion valuation and about $2 billion of additional debt capacity. | 高 | SI006, SI010, SI011 |
| CI015 | Databricks said in February 2026 that it delivered positive free cash flow over the prior 12 months. | 高 | SI006, SI011 |
| CI016 | Databricks said in February 2026 that its AI products crossed a $1.4 billion revenue run-rate. | 高 | SI006, SI010, SI011, SI012 |
| CI017 | Databricks said in February 2026 that more than 800 customers were consuming at over $1 million in annual revenue run-rate. | 高 | SI006, SI011, SI023 |
| CI018 | Databricks said in February 2026 that more than 70 customers were consuming at over $10 million in annual revenue run-rate. | 高 | SI006, SI011, SI023 |
| CI019 | CNBC reported in June 2025 that Databricks expected annualized revenue to reach $3.7 billion by July 2025. | 中 | SI009 |
| CI020 | CNBC reported Databricks generated $2.6 billion of revenue in the fiscal year that ended in January 2025. | 中 | SI009 |
| CI021 | CNBC reported in June 2025 that Databricks had a net retention rate above 140%. | 中 | SI009, SI023 |
| CI022 | CNBC reported that nearly 50 Databricks customers were spending over $10 million annually in the first quarter of fiscal 2026. | 中 | SI009 |
| CI023 | CNBC reported in June 2025 that Databricks was close to free-cash-flow positive in the most recent fiscal year. | 中 | SI009 |
| CI024 | Databricks said in December 2024 that it was raising $10 billion of expected non-dilutive financing, with $8.6 billion completed to date, at a $62 billion valuation. | 中 | SI004 |
| CI025 | Databricks said the December 2024 capital package was intended for AI products, acquisitions, international go-to-market expansion, and employee liquidity and related taxes. | 中 | SI004 |
| CI026 | Snowflake pricing describes a managed platform with elastic compute and separate storage charges. | 中 | SI013 |
| CI027 | Google says BigQuery on-demand analysis is priced at $6.25 per tebibyte above the first free tebibyte each month. | 中 | SI016 |
| CI028 | Google says BigQuery also offers capacity pricing in slots with pay-as-you-go autoscaling and optional one-year and three-year commitments. | 中 | SI016 |
| CI029 | AWS says Amazon Redshift Serverless starts at $1.50 per hour and bills RPU-hours on a per-second basis while the warehouse is active. | 中 | SI017 |
| CI030 | AWS says Amazon Redshift Serverless reservations can reduce compute costs by up to 45% for a three-year term or up to 24% for a one-year term. | 中 | SI017 |
| CI031 | Snowflake said in its FY2026 10-K that revenue was $4.7 billion and remaining performance obligations were about $9.8 billion, with about 46% expected to be recognized within 12 months. | 中 | SI014 |
| CI032 | Snowflake said cost of product revenue increased by $248.1 million in FY2026 mainly because of higher third-party cloud infrastructure expenses, including AI inference. | 中 | SI014 |
| CI033 | Snowflake said product gross margin was 72% in FY2026. | 中 | SI014 |
| CI034 | Confluent said in its 10-K that public-cloud provider pricing significantly influences its costs and gross margins and that higher cloud mix can hurt margins. | 中 | SI018 |
| CI035 | Confluent said its shift to a consumption-oriented sales model could create near-term financial volatility and that Confluent Cloud historically had a lower average price than Confluent Platform subscriptions. | 中 | SI018 |
| CI036 | Confluent said its Confluent Cloud land motions include free trial and pay-as-you-go entry points with no commitments, and some customers resist large long-term commitments. | 中 | SI018 |
| CI037 | Databricks said total cost of ownership on the platform has two core components: direct platform costs and underlying cloud infrastructure costs. | 中 | SI007 |
| CI038 | Databricks said FinOps and platform teams need unified views because Databricks and cloud cost data are fragmented across accounts, clusters, tags, and business units. | 中 | SI007 |
| CI039 | CloudForecast wrote in 2026 that Databricks pricing is confusing because DBUs, compute types, tiers, and separate infrastructure costs all contribute to the customer bill. | 中 | SI021 |
| CI040 | Mammoth wrote in 2026 that published Databricks pricing ranges from about $0.07 to $0.65+ per DBU plus separate cloud infrastructure charges. | 低 | SI022 |
| CI041 | Mammoth wrote in 2026 that Databricks billing is pay-per-second with no upfront costs, but total spend includes DBUs plus cloud infrastructure and storage. | 中 | SI022 |
| CI042 | Revenue Brew reported in February 2026 that Databricks had reached a $5.4 billion revenue run-rate. | 中 | SI012 |
| CI043 | Revenue Brew reported in February 2026 that Databricks said AI products generated $1.4 billion in annualized revenue. | 中 | SI012 |
| CI044 | Sacra estimated Databricks gross margins were about 80% as of June 2024, down from about 85% a year earlier. | 低 | SI020 |
| CI045 | Sacra said Databricks average contract value stood at $208,696 as of June 2024. | 低 | SI020 |
| CI046 | Sacra says Databricks uses a B2B, consumption-based SaaS model where customers pay for compute, storage, and data processing usage rather than fixed licenses or seat counts. | 低 | SI020 |
| CI047 | Sacra says Databricks cost inputs include cloud infrastructure, data processing, and compute resources from AWS, Azure, and Google Cloud. | 低 | SI020 |
| CI048 | Revefi wrote in 2026 that Databricks consumption-based pricing makes spend harder to predict as Genie and Mosaic AI workloads create variable and spiky compute demand. | 中 | SI023 |
| CI049 | Databricks pricing and product pages present monetized surfaces that include data engineering, data warehousing, AI, business intelligence, application development, database, and security. | 中 | SI001 |
| CI050 | Databricks says AI/BI removes per-seat and per-license BI fees by embedding BI and conversational analytics directly into the platform. | 中 | SI008 |
| CE001 | Databricks presents itself as a data and AI platform for enterprises rather than a single analytics SKU. | 中 | SE001 |
| CE002 | Databricks' product surface spans lakehouse architecture, governance, serverless SQL analytics, AI governance, and operational database products. | 中 | SE002 |
| CE003 | Databricks markets its lakehouse platform across AWS, Azure, and GCP. | 中 | SE002 |
| CE004 | Unity Catalog is positioned as unified and open governance for data and AI. | 中 | SE003 |
| CE005 | Unity Catalog claims to enforce discovery, access, quality monitoring, and compliance controls across structured and unstructured data, ML models, and business metrics in any cloud. | 中 | SE003 |
| CE006 | Unity Catalog advertises support for open formats including Delta, Apache Iceberg, Hudi, and Parquet. | 中 | SE003 |
| CE007 | Unity Catalog says it provides a unified catalog for structured data, unstructured data, business metrics, and AI models. | 中 | SE003 |
| CE008 | Unity Catalog offers row- and column-level access policies based on attributes and tags. | 中 | SE003 |
| CE009 | Unity Catalog provides end-to-end automated column-level lineage for data and AI assets. | 中 | SE003, SE011 |
| CE010 | Unity Catalog federates and governs external systems including MySQL, PostgreSQL, Salesforce, Redshift, Snowflake, BigQuery, and Hive Metastore without requiring migration. | 中 | SE003 |
| CE011 | AI/BI is described as AI-powered business intelligence that is natively integrated into the Databricks platform. | 中 | SE004 |
| CE012 | AI/BI says dashboards, Genie, Databricks SQL, Databricks One, Genie Code, and Unity Catalog Business Semantics are part of the BI product family. | 中 | SE004 |
| CE013 | AI/BI says analytics run directly on governed data in Unity Catalog so metrics, lineage, and permissions stay aligned. | 中 | SE004 |
| CE014 | AI/BI claims there are no per-seat or per-license BI fees for users exploring data and dashboards. | 低 | SE004 |
| CE015 | Databricks architecture guidance describes platform fundamentals in terms of control plane, compute plane, and storage components. | 中 | SE009 |
| CE016 | Azure Databricks accounts can manage multiple workspaces and multiple Unity Catalog metastores. | 中 | SE019 |
| CE017 | Databricks workspaces are the collaboration environment for ingestion, interactive exploration, scheduled jobs, and ML training. | 中 | SE019 |
| CE018 | Azure Databricks operates a control plane that Databricks manages outside the customer cloud account, and the web application lives in that control plane. | 中 | SE019, SE021 |
| CE019 | Azure Databricks uses different compute planes for serverless and classic compute: serverless runs in the Databricks account, while classic compute runs in the customer Azure subscription. | 中 | SE019 |
| CE020 | Databricks recommends a medallion architecture in which bronze, silver, and gold layers progressively improve data quality and structure. | 中 | SE010 |
| CE021 | Databricks' medallion example ingests raw data from cloud storage, Kafka, and Salesforce into bronze before validation in silver and enrichment in gold. | 中 | SE010 |
| CE022 | Mosaic AI Model Serving is Databricks' interface for deploying, governing, and querying AI and ML models for real-time serving and batch inference. | 中 | SE012 |
| CE023 | Mosaic AI Model Serving exposes served models as REST APIs and automatically scales with serverless compute for availability and latency management. | 中 | SE012 |
| CE024 | Databricks says external models from providers such as OpenAI and Anthropic can be centrally governed through model-serving endpoints. | 中 | SE012 |
| CE025 | Serverless SQL warehouses do not have public IP addresses. | 中 | SE013 |
| CE026 | Serverless SQL requires Premium-plan-or-higher workspaces and separate acceptance of serverless terms of service. | 中 | SE013 |
| CE027 | The Databricks release-notes index was updated on 2026-05-04 and includes feature-specific notes for Databricks SQL, Lakeflow Spark Declarative Pipelines, and serverless compute. | 中 | SE014 |
| CE028 | Lakebase is marketed as an operational Postgres database for AI agents and applications that is integrated with the lakehouse. | 中 | SE005 |
| CE029 | Lakebase advertises decoupled compute and storage, point-in-time recovery, scale-to-zero autoscaling, and database branching. | 中 | SE005 |
| CE030 | Lakebase says operational data can stay connected to the lakehouse through Unity Catalog governance and one-click data sync. | 中 | SE005 |
| CE031 | Databricks Trust says security capabilities include encryption, network controls, auditing, identity integration, access controls, and data governance. | 中 | SE006 |
| CE032 | Databricks publicly lists FedRAMP, GDPR, HIPAA, PCI-DSS, ISO 27001/27017/27018/27701, and SOC as supported compliance frameworks or attestations. | 中 | SE007 |
| CE033 | Databricks says its due diligence package includes ISO certificates and an annual penetration-test confirmation letter, while SOC 3 is public and SOC reports refresh in June, August, and December. | 中 | SE008 |
| CE034 | Google Cloud markets Databricks on Google Cloud as scalable, secure, and cost-effective, with access to Gemini, BigQuery, open-source tools, and multicloud patterns. | 中 | SE028 |
| CE035 | Google Cloud says Databricks announced Unity Catalog support for reading and writing managed Apache Iceberg tables across catalogs. | 中 | SE027, SE022 |
| CE036 | NVIDIA documents RAPIDS acceleration on Databricks for pandas, Spark, and Dask, including GPU plugins for driver-and-worker Spark clusters. | 中 | SE026 |
| CE037 | The Databricks CLI GitHub repository showed 332 stars, 165 forks, and 263 releases, with v0.299.0 dated 2026-04-30. | 中 | SE016 |
| CE038 | The Databricks SDK for Python PyPI package showed version 0.106.0 released on 2026-04-30 and requiring Python 3.10 or newer. | 中 | SE018 |
| CE039 | The Databricks SDK for Python repository says Runtime 13.1 includes a bundled SDK and that authentication supports Databricks-native, Azure-native, and GCP-native flows. | 中 | SE017 |
| CE040 | Databricks launched LakeFlow in June 2024 as a built-in data-engineering product for ingestion, transformation, and orchestration across databases and SaaS sources. | 中 | SE023 |
| CE041 | theCUBE Research reported that Databricks' 2025 summit centered on open lakehouse architecture, unified governance, and AI democratization. | 中 | SE022 |
| CE042 | theCUBE Research said 2025 summit announcements included business-semantics direction for Unity Catalog plus GenAI, agent, Iceberg, and Lakebase updates. | 中 | SE022 |
| CE043 | VentureBeat reported in February 2026 that Lakebase was generally available, built on technology from Neon and Mooncake, and designed to make operational writes queryable by analytics engines without ETL. | 中 | SE025 |
| CE044 | TechCrunch reported in March 2026 that Databricks launched Lakewatch, a new security product that performs SIEM-style detection and investigation with AI agents. | 中 | SE024 |
| CE045 | On 2026-05-05 the Databricks AWS status page showed an active incident with compute partially disrupted in multiple regions while AI/BI and Databricks Apps remained operational. | 中 | SE015 |
| CE046 | ServiceAlert.ai showed 100% uptime over the prior 88 days for Databricks but no detailed incident data, limiting independent verification of outage severity or root causes. | 低 | SE029 |
| CE047 | Microsoft's production-planning guidance recommends security, governance, and multi-workspace design before production Azure Databricks deployment and suggests serverless workspaces for initial exploration. | 中 | SE020 |
| CE048 | lakeFS describes Databricks as a hybrid PaaS in which a single-tenant data plane runs in the customer cloud account while a multi-tenant control plane remains with Databricks. | 低 | SE021 |
| CU001 | Databricks said in February 2026 that more than 20,000 organizations worldwide rely on the platform and that 70% of the Fortune 500 are customers. | 中 | SU004 |
| CU002 | Databricks said in September 2025 that more than 20,000 organizations worldwide relied on the platform, including Block, Comcast, Condé Nast, Rivian, and Shell. | 中 | SU003 |
| CU003 | CNBC reported in June 2025 that Databricks had more than 15,000 customers. | 中 | SU005 |
| CU004 | Databricks said in September 2025 that it had 650-plus customers consuming more than $1 million of annual revenue run-rate. | 中 | SU003 |
| CU005 | Databricks said in February 2026 that it had more than 800 customers consuming more than $1 million of annual revenue run-rate. | 中 | SU004 |
| CU006 | Databricks said in February 2026 that it had more than 70 customers consuming more than $10 million of annual revenue run-rate. | 中 | SU004 |
| CU007 | CNBC reported in June 2025 that nearly 50 Databricks customers were spending more than $10 million annually in the first quarter of the new fiscal year. | 中 | SU005 |
| CU008 | Databricks said in September 2025 that its net retention rate was sustaining above 140 percent. | 中 | SU003 |
| CU009 | Databricks said in February 2026 that its net retention rate remained above 140 percent. | 中 | SU004 |
| CU010 | CRN reported in February 2026 that Databricks sustained net retention greater than 140 percent. | 中 | SU006 |
| CU011 | The Databricks July 2025 summit recap said hundreds of customers, including 7-Eleven, Fox Sports, and Rivian, presented active use cases at Data + AI Summit 2025. | 中 | SU002 |
| CU012 | Databricks said 7-Eleven uses the platform to run a multipurpose agentic marketing assistant across more than 13,000 stores. | 中 | SU002 |
| CU013 | Databricks said 7-Eleven used assessments and workflows to simplify a Unity Catalog migration. | 中 | SU002 |
| CU014 | A Databricks Events YouTube session exists for 7-Eleven on using Mosaic AI to create a multi-purpose agentic marketing assistant. | 低 | SU019 |
| CU015 | Databricks said FOX Sports built Cleatus AI to answer fan questions in natural language using live scores, stats, and commentary. | 中 | SU002 |
| CU016 | Databricks said FOX Sports achieved a 2x higher query-success rate for fans using its AI-powered search experience. | 中 | SU002, SU016 |
| CU017 | The FOX Sports Databricks customer story says AI-powered search more than doubled its success rate while delivering more personalized and timely insights to fans. | 中 | SU016 |
| CU018 | A Databricks Events YouTube page exists for a FOX Sports session on reimagining the fan experience with the Databricks Data Intelligence Platform. | 低 | SU021 |
| CU019 | Databricks said Mastercard uses the platform to deploy AI responsibly across teams, platforms, and partners while automating onboarding support with a GenAI assistant. | 中 | SU002 |
| CU020 | Databricks said Mastercard used Delta Lake to cut query time by 80 percent and storage by 70 percent, and used Workflows to reduce pipeline processing from months to days. | 中 | SU002 |
| CU021 | Mastercard said its new product onboarding assistant was built in collaboration with Databricks on the Data Intelligence Platform. | 中 | SU011 |
| CU022 | Mastercard said the onboarding assistant uses retrieval-augmented generation and a human-in-the-loop feedback loop. | 中 | SU011 |
| CU023 | Mastercard said it uses machine-learning models to analyze more than 143 billion transactions per year. | 中 | SU011 |
| CU024 | In a September 2025 Mastercard story, Arsalan Tavakoli said the Mastercard product onboarding assistant significantly sped up onboarding and that churn in the process had come down. | 中 | SU012 |
| CU025 | The current Databricks customer story page for Mastercard frames the account as a responsible-AI and governance deployment at global payments scale. | 低 | SU017 |
| CU026 | Databricks said Insulet used the platform to achieve 12x faster real-time data processing, 83 percent fewer SQL queries, and 97 percent lower total cost of ownership. | 中 | SU002 |
| CU027 | The Insulet Databricks customer story says adopting Databricks delivered 12x faster data processing and 97 percent lower total cost of ownership. | 中 | SU018 |
| CU028 | The Insulet Databricks customer story says Lakeflow Connect automated ingestion from enterprise applications including Salesforce and Workday. | 中 | SU018 |
| CU029 | Microsoft said AT&T achieved a five-year ROI of 300 percent after migrating to Azure Databricks. | 中 | SU007 |
| CU030 | Microsoft said AT&T reduced more than 80 schemas and accelerated its data-science cycles by about three times after migrating to Azure Databricks. | 中 | SU007 |
| CU031 | Microsoft said AT&T now supports nearly 90,000 internal customers on one data architecture and can spin up new computing environments in hours rather than three to four months. | 中 | SU007 |
| CU032 | Databricks said AT&T and Databricks built AutoClassify, an end-to-end system for automatic multi-head binary classification from unlabeled text. | 中 | SU002 |
| CU033 | A Databricks Events YouTube page exists for an AT&T AutoClassify customer session. | 低 | SU020 |
| CU034 | PeerSpot listed 93 Databricks reviews on the reviewed page. | 中 | SU008 |
| CU035 | A PeerSpot reviewer said Databricks had become very expensive for their team and was less forgiving than Snowflake when implemented inefficiently. | 低 | SU008 |
| CU036 | PeerSpot summarized Databricks as frequently expensive for enterprise buyers because costs vary with usage, compute time, and data processed. | 低 | SU008 |
| CU037 | The archived Capterra Databricks page showed 17 reviews. | 低 | SU009 |
| CU038 | Capterra review text said Databricks can feel overwhelming for new users and that initial setup and connections require an experienced professional. | 低 | SU009 |
| CU039 | A Capterra review said Databricks pricing was fairly expensive and connecting Azure Data Lake required workarounds. | 低 | SU009 |
| CU040 | Databricks said in a Gartner Peer Insights recap that AI/BI earned a 4.8 out of 5 star rating and 94 percent willingness to recommend from 167 verified customer reviews as of September 30, 2025. | 中 | SU024 |
| CU041 | FeaturedCustomers said Databricks had 631 reviews, 457 case studies, and 128 customer videos on its platform. | 低 | SU010 |
| CU042 | Microsoft describes Azure Databricks as a Spark-based data and AI platform optimized for Microsoft Azure that works with Power BI, Azure AI Foundry, Power Platform, and other Microsoft services. | 中 | SU013 |
| CU043 | Google Cloud says Databricks on Google Cloud is available on Marketplace and offers enterprise capabilities for AI-driven outcomes. | 中 | SU014 |
| CU044 | SAP said SAP Business Data Cloud includes SAP Databricks as a first-party data service and brings the power of Databricks directly into SAP Business Data Cloud. | 中 | SU015 |
| CU045 | PR Newswire reported that Databricks received FedRAMP High agency authority to operate on AWS GovCloud in April 2024 and that Azure Databricks already held FedRAMP High and IL5 authorizations. | 中 | SU022 |
| CU046 | The current Databricks AI-customer page still highlights Mastercard and Rivian video references on the customer surface. | 低 | SU025 |
| CR001 | Databricks’ Privacy Notice says it applies to websites, applications, platform services, events, sales, and marketing activities. | 中 | SR001 |
| CR002 | Databricks’ Privacy Notice says California residents have additional rights under the CCPA. | 中 | SR001 |
| CR003 | Databricks says it uses large language models and other AI tools for certain uses of collected information in accordance with applicable law. | 中 | SR001 |
| CR004 | Databricks says it uses European Commission Standard Contractual Clauses, supplementary measures, and a DPA with SCCs for customer transfers. | 高 | SR001, SR002 |
| CR005 | Databricks says it is certified to the EU-U.S., UK, and Swiss Data Privacy Frameworks. | 中 | SR001 |
| CR006 | Databricks offers a downloadable, electronically signable Data Processing Addendum for customers that require one. | 中 | SR002 |
| CR007 | Databricks says its due-diligence package includes ISO certifications, an annual pen-test confirmation letter, an Enterprise Security Guide, and a SOC 2 Type II report. | 中 | SR003 |
| CR008 | Databricks documentation says security and compliance are a shared responsibility between Databricks, the customer, and the cloud provider. | 中 | SR004 |
| CR009 | Databricks documentation says the Enhanced Security and Compliance add-on includes controls for FedRAMP High, FedRAMP Moderate, and HIPAA. | 高 | SR030, SR005 |
| CR010 | The FedRAMP Marketplace lists Databricks on Azure Commercial as FedRAMP Certified, Class D (High), Rev5, as of 2026-01-16. | 中 | SR007 |
| CR011 | The EUR-Lex AI Act summary says the regulation applies from 2 August 2026, while some governance, penalty, and general-purpose AI model obligations start on 2 August 2025. | 中 | SR008 |
| CR012 | The EUR-Lex AI Act summary says providers of general-purpose AI models face documentation, downstream-information, training-data disclosure, and possible additional risk-management and cybersecurity duties. | 中 | SR008 |
| CR013 | CourtListener shows In Re Mosaic LLM Litigation is a live federal copyright case involving Databricks, with a last known filing on 2026-04-29. | 中 | SR009 |
| CR014 | Internet Cases reports that the court allowed plaintiffs to amend the complaint to add direct copyright infringement claims against Databricks tied to DBRX. | 中 | SR010 |
| CR015 | The Register reported on 2026-04-29 that Judge Breyer denied Databricks’ motion to dismiss and allowed authors’ claims to continue. | 中 | SR011 |
| CR016 | The Register says plaintiffs allege DBRX inherited risk from Mosaic’s MPT lineage through RedPajama and Books3, with potential statutory damages up to $150,000 per work if willful infringement is proven. | 中 | SR011 |
| CR017 | CFM Lawyers says a proposed class action was filed in British Columbia and Quebec on 2025-07-24 against Databricks and MosaicML over Books3 and The Pile training-data allegations. | 中 | SR012 |
| CR018 | Databricks operates a public status page that provides high-level availability information across Databricks services and regions. | 中 | SR006 |
| CR019 | Databricks and Azure Databricks documentation says Delta Lake can be used to manage GDPR and CCPA compliance workflows. | 高 | SR005, SR030 |
| CR020 | IsDown says Azure Databricks had 20 incidents in the last 90 days, including 1 major outage and 19 minor incidents, with a median duration of 1 hour 33 minutes. | 中 | SR027 |
| CR021 | IsDown says it has documented 173 Azure Databricks outages and incidents since January 2023, averaging 4.4 per month, with typical resolution time of 177 minutes. | 中 | SR027 |
| CR022 | IsDown says it monitors the official Azure Databricks status page across 11 components. | 中 | SR027 |
| CR023 | Databricks said in its Series K announcement that it had launched or expanded partnerships with Microsoft, Google Cloud, Anthropic, SAP, and Palantir in the prior two quarters. | 中 | SR014 |
| CR024 | Databricks said its Google Cloud partnership makes Gemini models native Databricks products billable through Databricks contracts. | 中 | SR021 |
| CR025 | Databricks said the Google Cloud partnership lets customers use Gemini on enterprise data under Unity Catalog governance without data replication. | 中 | SR021 |
| CR026 | Databricks and Anthropic announced a strategic five-year partnership to offer Claude natively through Databricks across AWS, Azure, and Google Cloud Platform. | 中 | SR023 |
| CR027 | SAP said SAP Business Data Cloud natively embeds Databricks for data engineering, machine learning, and AI workloads. | 中 | SR022 |
| CR028 | Microsoft Fabric markets a complete data platform with AI-powered tools, a unified lake, autonomous databases, and shared resilience, security, governance, and compliance. | 中 | SR025 |
| CR029 | Amazon EMR markets serverless Spark, Trino, and Flink analytics plus a unified data-and-AI environment inside AWS with cost and performance claims. | 中 | SR026 |
| CR030 | Snowflake’s FY2026 10-K says its AI Data Cloud runs across three major public clouds and 53 regional deployments and includes cross-cloud business-continuity capabilities. | 中 | SR024 |
| CR031 | TechCrunch reported that Databricks closed $10 billion of Series J equity financing at a $62 billion valuation in January 2025 and also added $5.25 billion of debt financing. | 中 | SR013 |
| CR032 | TechCrunch reported that Databricks planned to use its January 2025 financing for new AI products, global go-to-market expansion, acquisitions, and employee liquidity. | 中 | SR013 |
| CR033 | Databricks said its August 2025 Series K term sheet valued the company at more than $100 billion. | 中 | SR014 |
| CR034 | CRN reported that Databricks closed a $1 billion Series K round at a valuation above $100 billion in September 2025. | 中 | SR015 |
| CR035 | TechCrunch reported that Databricks raised more than $4 billion at a $134 billion valuation in December 2025, up 34% from $100 billion three months earlier. | 高 | SR016, SR020 |
| CR036 | TechCrunch reported that Databricks was investing heavily in Lakebase and Agent Bricks and had struck model-access deals worth hundreds of millions with Anthropic and OpenAI. | 中 | SR016 |
| CR037 | CNBC reported in January 2026 that Databricks landed $1.8 billion of fresh debt and had access to more than $7 billion of debt. | 中 | SR017 |
| CR038 | CNBC reported in January 2026 that Databricks’ December round implied a $134 billion valuation alongside $4.8 billion of run-rate revenue growing more than 55% year over year and positive free cash flow. | 高 | SR017, SR016 |
| CR039 | CNBC reported in February 2026 that Databricks completed $5 billion of funding plus $2 billion of new debt capacity at a $134 billion valuation. | 高 | SR018, SR019 |
| CR040 | CNBC reported in February 2026 that Databricks’ annualized revenue exceeded $5.4 billion for the January quarter, up 65% year over year, while delivering free cash flow over the prior year. | 高 | SR018, SR019 |
| CR041 | CRN reported in February 2026 that Databricks’ AI-products revenue run rate exceeded $1.4 billion and that the company had 800 $1 million customers and 70 $10 million customers. | 中 | SR019 |
| CR042 | Databricks’ legal center is the company’s public hub for legal documents, privacy FAQs, service terms, and compliance resources. | 中 | SR028 |
| CR043 | Databricks’ trust and privacy center positions privacy, trust, and subprocessor-related materials as a public diligence surface for customers. | 中 | SR029 |
| CR044 | Because advanced compliance controls sit in a named add-on and public-sector authorization is explicitly tied to Databricks on Azure Commercial, Databricks’ public compliance coverage is strong but not obviously uniform across all clouds and tiers. | 中 | SR007, SR009, SR030 |
| CR045 | Databricks’ AI roadmap now depends on external model partners, hyperscalers, and embedded channels, so partner concentration can affect product availability, economics, and account control even while it speeds distribution. | 中 | SR021, SR022, SR023, SR025, SR026 |
| CR046 | The jump from a $62 billion valuation in January 2025 to more than $100 billion in August-September 2025 and $134 billion by December 2025-February 2026 leaves less room for execution misses or delayed IPO timing. | 中 | SR013, SR014, SR015, SR016, SR018 |
| CR047 | Databricks’ simultaneous pushes into Lakebase, Agent Bricks, AI apps, and strategic partner integrations increase execution complexity relative to a narrower lakehouse product story. | 中 | SR014, SR016, SR023 |
| CR048 | Databricks’ public documentation surface is stronger than many private AI infrastructure peers, but it reduces diligence friction more than it eliminates litigation, outage, dependency, or valuation risk. | 中 | SR001, SR002, SR003, SR006, SR028, SR029 |
| CV001 | Databricks announced a Series J financing on 2024-12-17 at a $62 billion valuation. | 中 | SV001 |
| CV002 | Databricks said the Series J package targeted $10 billion of expected non-dilutive financing and had completed $8.6 billion to date. | 中 | SV001 |
| CV003 | Databricks said in December 2024 that it expected to cross a $3 billion revenue run-rate in the quarter ending 2025-01-31. | 中 | SV001 |
| CV004 | Databricks said in December 2024 that the quarter ending 2025-01-31 would mark its first positive free-cash-flow quarter. | 中 | SV001 |
| CV005 | Databricks announced on 2025-08-19 that it had signed a Series K term sheet valuing the company at more than $100 billion. | 中 | SV002 |
| CV006 | Databricks announced on 2025-12-16 that it was raising more than $4 billion in a Series L round at a $134 billion valuation. | 中 | SV003, SV004, SV005 |
| CV007 | Databricks said it crossed a $4.8 billion revenue run-rate in Q3 2025. | 中 | SV003, SV007 |
| CV008 | Databricks said Q3 2025 revenue was growing by more than 55% year over year. | 中 | SV003, SV007 |
| CV009 | Databricks said its AI products reached more than a $1 billion revenue run-rate by Q3 2025. | 中 | SV003, SV007 |
| CV010 | Databricks said its Data Warehousing business had reached more than a $1 billion revenue run-rate by Q3 2025. | 中 | SV003 |
| CV011 | Databricks said it had delivered positive free cash flow over the previous 12 months as of the Series L announcement. | 中 | SV003, SV006 |
| CV012 | Databricks said net retention remained above 140% at the time of the Series L announcement. | 中 | SV003, SV006 |
| CV013 | Databricks said more than 700 customers were already consuming over $1 million of annual revenue run-rate by December 2025. | 中 | SV003 |
| CV014 | CNBC reported that Databricks’ $134 billion Series L valuation was a 34% jump from the valuation implied by the August 2025 financing. | 中 | SV004 |
| CV015 | TechCrunch described the December 2025 Series L as Databricks’ third major venture fundraise in less than a year. | 中 | SV005 |
| CV016 | CRN reported that Databricks had surpassed a $5.4 billion annual revenue run-rate by the quarter ended 2026-01-31. | 中 | SV006, SV007 |
| CV017 | CRN reported that Databricks grew 65% year over year in the quarter ended 2026-01-31. | 中 | SV006, SV007 |
| CV018 | CRN reported that Databricks’ AI products exceeded a $1.4 billion revenue run-rate in the quarter ended 2026-01-31. | 中 | SV006, SV007 |
| CV019 | CRN reported that Databricks had 800 customers above a $1 million annual run-rate and 70 customers above a $10 million annual run-rate by February 2026. | 中 | SV006, SV007 |
| CV020 | CRN reported that the latest Databricks financing stack exceeded $7 billion, including about $5 billion of equity and about $2 billion of additional debt capacity. | 中 | SV006, SV007 |
| CV021 | CRN noted that Databricks still does not disclose detailed financial statements publicly despite reporting run-rate and growth snapshots. | 中 | SV006 |
| CV022 | Sacra estimated that AI products represented about 26% of Databricks’ January 2026 annualized revenue run-rate. | 中 | SV007 |
| CV023 | Sacra said Databricks was reporting 80% gross margins in June 2024, down from 85% a year earlier. | 低 | SV007 |
| CV024 | Forbes wrote that Databricks was trading at roughly 25x forward revenue when it carried a $100 billion valuation against a $4 billion annual run-rate in October 2025. | 中 | SV008 |
| CV025 | Forbes wrote in October 2025 that Snowflake was trading at roughly 18x forward revenue on about $79 billion of market capitalization and expected fiscal-2026 revenue of $4.395 billion. | 低 | SV008 |
| CV026 | Forbes argued that steep software valuation multiples came under pressure when public-market growth decelerated, using Snowflake as a cautionary example. | 中 | SV008 |
| CV027 | CompaniesMarketCap listed Snowflake’s market capitalization at $49.85 billion as of May 2026. | 中 | SV011 |
| CV028 | Snowflake reported $4.4723 billion of fiscal-2026 product revenue. | 中 | SV010, SV013 |
| CV029 | CompaniesMarketCap listed MongoDB’s market capitalization at $21.27 billion as of May 2026. | 中 | SV015 |
| CV030 | MongoDB reported $2.01 billion of fiscal-2025 total revenue. | 中 | SV014, SV017 |
| CV031 | CompaniesMarketCap listed Confluent’s market capitalization at $11.13 billion as of May 2026. | 中 | SV018 |
| CV032 | Macrotrends listed Confluent’s 2025 annual revenue at $1.167 billion. | 中 | SV019 |
| CV033 | CompaniesMarketCap listed Elastic’s market capitalization at $5.24 billion as of May 2026. | 中 | SV020 |
| CV034 | Macrotrends listed Elastic’s 2025 annual revenue at $1.483 billion. | 中 | SV021, SV022 |
| CV035 | CompaniesMarketCap listed Cisco’s market capitalization at $365.87 billion as of May 2026. | 中 | SV024 |
| CV036 | Macrotrends listed Cisco’s 2025 annual revenue at $56.654 billion. | 中 | SV025 |
| CV037 | Cisco’s September 2023 merger filing said the Splunk acquisition would pay $157.00 per share in cash and value the acquired equity at about $28 billion. | 中 | SV023 |
| CV038 | CompaniesMarketCap listed Palantir’s market capitalization at $350.05 billion as of May 2026. | 中 | SV026 |
| CV039 | Macrotrends listed Palantir’s 2025 annual revenue at $4.475 billion. | 中 | SV027 |
| CV040 | CompaniesMarketCap listed ServiceNow’s market capitalization at $94.84 billion as of May 2026. | 中 | SV028 |
| CV041 | Macrotrends listed ServiceNow’s 2025 annual revenue at $13.278 billion. | 中 | SV029 |
| CV042 | ServiceNow reported $3.671 billion of Q1 2026 subscription revenue and $27.7 billion of remaining performance obligations. | 中 | SV030 |
| CV043 | Using Databricks’ disclosed $134 billion valuation and $4.8 billion run-rate implies roughly a 27.9x valuation-to-run-rate multiple. | 中 | SV003 |
| CV044 | Using Databricks’ disclosed $134 billion valuation and $5.4 billion run-rate implies roughly a 24.8x valuation-to-run-rate multiple. | 中 | SV006, SV007 |
| CV045 | Using current May 2026 market capitalization and latest annual revenue implies Snowflake trades around 11.1x revenue. | 中 | SV011, SV013 |
| CV046 | Using current May 2026 market capitalization and latest annual revenue implies MongoDB trades around 10.6x revenue. | 中 | SV015, SV017 |
| CV047 | Using current May 2026 market capitalization and latest annual revenue implies Confluent trades around 9.5x revenue. | 中 | SV018, SV019 |
| CV048 | Using current May 2026 market capitalization and latest annual revenue implies Elastic trades around 3.5x revenue. | 中 | SV020, SV021 |
| CV049 | Using current May 2026 market capitalization and latest annual revenue implies Palantir trades around 78.2x revenue. | 中 | SV026, SV027 |
| CV050 | Using current May 2026 market capitalization and latest annual revenue implies ServiceNow trades around 7.1x revenue. | 中 | SV028, SV029 |
| CV051 | Public sources support that Databricks’ IPO timing remained discretionary into early 2026: management would not rule out 2026, but no filing timeline or audited S-1 process was public. | 中 | SV004, SV006, SV009 |
| CV052 | A reasonable base-case valuation range is about $110 billion to $145 billion if Databricks reaches roughly $6.0 billion to $6.6 billion run-rate while public comp multiples stay in the high-single-digit to low-double-digit range. | 中 | SV006, SV011, SV013, SV015, SV017, SV018, SV019, SV020, SV021, SV028, SV029 |
| CV053 | A bull case above the current mark requires Databricks to preserve an AI premium while scaling toward roughly $8 billion or more of run-rate, supporting a valuation range around $180 billion to $220 billion. | 中 | SV003, SV006, SV007, SV026, SV027, SV028, SV029 |
| CV054 | A bear case of roughly $55 billion to $85 billion is plausible if growth slows toward mature-software levels and Databricks rerates toward the 10x to 15x range visible in public data-platform comps. | 中 | SV008, SV011, SV013, SV015, SV017, SV018, SV019, SV020, SV021 |
| CV055 | At a $134 billion entry price, Databricks offers limited base-case upside and therefore fits a track posture better than a buy posture on public evidence alone. | 中 | SV004, SV006, SV008, SV011, SV013, SV015, SV017, SV018, SV019, SV020, SV021, SV028, SV029 |
| CV056 | The main thesis-break triggers are multiple compression, loss of >55% growth, failure to convert AI mix into durable economics, or disclosure that a preference stack materially reduces common-equity upside. | 中 | SV003, SV006, SV007, SV008 |
| CV057 | The most material remaining diligence asks are the cap table and preference stack, audited revenue-to-run-rate bridge, debt terms, customer concentration, and AI-product gross margin. | 中 | SV006, SV007, SV009 |
| CV058 | The comparable sample is model-appropriate only as a partial reference set because Databricks is private and uses a post-money valuation while public comps are current market-cap snapshots tied to different revenue definitions. | 中 | SV003, SV006, SV008, SV011, SV013, SV015, SV017, SV018, SV019, SV020, SV021, SV028, SV029 |