高达62亿美元！大数据初创公司 Databricks 再获4亿

来源：InfoQ 作者：蔡芳芳

美国时间 10 月 22 日凌晨，由 Apache Spark 创始成员成立的大数据初创公司 Databricks 宣布完成 4 亿美元 F 轮融资，本轮融资由美国私人风投公司 Andreessen Horowitz 领投，微软、Alkeon Capital Management、BlackRock 等跟投。本轮融资后，Databricks 最新估值高达 62 亿美元，与今年 2 月份完成 E 轮融资时的估值相比已经翻了不止一倍!

除了大数据领域赫赫有名的开源项目 Spark，Databricks 在 2018 年 6 月、2019 年 4 月先后又开源了全流程机器学习平台 MLflow 和存储层 Delta Lake，均在业内引起热烈反响。在过去一年中，Databricks 的年度经常性收入(ARR)增长了 2.5 倍以上，在本轮融资前，Databricks 刚刚宣布其 2019 年第三季度营收达到 2 亿美元，而四年前他们几乎还没有任何收入。

Market Research Future 的一份报告指出，到 2023 年，大数据分析市场规模将达到 2750 亿美元。与此同时，Gartner 最近预测，到 2022 年，人工智能衍生的业务收入将达到 3.9 万亿美元。面对这么大一块蛋糕，难怪投资人纷纷在大数据分析市场投下重金。据报道，数据分析服务提供商 Fractal Analytics 在一月份筹集到了2 亿美元;在那之后不久，端到端数据运营平台提供商Unravel 又获得了 3500 万美元的 C 轮融资;业务分析初创公司 Sisense 则在去年 9 月筹集了 8000 万美元，以扩大产品范围。同样在今年 6 月，谷歌豪掷 26 亿美元收购数据分析公司 Looker，成为谷歌近五年最大手笔的一次收购。

外媒 VentureBeat 这样评价 Databricks 的这次融资：“自 2013 年创立以来，Databricks 就一直不愁吸引不到客户。但这周可能会将该公司不断向市场支配地位进军之势推向高潮。”

宣布融资消息的同时，Databricks 还宣布聘请 Dave Conte 为公司首席财务官，Dave Conte 曾担任 Splunk 首席财务官长达八年，未来他将领导 Databricks 的所有财务和运营职能，并直接向 CEO Ali Ghodsi 汇报。

现在， Databricks 的客户包括 Hotels.com 、Viacom、HP、壳牌能源、Expedia，以及来自广告、技术、能源、政府、金融服务、医疗保健、游戏、生命科学、媒体和零售等领域的众多企业。Ghodsi 表示，目前总共有超过 5000 个组织的数据团队正在使用 Databricks 的数据分析平台，这相当于 2019 年初 Databricks 公布的组织数量(2000 个)的两倍以上。

“ (我们)是有史以来增长最快的企业级软件云厂商之一。我们在海量数据处理、机器学习、开源和向云端迁移的赌注都在市场上发挥了巨大作用，并为我们带来了海量且快速增长的全球客户需求。” Ghodsi 补充道。

本轮融资将用于帮助公司扩大研发规模并继续进行快速的全球扩张。具体来说，Databricks 将：

在未来三年内，向其最近在阿姆斯特丹成立的欧洲研发中心投资 1 亿欧元。据称，该研发中心在过去两年中已经增长了 3 倍。

建立专门的工程团队，以推进其最近推出的多项开源项目的技术研发，这些项目主要用于数据管理和机器学习，包括：Delta Lake、MLflow 和 Koalas。

推动和加速公司在全球的业务扩张，包括欧洲、中东、非洲、亚太地区和拉丁美洲。

本轮融资领投方 Andreessen Horowitz 的联合创始人兼总合伙人 Ben Horowitz 表示：“没有其他公司像 Databricks 一样如此成功地将开源软件商业化。我们都见证了 Apache Spark 作为大数据处理标准的强势发展。毫不意外，我们将继续看到该团队在开源上做出更多创新，包括 Delta Lake、MLflow 和 Koalas。”

关于 Databricks

Databricks 由 Apache Spark 的创始成员创立，而 Apache Spark 是由加州大学伯克利分校 AMPLab 基于 Scala 开发的一个开源分布式通用集群计算框架，从 2014 年左右开始得到广泛关注，经过几年发展逐渐成为大数据处理的事实标准。虽然 Spark 仍然是 Databricks 的一个关键产品，但现在只是 Databricks 所做的众多事情中的一小部分。如今 Databricks 已将重点转向机器学习。

开源 MLflow

MLflow 是一个能够覆盖机器学习全流程(从数据准备到模型训练到最终部署)的开源新平台，旨在为数据科学家构建、测试和部署机器学习模型的复杂过程做一些简化工作。有了 MLflow，数据科学家就可以在本地(笔记本电脑)或远程(云端)跟踪和共享机器学习实验、跨框架打包和共享模型，并几乎可以在任何地方部署模型。

作为一家大数据解决方案公司，Databricks 与数百家使用机器学习的公司合作，所以能够清楚地了解他们的痛点，比如工具太过复杂、难以跟踪实验、难以重现结果、难以部署模型。由于这些挑战的存在，机器学习开发必须变得与传统软件开发一样强大、可预测和普及。为此，很多企业已经开始构建内部机器学习平台来管理机器学习生命周期。例如，Facebook、谷歌和优步分别构建了 FBLearner Flow、TFX 和 Michelangelo 来进行数据准备、模型训练和部署。但这些内部平台存在一定的局限性：典型的机器学习平台只支持一小部分内置算法或单个机器学习库，并且被绑定在公司内部的基础设施上。用户无法轻易地使用新的机器学习库，或与社区分享他们的工作成果。

Databricks 认为应该使用一种更好的方式来管理机器学习生命周期，于是他们推出了 MLflow。MLflow 主要包含了三个组件：

跟踪组件支持记录和查询实验数据，如评估度量指标和参数;项目组件提供可重复运行的简单包装格式;而模型组件则提供用于管理和部署模型的工具。

自一年前发布第一个版本以来，MLflow 已经被数千个组织所采用。它被用于管理机器学习工作负载，一些服务平台(如 Databricks)还提供了 MLflow 服务。MLflow 社区已经有 100 多名贡献者，MLflow PyPI 包的下载频率已接近每月 60 万次。MLflow 1.0 已于今年 6 月正式发布，这一版本不仅标志着 API 的成熟和稳定，还增加了很多新特性和改进。

开源 Delta Lake

Delta Lake 由 Databricks 在今年年初开源，该项目旨在与社区共同打造一个开放标准，以管理数据湖中的大量数据，并不断提高数据湖的可靠性、质量和性能。 Delta Lake 为 Apache Spark 和其他大数据引擎提供可伸缩的 ACID 事务，让用户可以基于 HDFS 和云存储构建可靠的数据湖。此外，Delta Lake 还提供了内置的数据版本控制，可以方便地回滚以及重新生成报告。目前 Delta Lake 已经被成千上万的组织采用，包括 Intel、阿里巴巴、Booz Allen Hamilton 都是其开源生态一员。

近日，在荷兰阿姆斯特丹举行的 Spark+AI 欧洲峰会上，DataBricks 和 Linux 基金会联合宣布，开源项目 Delta Lake 正式成为 Linux 基金会的托管项目。

Delta Lake 提供的主要功能包括：

ACID 事务：Delta Lake 提供多个写操作之间的 ACID 事务。每个写操作都是一个事务，事务日志中记录的写操作有一个串行顺序。事务日志会跟踪文件级的写操作，并使用乐观并发控制，这非常适合数据湖，因为尝试修改相同文件的多个写操作并不经常发生。在存在冲突的场景中，Delta Lake 会抛出一个并发修改异常，以便用户处理它们并重试它们的作业。Delta Lake 还提供了强大的序列化隔离级别，允许工程师不断地对目录或表进行写操作，而用户可以不断地从相同的目录或表中读取数据。读取者将看到读操作开始时存在的最新快照。

模式管理：Delta Lake 会自动验证正在写入的 DataFrame 模式是否与表的模式兼容。表中存在但 DataFrame 中不存在的列会被设置为 null。如果 DataFrame 中有额外的列在表中不存在，那么该操作将抛出异常。Delta Lake 具有可以显式添加新列的 DDL 和自动更新模式的能力。

可伸缩的元数据处理：Delta Lake 将表或目录的元数据信息存储在事务日志中，而不是存储在元存储(metastore)中。这使得 Delta Lake 能够在固定的时间内列出大型目录中的文件，并且在读取数据时非常高效。

数据版本控制和时间旅行：Delta Lake 允许用户读取表或目录先前的快照。当文件在写期间被修改时，Delta Lake 将创建文件的新版本并保存旧版本。当用户希望读取表或目录的旧版本时，他们可以向 Apache Spark 的读操作 API 提供一个时间戳或版本号，Delta Lake 根据事务日志中的信息构建该时间戳或版本的完整快照。这使得用户可以重新进行试验并生成报告，如果需要，还可以将表还原为旧版本。

统一的批处理和流接收(streaming sink)：除了批处理写之外，Delta Lake 还可以使用 Apache Spark 的结构化流作为高效的流接收。再结合 ACID 事务和可伸缩的元数据处理，高效的流接收现在支持许多接近实时的分析用例，而且无需维护复杂的流和批处理管道。

记录更新和删除(即将到来)：Delta Lake 将支持合并、更新和删除 DML 命令。这使得工程师可以轻松地维护和删除数据湖中的记录，并简化他们的变更数据捕获和 GDPR 用例。由于 Delta Lake 在文件粒度上跟踪和修改数据，因此，比读取和覆写整个分区或表要高效得多。

数据期望(即将到来)：Delta Lake 还将支持一个新的 API，用于设置表或目录的数据期望。工程师将能够通过指定布尔条件及调整严重程度来处理数据期望。当 Apache Spark 作业写入表或目录时，Delta Lake 将自动验证记录，当出现违规时，它将根据所预置的严重程度处理记录。

原文：https://www.infoq.cn/article/zuExwMq5KjQMLLObJqIL