在“大數(shù)據(jù)”概念誕生十多年后,數(shù)據(jù)仍然是大型企業(yè)和初創(chuàng)企業(yè)中最重要、增長最迅猛的創(chuàng)新驅(qū)動因素之一。從提供作為商業(yè)運作基礎的脈搏檢查,到通過機器學習實現(xiàn)日常任務的智能自動化,數(shù)據(jù)已經(jīng)成為各種規(guī)模組織決策的中樞神經(jīng)系統(tǒng)。此外,數(shù)據(jù)的使用已經(jīng)遠遠超出了數(shù)據(jù)科學家、數(shù)據(jù)分析師和數(shù)據(jù)工程師的范疇—每個人都是數(shù)據(jù)生產(chǎn)者和消費者。
這種對數(shù)據(jù)更加關注的結(jié)果是:數(shù)據(jù)管理業(yè)務已經(jīng)成為基礎設施增長最快的領域之一,據(jù)估計價值超過700億美元,占2021年所有企業(yè)基礎設施支出的五分之一以上。這個市場形成的原因在于,它結(jié)合了軟件工程、分析和人工智能領域,同時順應了云計算的潮流勢頭。(有關這一巨大趨勢背后的架構(gòu)演變和驅(qū)動力的更多信息,可以參閱《現(xiàn)代數(shù)據(jù)基礎設施的新興架構(gòu)》。)
過去幾年,數(shù)據(jù)行業(yè)的發(fā)展也催生了一些令人興奮和有影響力的企業(yè)軟件公司。最近,Snowflake和Confluent等公共巨頭已經(jīng)改變了數(shù)千家企業(yè)的運營方式和數(shù)百萬種產(chǎn)品的生產(chǎn)方式。然而,大多數(shù)人都不太熟悉那些有影響力的公司,也就是下一代定義類別的公司。
2021年,數(shù)據(jù)公司獲得了數(shù)百億美元的風險投資,打破了歷史記錄,2022年的風險投資也已經(jīng)很強勁。我們編制了Data50的首批數(shù)據(jù)。這些是令人興奮的數(shù)據(jù)類別中的領頭羊公司??傮w而言,這50家公司的價值超過1000億美元,并且籌集了大約145億美元的總資本,其中20家到2021年已達到獨角獸地位。
Data50公司涵蓋類型有7個子類別:
AI/ML(人工智能/機器學習)、BI & Notebooks(商業(yè)智能和筆記本)、Customer Data Analytics(客戶數(shù)據(jù)分析)、Data Governance & Security(數(shù)據(jù)治理與安全)、Data Observability(數(shù)據(jù)可觀察性)、ELT & Orchestration(ELT 與編排)、Query and Processing(查詢與處理)。
1、查詢和處理技術是訪問、聚合和計算數(shù)據(jù)的核心引擎。它涉及兩大類:批處理(如Databricks和Starburst)和實時處理(如ClickHouse和Imply)。在過去的幾年里,由于對實時應用程序的需求不斷增加,后者得到了越來越多的關注。
2、AI/ML(人工智能和機器學習)包括應用算法建模和機器學習處理大規(guī)模數(shù)據(jù)的軟件。從上榜公司的數(shù)量來看,這一領域正在成熟和繁榮。一些參與者專注于一個特定類型的數(shù)據(jù)(例如自然語言的Rasa和Hugging Face),而另一些則專注于不同的領域,例如AI的產(chǎn)品化(例如 Scale、Tecton和Weights and Biases)或充當用于運行AI工作負載(例如Anyscale)的“計算層”。
3、ELT和編排支持數(shù)據(jù)的移動。它是保證數(shù)據(jù)準確、準時到達目的地的傳輸層。此類別是從傳統(tǒng)的ETL供應商演化而來的。另一方面,新類別的玩家大多是云原生的(例如Fivetran和dbt),對開發(fā)人員友好(例如Astronomer和Prefect),并且可以處理不同數(shù)據(jù)環(huán)境之間更復雜的依賴關系。
4、隨著數(shù)據(jù)堆棧變得越來越復雜并且涉及更多利益相關者,數(shù)據(jù)治理和安全性正成為關鍵問題。需要治理工具—尤其是在高度規(guī)范的行業(yè)—來確保數(shù)據(jù)的安全并在整個數(shù)據(jù)生命周期中保持一致性(例如OneTrust和Collibra)。這一類別相對較新,通常服務于受監(jiān)管的大型企業(yè)公司。
5、傳統(tǒng)上,客戶數(shù)據(jù)分析由營銷團隊負責。然而,由于其重要性日益增加,數(shù)據(jù)團隊現(xiàn)在更多地參與將客戶數(shù)據(jù)與中央數(shù)據(jù)平臺集成。此類別側(cè)重于捕獲客戶數(shù)據(jù)(例如Rudderstack和ActionIQ)或操作該數(shù)據(jù)以服務于一線業(yè)務用例(例如Census和Hightouch)。
6、BI & notebooks覆蓋了數(shù)據(jù)的消費層。盡管它是一個成熟的類別,但Preset或Metabase等新參與者正在采取開源優(yōu)先的方法,并吸引技術數(shù)據(jù)工程師以及商業(yè)智能團隊。數(shù)據(jù)需求的快速變化性質(zhì)也對迭代和交互式筆記本(例如Hex)和自動洞察生成(例如Sisu)產(chǎn)生了更多需求。
數(shù)據(jù)可觀察性從軟件工程堆棧的最佳實踐中汲取靈感。隨著數(shù)據(jù)堆棧越來越依賴于上下游工具,并且數(shù)據(jù)的準確性具有更廣泛的影響,可觀察性成為提供跨數(shù)據(jù)流監(jiān)控和診斷能力的最新類別。
盡管市場采用的主要推動力是數(shù)據(jù)量和使用量的增加,但每個類別的潛在驅(qū)動力是不同的。例如,查詢和處理領域的進步主要是由計算和存儲的分離、遷移到云以及更廉價的計算能力驅(qū)動的。與此同時,在數(shù)據(jù)治理和數(shù)據(jù)可觀察性中采用操作性工具在很大程度上是由不斷增長的操作性用例和數(shù)據(jù)工作流的復雜性驅(qū)動的。
以下為Data50公司名單(名稱、類型、地點、估值范圍及網(wǎng)站情況):
從細分角度(融資分布、數(shù)量分布、地點分布)看Data50:
查詢和處理公司籌集了最大的資本份額
查詢和處理類別只占Data50中公司的五分之一,但投資在這一類別的資金數(shù)額(幾乎占所有資金的 50%)是驚人的。盡管這一數(shù)據(jù)受到了Databricks最近16億美元融資的影響,但如果沒有它,這一類別仍將占所有融資的37%,是下一個類別的兩倍多。
從公司數(shù)量來看,分布更為均衡。就公司數(shù)量而言,AI/ML 是最大的類別,主要是因為該領域仍在不斷發(fā)展,需要一套新的獨立工具來訓練、測量和生產(chǎn)模型。(有關該領域如何發(fā)展的更多信息,請閱讀現(xiàn)代數(shù)據(jù)基礎設施的新興架構(gòu)。)
Data50集中在舊金山灣區(qū)
在這50家公司中,47家(94%)位于美國,3家是跨國公司。其中33家公司位于舊金山灣區(qū),9家位于華盛頓特區(qū)、費城、紐約和波士頓的I-95走廊沿線。其中兩家位于西雅圖,一家位于辛辛那提,還有一家位于亞特蘭大。
這種分布受到大規(guī)模數(shù)據(jù)生態(tài)系統(tǒng)歷史位置的嚴重影響(例如,Oracle和Teradata都在灣區(qū)成立)。然而,我們看到越來越多的數(shù)據(jù)公司(如Firebolt和Matillion)出現(xiàn)在全球各地,因為數(shù)據(jù)工程人才和對數(shù)據(jù)工具的需求幾乎遍及每個大陸。
AI/ML 類別推動了 2019 年新數(shù)據(jù)公司的激增
大多數(shù) Data50 公司成立于 2014 年之后,在 AI/ML 工具爆炸式增長的推動下,在2019 年左右達到頂峰。事實上,2019 年之后成立了更多的數(shù)據(jù)公司,但是因為我們關注的是已經(jīng)達到一定規(guī)模的公司,所以大多數(shù)新公司還沒有出現(xiàn)在這個名單上。
每個類別的投資都在增長
從每個類別的投資來看,最顯著的趨勢是 AI/ML 公司比以往任何時候都獲得了更多的投資者興趣,主要集中在早期階段。 ELT 和編排也是如此——主要由來自 Fivetran 和 dbt 的巨輪驅(qū)動。 查詢和處理公司繼續(xù)吸引大筆資金,盡管這些公司往往處于后期階段。
本文作者為Jennifer Li、Sarah Wang、Jamie Sullivan。Jennifer Li是 a16z 的合伙人,她專注于企業(yè)公司。Sarah Wang是 a16z 的普通合伙人,專注于成長階段的投資。Jamie Sullivan是 a16z Growth 投資團隊的合伙人,專注于消費者、企業(yè)和金融科技領域的后期公司。
在本文結(jié)尾,作者指出,我們堅信,未來10年將是數(shù)據(jù)的十年,包括基礎設施、應用程序以及介于兩者之間的一切。因此,我們將繼續(xù)看到創(chuàng)紀錄的增長、資金和市值,我們將在此列表中每年對其進行跟蹤。