🔥 vs. ❄️: Databricks und Snowflake stehen sich gegenüber, während die KI-Welle naht

Infrastruktursoftware

Dharmesh Thakker, Danel Dayan, Sudheendra Chilappagari, Jason Mendel, Patrick Hsu | 7. Juli 2023

🔥 vs. ❄️: Databricks und Snowflake treten gegeneinander an, während sich die KI-Welle nähert

Foto 268469642 © Carlos Quiros | Dreamstime.com

Daten haben eine Anziehungskraft, und das haben Snowflake und Databricks* letzte Woche auf ihren jährlichen Benutzergipfeln bewiesen – Snowflake in Las Vegas und Databricks in San Francisco. Die beiden Unternehmen bedienten einst verwandte, aber getrennte Bereiche des Unternehmensdatenmarktes, doch nun befinden sie sich auf Kollisionskurs, um die große und sich schnell entwickelnde KI/ML-Chance mit Milliardenanteilenzu gewinnen.

Frank Slootman, der CEO von Snowflake, eröffnete seine Keynote auf der Snowflake-Konferenz mit der Bemerkung: „Um eine KI-Strategie zu haben, muss man eine Datenstrategie haben.“ Dies ist ein relevanter Kommentar, da die anhaltende Debatte darüber, ob diese nächste Generation der KI-Produktivität modellgesteuert oder datengesteuert sein wird, weitergeht. Mit zunehmender Reife der Anwendungsfälle und der Entwicklung von Tool-Stacks für KI-Entwickler wird immer klarer, dass ML-Modelle nur so gut sein können wie die zugrunde liegenden Daten, die sie speisen, und dass Daten ein entscheidendes Unterscheidungsmerkmal sein werden.

In diesem Sinne sind sowohl Databricks als auch Snowflake gut aufgestellt, um KI anzugehen , da ihre jeweiligen Produkte bereits als Rückgrat der Datenstrategien vieler Unternehmen dienen; Unternehmen verfügen über große Mengen wertvoller und proprietärer Erstanbieterdaten, die für die Entwicklung der nächsten Generation intelligenter, KI-gesteuerter Anwendungen von entscheidender Bedeutung sein werden.

Doch der Zugriff auf Daten allein wird nicht ausreichen, und Unternehmen, die KI einführen, benötigen auch die richtigen Tools zur Unterstützung des Datenabrufs, der Integration und der Erweiterung, was bei Vektordatenbanken wie Weaviate* und Pinecone, Modellagenten wie z wie LangChain und LlamaIndex sowie neue Eingabeaufforderungstechniken wie Retrieval Augmented Generation oder RAG. All dies ermöglicht es Unternehmen, das in Modellparametern gespeicherte Wissen mit einem externen Datenkorpus zu kombinieren.

Die größte Erkenntnis aus den beiden Konferenzen war für uns das Thema, Modelle/Rechen näher an die Bestände proprietärer Unternehmensdaten heranzuführen, die bereits in Databricks und Snowflake vorhanden sind. Während wir lange über den Endzustand diskutiert haben, wie Unternehmen KI in der Produktion nutzen werden – entweder durch das direkte Senden von Daten an Standard-Drittanbieter-Modellanbieter wie OpenAI, Cohere oder Anthropic oder durch das Einbringen von Modellen, beides von Drittanbietern und Open-Source, direkt zu den Daten – sowohl Databricks als auch Snowflake haben deutlich gemacht, dass Daten eine Schwerkraft haben. Und trotz der Größe, Komplexität und Abstraktion, die Standardmodelle von Drittanbietern bieten, möchten Unternehmen die Möglichkeit haben, Modelle direkt auf ihren proprietären Erstanbieterdaten zu trainieren, zu verfeinern und auszuführen, ohne Kompromisse eingehen zu müssen Bedenken hinsichtlich Leistung, Kosten sowie Sicherheit und Governance.

Während die Ankündigungen rund um Generative KI die Keynotes und Breakout-Sessions auf der Anwenderkonferenz beider Unternehmen dominierten, wollten wir einige andere wichtige Beobachtungen zusammenfassen, die unserer Meinung nach erwähnenswert sind.

End-to-End-Plattformen:

Eine Datenplattform ist nur dann wertvoll, wenn sie die Übersetzung von Rohdaten in verwertbare Informationen ermöglicht. In den letzten Jahren haben sich sowohl Databricks als auch Snowflake von Cloud-Daten-„Lakehouse“-Anbietern zu horizontalen Datenplattformen entwickelt, indem sie verschiedene Arten von Cloud-Workloads konsolidiert haben, darunter analytische, transaktionale, strukturierte/unstrukturierte, ETL, AI/ML usw. in einer einzigen Plattform.
In diesem Jahr lag der Fokus beider Unternehmen weniger auf der Unterstützung neuer Datentypen, Workloads und Formate als vielmehr auf der Entwicklung unterschiedlicher Ansätze zur Operationalisierung und Wertschöpfung aus den großen Mengen proprietärer Daten, die bereits in der Cloud von Databricks und Snowflake gespeichert sind. Datenplattformen.
- Databricks, die Cloud-ML-Plattform: Die Produktankündigungen von Databricks unterstrichen die Modularität seiner Plattform. Dazu gehörte Unity Catalog, ein Datenkatalog, der als einzelne Ebene dient. Während Databricks bereits über einen Großteil der Datentechnik verfügt (z. Delta Live Tables und Autoloader für ETL-Pipelines), Wissenschaft (z. B. MLflow) und Analysen (z. B. Die Module Databricks SQL und Photon SQL Runtime basieren auf dem Data Lake. Letzte Woche kündigte das Unternehmen Lakehouse AI an, sein Generative AI-Modul. Dazu gehörten der unternehmenseigene Vektorsuchindex, ein Feature-Store und eine Bereitstellungsschicht sowie ein Modell-Repository, gefüllt mit Dolly-, Mosaik-MPT- und anderen Open-Source-Modellen, sowie eine Bereitstellungs- und Überwachungsschicht. Die wachsende Produktbreite von Databrick zeigt eine klare Strategie, arbeitslastspezifische Module auf der Kerndatenplattform (Delta Lake + Unity-Katalog) aufzubauen und auf andere Personas zu erweitern.
- Snowflake, die Full-Stack-Daten-Cloud: Snowflake hingegen bewegt sich mit Unistore weiterhin zwischen Analyse und betrieblichen Anwendungsfällen. Der Closed-Garden-Ansatz des Unternehmens hat es für das Unternehmen schwierig gemacht, über den Analyst hinaus in neue Rollen zu expandieren. Aus diesem Grund hat Snowflake seine Bemühungen und Produktveröffentlichungen auf die Entwicklung hochwertiger Anwendungen für Geschäftsanwender konzentriert. Dazu gehören neue Produktveröffentlichungen rund um Document AI, Neeva für die Unternehmenssuche usw.

Offen vs. geschlossen:

Auf hohem Niveau zeigten beide Veranstaltungen die jeweiligen Stärken jedes Unternehmens und die Tatsache, dass beide von entgegengesetzten Enden des Technologiespektrums zur KI kommen – Positionen, die darüber entscheiden können, wer letztendlich einen größeren Anteil am riesigen KI-Markt hat als praktisch jedes andere Unternehmen beginnt, KI-Technologie zu nutzen.
Snowflake hat seine Wurzeln als Anbieter von Data Warehousing/strukturierter BI-Analyse und bietet eine geschlossene Plattform, die sich eher an Analystrichtet. Databricks hingegen hat Open-Source-Wurzeln und spricht Datenwissenschaftler und Dateningenieure an. Databricks begann damit, „Data Lakes“ anzubieten – zentrale Repositories zum Speichern strukturierter und unstrukturierter Daten – die natürlich mehr unstrukturierte Daten enthalten, die zum Trainieren der heutigen KI/ML-Modelle erforderlich sind.
Daher glauben wir, dass der Weg von Snowflake zu KI-Workloads länger ist als der von Databricks, was Databricks in eine bessere Pole-Position bringt, um dieses Rennen letztendlich zu gewinnen. Die anfänglichen Einsätze von Databricks ermöglichen es dem Unternehmen, möglicherweise den gesamten ML-Lebenszyklus einschließlich der Modellschulung zu übernehmen. Feinabstimmung des Modells; Modelllieferung; schnelles Engineering; und Vector Engineering, das nicht nur die Wettbewerbsvorteile der Einbindung proprietärer Unternehmensdaten von Erstanbietern in den KI-Workflow erschließt, sondern dem Unternehmen auch ein breites Angebot an die Hand gibt, von dem es unabhängig von der Entwicklung des KI-Marktes profitieren könnte. Snowflake ist heute viel stärker den Modellen von Drittanbietern verpflichtet.

Kampf um den Entwickler:

Während beide Unternehmen mit einem Fokus auf Datenpersönlichkeiten (Analyst, Ingenieure, Wissenschaftler) begannen, expandieren beide Unternehmen nun weiter nach oben, um Entwickler sowie nicht-technische, aber stark analytische Geschäftsanwender zu gewinnen, indem sie höhere Abstraktionsebenen bereitstellen Erweiterte Analysefunktionen, um den Zeit- und Arbeitsaufwand für die Gewinnung von Erkenntnissen zu reduzieren.
Die nächste Wachstumsphase dieser Datenplattformen basiert darauf, die Meinung der Entwickler zu gewinnen, sowohl der KI-Entwickler (Databricks Lakehouse AI) als auch der Anwendungsentwickler (Snowflake Unistore).
Die Plattformfunktionalität muss erweitert werden, um Entwicklern nicht nur das einfache Erstellen und Trainieren eines Modells zu ermöglichen; Es ist außerdem wichtig, dass Entwickler über die erforderlichen Tools verfügen, um ein Modell problemlos in eine Anwendung einzubetten, um die Nutzung durch den Endbenutzer zu ermöglichen. Als Beispiele hierfür sehen wir die jüngsten Übernahmen von Mosaic durch Databricks und Streamlit durch Snowflake.

Derzeit ergänzen sich die Geschäfte von Databrick und Snowflake noch einigermaßen– viele Unternehmen betreiben sowohl Snowflake als auch Databricks– und wir gehen davon aus, dass dies auch noch eine Weile so bleiben wird. Aber die beiden Anwenderkonferenzen machten deutlich, dass beide das gleiche Ziel haben: die herausragende Plattform zu werden, um jedes Unternehmen in ein KI-Unternehmen zu verwandeln. Wir sind optimistisch, was den Plan von Databricks angeht, mit dem KI-Produkt Lakehouse eine End-to-End-Infrastruktur aufzubauen, die Unternehmen dabei hilft, Daten in ihre eigenen ML-Modelle umzuwandeln, und als Drehscheibe zu dienen, in die Menschen kritische Daten integrieren können, wann immer sie wollen um ML-Modelle mit Daten zu erstellen, die sie bereits in Databricks speichern.

Tatsächlich sind wir der Meinung, dass KI/ML-Modelle immer mehr zur Massenware werden, da die Kostenkurve für das Trainieren und Betreiben von Modellen immer weiter sinkt. Unternehmen wie OpenAI bieten Produkte wie SaaS-Angebote an; und Open Source macht hochwertige Modelle leichter zugänglich. Die proprietären Daten von Unternehmen sind möglicherweise ihr bester KI-„Schutzgraben“, um sie vor Wettbewerbsbedrohungen zu schützen. In der heutigen Welt sind Daten das zentrale Unternehmensvermögen, und es liegt an den einzelnen Organisationen, sie mithilfe der neuen Welle von Tools, die Unternehmen wie Databricks und Snowflake entwickeln, zu monetarisieren und zu kommerzialisieren. Wir sind gespannt auf die Fortsetzung dieses Rennens!

Die oben enthaltenen Informationen basieren ausschließlich auf den Meinungen von Dharmesh Thakker, Danel Dayan, Jason Mendel, Sudheendra Chilappagari und Patrick Hsu. Es handelt sich um Material, das zu Informationszwecken zur Verfügung gestellt wird, und es handelt sich nicht um eine Rechts-, Steuer- oder Investment oder um ein Verkaufsangebot oder eine Aufforderung zur Abgabe eines Angebots zum Kauf einer Beteiligung an einem Fonds oder darf in keiner Weise als solche herangezogen werden Von Battery Ventures oder einem anderen Batterieunternehmen verwaltetes Investment .

Die Informationen und Daten beziehen sich auf den Zeitpunkt der Veröffentlichung, sofern nicht anders angegeben.

Inhalte, die aus Drittquellen stammen, werden zwar als zuverlässig erachtet, wurden jedoch nicht von unabhängiger Seite auf ihre Richtigkeit oder Vollständigkeit hin überprüft und können nicht garantiert werden. Battery Ventures ist nicht verpflichtet, den Inhalt dieses Beitrags zu aktualisieren, zu ändern oder zu ergänzen oder Leser*innen zu benachrichtigen, falls sich darin enthaltene Informationen, Meinungen, Prognosen, Vorhersagen oder Schätzungen ändern oder später ungenau werden.

*Bezeichnet Portfolio Battery Für eine vollständige Liste aller Investitionen und Exits klicken Sie bitte hier.

Zurück zum Blog

DIESEN ARTIKEL TEILEN