Als Datenwissenschaftler haben Sie wahrscheinlich schon einmal die Frustration erlebt, die entsteht, wenn Sie eine scheinbar endlose Anzahl von Stunden damit verbringen, den sauberen und repräsentativen Datensatz zu kuratieren und vorzubereiten, der für Ihr Modell für maschinelles Lernen (ML) erforderlich ist. Wir sind hier, um Ihre Frustration zu beleuchten und Ihnen zu sagen, dass Sie nicht allein sind – und dass es neue Technologien gibt, die Ihnen helfen können.
Im Kern ist ML ein großes und chaotisches Datenproblem, und Modelle – die branchenübergreifend eingesetzt werden, um Kerngeschäftsaufgaben zu automatisieren und die Effizienz zu steigern – erfordern riesige Datenmengen, bevor sie zuverlässig in der Produktion eingesetzt werden können. Einfach ausgedrückt: Ein Modell kann nur so gut sein wie die Daten, mit denen es trainiert wurde, und Modellvorhersagen von schlechter Qualität werden oft durch fehlerhafte oder qualitativ schlechte Daten verursacht. Datenintelligenz – oder die Fähigkeit, den Zustand der Daten, die das Modell antreiben, ganzheitlich zu verstehen und zu verbessern – ist eine der wichtigsten, aber unterschätzten Überlegungen für jedes Unternehmen, das die Vorteile von ML erfolgreich nutzen möchte.
Untermauert wird der intensive Fokus auf Datenintelligenz durch die tektonische Verschiebung von modellzentrierter zu datenzentrierter künstlicher Intelligenz (KI). Jüngste Fortschritte, darunter weit verbreitete, vorgefertigte Standardmodelle und leistungsstarke neue ML-Frameworks, haben den Zugang zu komplexen Hochleistungsmodellen demokratisiert und den Fokus weg vom Modell und hin zu den Daten verlagert. Unter dem datenzentrischen KI-Paradigma besteht der beste Weg zur Verbesserung des Zustands und der Leistung des Modells darin, die Qualität der zugrunde liegenden Daten zu verbessern, die durch das Modell fließen.
Da die Einführung von KI weiter zunimmt, nimmt auch die Bedeutung von Datenintelligenz zu, ohne die es nahezu unmöglich ist, große Mengen von ML-Daten zu verstehen und zu überprüfen. Die Bestimmung der optimalen Datenmischung, anhand derer ein Modell gekennzeichnet und trainiert werden soll – sowie das kontinuierliche Aufdecken und Beheben von Datenfehlern – ist zu einem chaotischen und zeitaufwändigen Prozess geworden. Fehler in den Daten können auf eine Reihe von Problemen zurückzuführen sein, darunter fehlende oder unzureichende Daten, zu viele Daten, falsch gekennzeichnete Daten und veraltete Daten. Und Datenqualitätsprobleme sind zwar mit bloßem Auge schwer zu erkennen, können sich jedoch katastrophal auf die Leistung des Modells auswirken.
Es ist daher nicht überraschend, dass ML-Entwickler so viel Zeit damit verbringen, die Daten zu optimieren, die ihre Modelle antreiben. Ein Großteil dieses Workflows ist heute jedoch ad hoc und manuell, und ML-Entwicklern fehlt ein Standardsatz von Tools, um Daten in großem Maßstab intelligent zu verstehen und zu verwalten und die Leistung von Modellen proaktiv zu verbessern.
Eintreten Galileo*
Galileo wurde speziell entwickelt, um das chaotische Datenproblem von ML zu lösen, und dient als Intelligenzebene, um Datenwissenschaftlern dabei zu helfen, Daten während des gesamten ML-Lebenszyklus zu verwalten. Mit der Technologie von Galileo können Datenwissenschaftler die Daten, die durch ihre Modelle fließen, einfach visualisieren, die richtigen Daten für das Modelltraining kuratieren, datensatzübergreifend nachverfolgen und zusammenarbeiten sowie kostspielige ML-Datenfehler wie fehlende Daten oder Kennzeichnungsfehler identifizieren und beheben. Dies führt zu weniger Zeit- und Kostenaufwand für die Datenaufbereitung und vor allem zu einer besseren Modellleistung durch eine bessere Datenqualität. Das Produkt von Galileo wird bereits von einer Handvoll Early Adopters bei Fortune-500-Unternehmen und Start-ups in verschiedenen Branchen in der Produktion eingesetzt.
Das Unternehmen wurde 2021 von Vikram Chatterji, Atindriyo Sanyal und Yash Sheth gegründet, einem Team von ML-Experten, die das Problem der chaotischen Daten von KI aus erster Hand erlebten, als sie Modelle bei einigen der weltweit größten KI-First-Unternehmen erstellten und einsetzten. Vikram und Yash arbeiteten zuvor an großen KI-Projekten bei Google, und Atindriyo half zuvor beim Aufbau der Michelangelo-Plattform von Uber und war ein frühes Mitglied des Siri-Teams bei Apple. Durch seine früheren Erfahrungen hat das Galileo-Team eine Fülle von Kenntnissen und Prinzipien aus erster Hand entwickelt, die es nutzt, um eine der komplexesten und dringendsten Herausforderungen von ML zu lösen.
Wir hatten das Glück, mit anderen Unternehmen im gesamten AI/ML-Workflow zusammenzuarbeiten: Databricks*, Arize*, Dataiku* und Paperspace*. Wir freuen uns auf die Zusammenarbeit mit Galileo, da das Unternehmen Datenintelligenz in ML einbringt. Wir freuen uns auf dieses nächste Wachstumskapitel.
Die hierin enthaltenen Informationen beruhen ausschließlich auf der Meinung von Morad Elhafed und sind nicht als Anlageberatung zu verstehen. Dieses Material wird zu Informationszwecken zur Verfügung gestellt und stellt weder eine Rechts-, Steuer- oder Anlageberatung noch ein Angebot zum Verkauf oder eine Aufforderung zum Kauf einer Beteiligung an einem von Battery Ventures oder einem anderen von Battery verwalteten Fonds oder Anlageinstrument dar und darf in keiner Weise als solche angesehen werden.
* Bezeichnet ein früheres oder gegenwärtiges Batterieportfolio-Unternehmen. Eine vollständige Liste aller Investitionen von Battery Ventures finden Sie hier . Es sollten keine Annahmen getroffen werden, dass die oben genannten Investitionen rentabel waren oder sein werden. Es sollte nicht davon ausgegangen werden, dass Empfehlungen in der Zukunft rentabel sind oder der Leistung der oben genannten Unternehmen entsprechen.
Die Informationen und Daten beziehen sich auf den Zeitpunkt der Veröffentlichung, sofern nicht anders angegeben.
Inhalte, die aus Drittquellen stammen, werden zwar als zuverlässig erachtet, wurden jedoch nicht von unabhängiger Seite auf ihre Richtigkeit oder Vollständigkeit hin überprüft und können nicht garantiert werden. Battery Ventures ist nicht verpflichtet, den Inhalt dieses Beitrags zu aktualisieren, zu ändern oder zu ergänzen oder Leser*innen zu benachrichtigen, falls sich darin enthaltene Informationen, Meinungen, Prognosen, Vorhersagen oder Schätzungen ändern oder später ungenau werden.
Die obigen Informationen können Prognosen oder andere zukunftsgerichtete Aussagen zu zukünftigen Ereignissen oder Erwartungen enthalten. Vorhersagen, Meinungen und andere Informationen, die in diesem Video besprochen werden, können sich ständig und ohne Vorankündigung ändern und sind nach dem angegebenen Datum möglicherweise nicht mehr zutreffend. Battery Ventures übernimmt keine Verpflichtung und beabsichtigt auch nicht, diese zukunftsgerichteten Aussagen zu aktualisieren.
Ein monatlicher Newsletter zum Austausch neuer Ideen, Erkenntnisse und Einführungen, um Unternehmer*innen beim Ausbau ihres Geschäfts zu helfen.