Während visuelle Tools ohne Code Unternehmen dabei helfen, mehr aus dem Computer herauszuholen, ohne dass Armeen interner Techniker Software für andere Mitarbeiter konfigurieren müssen, haben sie Zugriff auf die leistungsstärksten technischen Tools – bei der KI-Kohle „Deep Tech“ Gesicht – erfordert immer noch fachkundige Hilfe (und / oder kostspieliges internes Fachwissen).

Hier betreibt das französische Bootstrapping-Startup NLPCloud.io einen Handel mit MLOps / AIOps – oder „Compute Platform as a Service“ (da die Abfragen auf eigenen Servern ausgeführt werden) – mit Schwerpunkt auf der Verarbeitung natürlicher Sprache (NLP) ), wie der Name schon sagt.

Die Entwicklungen in der künstlichen Intelligenz haben in den letzten Jahren zu beeindruckenden Fortschritten auf dem Gebiet der NLP geführt – einer Technologie, mit der Unternehmen ihre Fähigkeit zur intelligenten Auseinandersetzung mit allen Arten von Kommunikation skalieren können, indem sie Aufgaben wie die Erkennung benannter Entitäten, die Stimmungsanalyse und den Text automatisieren Klassifizierung, Zusammenfassung, Beantwortung von Fragen und Teil-der-Sprache-Kennzeichnung, wodurch (menschliches) Personal frei wird, sich auf komplexere / differenziertere Arbeiten zu konzentrieren. (Obwohl es erwähnenswert ist, dass sich der Großteil der NLP-Forschung auf die englische Sprache konzentriert hat – was bedeutet, dass diese Technologie dort am ausgereiftesten ist; daher sind die damit verbundenen KI-Fortschritte nicht universell verteilt.)

Serienreife (vorab geschulte) NLP-Modelle für Englisch sind sofort einsatzbereit. Es gibt auch spezielle Open Source-Frameworks, die Hilfe bei Trainingsmodellen bieten. Unternehmen, die NLP nutzen möchten, benötigen jedoch weiterhin die DevOps-Ressourcen und -Chops, um NLP-Modelle zu implementieren.

NLPCloud.io richtet sich an Unternehmen, die sich der Herausforderung der Implementierung selbst nicht gewachsen fühlen. Es bietet eine „produktionsbereite NLP-API“ mit dem Versprechen, dass keine DevOps erforderlich sind.

Die API basiert auf Open-Source-Modellen von Hugging Face und spaCy. Kunden können entweder gebrauchsfertige vorgefertigte Modelle verwenden (sie wählen die „besten“ Open-Source-Modelle aus; sie bauen keine eigenen); oder sie können benutzerdefinierte Modelle hochladen, die intern von ihren eigenen Datenwissenschaftlern entwickelt wurden. Dies ist ein Unterschied zu SaaS-Diensten wie Google Natural Language (das die ML-Modelle von Google verwendet) oder Amazon Comprehend und Monkey Learn.

NLPCloud.io will NLP demokratisieren, indem es Entwicklern und Datenwissenschaftlern hilft, diese Projekte „in kürzester Zeit und zu einem fairen Preis“ umzusetzen. (Es gibt ein abgestuftes Preismodell, das auf Anfragen pro Minute basiert und bei 39 USD beginnt und am Unternehmensende bis zu 1.199 USD für ein benutzerdefiniertes Modell reicht, das auf einer GPU ausgeführt wird. Es bietet auch eine kostenlose Stufe, mit der Benutzer testen können Modelle mit niedriger Anforderungsgeschwindigkeit ohne Aufladung.)

„Die Idee kam von der Tatsache, dass ich als Softwareentwickler viele KI-Projekte aufgrund der Bereitstellung in der Produktionsphase scheitern sah“, sagt der alleinige Gründer und CTO Julien Salinas. „Unternehmen konzentrieren sich oft darauf, genaue und schnelle KI-Modelle zu erstellen, aber heute sind immer mehr hervorragende Open-Source-Modelle verfügbar und leisten hervorragende Arbeit. Die größte Herausforderung besteht nun darin, diese Modelle effizient in der Produktion einzusetzen. Es erfordert KI-Fähigkeiten, DevOps-Fähigkeiten, Programmierkenntnisse … Deshalb ist es für so viele Unternehmen eine Herausforderung, und deshalb habe ich beschlossen, NLPCloud.io zu starten. „

Die Plattform wurde im Januar 2021 gestartet und hat jetzt rund 500 Benutzer, darunter 30, die für den Dienst bezahlen. Das Startup mit Sitz in Grenoble in den französischen Alpen besteht derzeit aus einem dreiköpfigen Team und einigen unabhängigen Auftragnehmern. (Salinas sagt, er plane, bis Ende des Jahres fünf Leute einzustellen.)

„Die meisten unserer Benutzer sind Tech-Startups, aber wir haben auch ein paar größere Unternehmen“, sagt er gegenüber TechCrunch. „Die größte Nachfrage, die ich sehe, kommt sowohl von Software-Ingenieuren als auch von Datenwissenschaftlern. Manchmal kommt es von Teams, die über datenwissenschaftliche Kenntnisse verfügen, aber keine DevOps-Kenntnisse haben (oder keine Zeit damit verbringen möchten). Manchmal sind es Technologieteams, die NLP sofort einsetzen möchten, ohne ein ganzes Data-Science-Team einzustellen. „

„Wir haben sehr unterschiedliche Kunden, von Gründern von Startups bis hin zu größeren Unternehmen wie BBVA, Mintel, Senuto… in allen möglichen Branchen (Bankwesen, Öffentlichkeitsarbeit, Marktforschung)“, fügt er hinzu.

Zu den Anwendungsfällen seiner Kunden gehört die Lead-Generierung aus unstrukturiertem Text (z. B. Webseiten) über die Extraktion benannter Entitäten. und Sortieren von Support-Tickets nach Dringlichkeit durch Durchführen einer Stimmungsanalyse.

Content-Vermarkter nutzen ihre Plattform auch zur Generierung von Überschriften (über eine Zusammenfassung). Während Textklassifizierungsfunktionen für die wirtschaftliche Intelligenz und die Extraktion von Finanzdaten verwendet werden, laut Salinas.

Er sagte, seine eigene Erfahrung als CTO und Software-Ingenieur, der an NLP-Projekten bei einer Reihe von Technologieunternehmen arbeitete, habe ihn dazu veranlasst, eine Chance in der Herausforderung der KI-Implementierung zu erkennen.

„Ich erkannte, dass es dank großartiger Open-Source-Frameworks wie spaCy und Hugging Face Transformers recht einfach war, akzeptable NLP-Modelle zu erstellen, aber dann fiel es mir ziemlich schwer, diese Modelle in der Produktion zu verwenden“, erklärt er. „Es erfordert Programmierkenntnisse, um eine API zu entwickeln, starke DevOps-Kenntnisse, um eine robuste und schnelle Infrastruktur für NLP-Modelle aufzubauen (KI-Modelle verbrauchen im Allgemeinen viele Ressourcen), und natürlich auch datenwissenschaftliche Kenntnisse.

„Ich habe versucht, nach gebrauchsfertigen Cloud-Lösungen zu suchen, um Wochen Arbeit zu sparen, aber ich konnte nichts Befriedigendes finden. Meine Intuition war, dass eine solche Plattform Technologieteams dabei helfen würde, viel Zeit und manchmal monatelange Arbeit für die Teams zu sparen, die keine starken DevOps-Profile haben. „

„NLP gibt es schon seit Jahrzehnten, aber bis vor kurzem waren ganze Teams von Datenwissenschaftlern erforderlich, um akzeptable NLP-Modelle zu erstellen. Seit einigen Jahren haben wir erstaunliche Fortschritte in Bezug auf Genauigkeit und Geschwindigkeit der NLP-Modelle erzielt. Immer mehr Experten, die seit Jahrzehnten im NLP-Bereich tätig sind, sind sich einig, dass NLP zu einer „Ware“ wird “, fährt er fort. „Frameworks wie spaCy machen es Entwicklern extrem einfach, NLP-Modelle zu nutzen, ohne über fortgeschrittene datenwissenschaftliche Kenntnisse zu verfügen. Das Open-Source-Repository von Hugging Face für NLP-Modelle ist ebenfalls ein großer Schritt in diese Richtung.

„Aber diese Modelle in der Produktion laufen zu lassen, ist immer noch schwierig und vielleicht sogar noch schwieriger als zuvor, da diese brandneuen Modelle sehr ressourcenintensiv sind.“

Die Modelle, die NLPCloud.io anbietet, werden nach Leistung ausgewählt – wobei „am besten“ bedeutet, dass „der beste Kompromiss zwischen Genauigkeit und Geschwindigkeit“ erzielt wird. Salinas sagt auch, dass sie auf den Kontext achten, da NLP für verschiedene Benutzerfälle verwendet werden kann – und schlägt daher eine Anzahl von Modellen vor, um sich an eine bestimmte Verwendung anpassen zu können.

„Anfangs haben wir mit Modellen begonnen, die nur der Entitätsextraktion gewidmet sind, aber die meisten unserer ersten Kunden haben auch nach anderen Anwendungsfällen gefragt. Deshalb haben wir begonnen, weitere Modelle hinzuzufügen“, stellt er fest und fügt hinzu, dass sie weiterhin weitere Modelle aus den beiden ausgewählten Frameworks hinzufügen werden – „um mehr Anwendungsfälle und mehr Sprachen abzudecken“.

SpaCy und Hugging Face wurden aufgrund ihrer Erfolgsbilanz als Unternehmen, der von ihnen angebotenen NLP-Bibliotheken und ihres Fokus auf produktionsbereite Frameworks als Quelle für die über die API angebotenen Modelle ausgewählt – mit der Kombination, die NLPCloud.io ermöglicht bieten laut Salinas eine Auswahl von Modellen an, die schnell und genau sind und im Rahmen der jeweiligen Kompromisse funktionieren.

„SpaCy wird von einem soliden Unternehmen in Deutschland namens Explosion.ai entwickelt. Diese Bibliothek hat sich zu einer der am häufigsten verwendeten NLP-Bibliotheken unter Unternehmen entwickelt, die NLP in der Produktion „real“ einsetzen möchten (im Gegensatz zu nur akademischer Forschung). Der Grund dafür ist, dass es sehr schnell ist, in den meisten Szenarien eine hohe Genauigkeit aufweist und ein „einschätzendes“ Framework ist, das die Verwendung durch Nicht-Datenwissenschaftler sehr einfach macht (der Nachteil ist, dass es weniger Anpassungsmöglichkeiten bietet) „, sagt er.

„Hugging Face ist ein noch solideres Unternehmen, das kürzlich aus gutem Grund 40 Millionen US-Dollar gesammelt hat: Sie haben eine disruptive NLP-Bibliothek namens ‚Transformers‘ erstellt, die die Genauigkeit von NLP-Modellen erheblich verbessert (der Nachteil ist jedoch, dass sie sehr ressourcenintensiv ist). . Es bietet die Möglichkeit, weitere Anwendungsfälle wie Stimmungsanalyse, Klassifizierung, Zusammenfassung usw. abzudecken. Darüber hinaus wurde ein Open-Source-Repository erstellt, in dem Sie ganz einfach das beste Modell auswählen können, das Sie für Ihren Anwendungsfall benötigen. “

Während AI bei einem Clip innerhalb bestimmter Tracks – wie z. B. NLP für Englisch – Fortschritte macht, gibt es immer noch Vorbehalte und potenzielle Fallstricke bei der Automatisierung der Sprachverarbeitung und -analyse, mit dem Risiko, dass etwas falsch oder schlechter wird. Es wurde beispielsweise gezeigt, dass KI-Modelle, die auf von Menschen generierten Daten trainiert wurden, eingebettete Vorurteile und Vorurteile der Personen widerspiegeln, die die zugrunde liegenden Daten erstellt haben.

Salinas stimmt zu, dass NLP manchmal mit „Voreingenommenheitsproblemen“ wie Rassismus und Frauenfeindlichkeit konfrontiert sein kann. Er drückt jedoch sein Vertrauen in die von ihnen ausgewählten Modelle aus.

„Die meiste Zeit scheint es so [bias in NLP] ist auf die zugrunde liegenden Daten zurückzuführen, die zum Trainieren der Modelle verwendet wurden. Es zeigt, dass wir bei der Herkunft dieser Daten vorsichtiger sein sollten “, sagt er. „Meiner Meinung nach ist die beste Lösung, um dies zu mildern, dass die Community der NLP-Benutzer bei der Verwendung eines bestimmten Modells aktiv etwas Unangemessenes meldet, damit dieses Modell angehalten und behoben werden kann.“

„Auch wenn wir bezweifeln, dass in den von uns vorgeschlagenen Modellen eine solche Tendenz besteht, ermutigen wir unsere Benutzer, uns solche Probleme zu melden, damit wir Maßnahmen ergreifen können“, fügt er hinzu.