17.09.2024
Wikimedia Deutschland entwickelt semantische Suche für gemeinnützige KI-Anwendungen
Berlin, 17. September 2024 – Wikimedia Deutschland startet in Kooperation mit den Experten von DataStax und Jina AI die Umsetzung eines semantischen Suchkonzepts, das die offen lizenzierten Daten von Wikidata für Entwickler*innen von KI-Anwendungen leichter nutzbar macht. Ziel ist es, den Prozess der Entwicklung von offenen, gemeinnützigen KI-Anwendungen zu vereinfachen und zu einem verlässlicheren Informations-Ökosystem beizutragen.
Als offener Wissensgraph mit über 112 Millionen menschen- und maschinenlesbaren Einträgen stellt Wikidata einen wertvollen Datenschatz für Entwickler*innen und die Gesellschaft dar. Durch die kontinuierliche Mitarbeit von über 12.000 aktiven Ehrenamtlichen ist der Datenbestand von Wikidata divers und gut gepflegt.
Der Bedarf an Zugang zu großen Mengen hochwertiger Daten ist im letzten Jahrzehnt signifikant gestiegen. Insbesondere generative KI Anwendungen erfordern große Mengen an Trainingsdaten, die oft aus dem Internet ausgelesen werden. Dieses sogenannte Scraping erfordert personelle und zeitliche Ressourcen, die in erster Linie großen kommerziellen Organisationen vorbehalten sind. Dies führt aber zu einem geschlossenen Ökosystem für Datennutzung, was den Idealen von Open-Source widerspricht. Wikidata möchte dazu beitragen, dieses geschlossene System zu öffnen, indem es die von der Wikidata Community stammenden, validierten Einträge in eine leicht zugängliche Datenquelle für die Entwicklung von Open-Source-KI-Anwendungen verwandelt.
Sobald Wikidata in mehr Open-Source-Workflows für maschinelles Lernen integriert ist, kann die Qualität des Informationsökosystems verbessert werden: Fehler von generativer KI können reduziert und der Output von Large-Language-Modellen kann akkurater werden. Langfristig könnte die breite Öffentlichkeit davon profitieren, dass es verlässlichere Alternativen zu kommerziellen Anbietern generativer KI gibt, die auf den Daten von Wikidata basieren.
„Wir konzentrieren uns darauf, Entwickler*innen zu helfen, die unsere Werte teilen. Für viele Entwickler*innen ist der Zugang zu Wikidata jedoch eine Herausforderung, und unsere aktuellen Methoden unterstützen nicht das Datenvolumen, das für einige der neuesten generativen KI-Entwicklungsanforderungen erforderlich ist“, erklärt Dr. Jonathan Fraine, Leiter der Softwareentwicklung bei Wikimedia Deutschland, der das Projekt zusammen mit Lydia Pintscher, Portfolio Lead Product Manager von Wikidata, initiiert hat.
Beide sind davon überzeugt, dass ein besserer Zugang zu dem Datenvolumen von Wikidata für Open-Source-Communitys im Bereich generativer KI von entscheidender Bedeutung ist. So sagt Pintscher: „Durch die Bereitstellung hochwertiger Daten unterstützen wir die Communitys bei ihrer Arbeit und der Umsetzung neuer Ideen, die nicht gewinnorientiert sind, sondern der Menschheit mit validen Informationen dienen sollen.“
Mit Unterstützung von DataStax und Jina AI werden die Daten von Wikidata nun transformiert und für KI-Entwickler*innen als semantische Vektoren in einer Vektordatenbank nutzbar gemacht. Dabei stellt DataStax die Vektordatenbank bereit, während Jina AI das Open-Source-Einbettungsmodell für die Vektorisierung der Textdaten zur Verfügung stellt. Die Vektorisierung wird eine direkte semantische Analyse ermöglichen und könnte die Erkennung von Vandalismus im Wikidata-Wissensgraphen erleichtern. Die Vektorisierung vereinfacht auch den Prozess, Wikidata zukünftig in RAG-Anwendungen (retrieval-augmented generation) zu nutzen – dadurch können Fehler der KI reduziert werden, indem aktuelle, geprüfte Fakten in die Resultate einbezogen werden. Wikimedia Deutschland hat im Dezember 2023 mit der Erstellung dieses Konzepts begonnen. Die ersten Beta-Tests eines Prototyps sind für 2025 geplant.
Über Wikimedia Deutschland:
Wikimedia Deutschland ist ein gemeinnütziger Verein mit über 111.000 Mitgliedern und 180 Beschäftigten, der sich für die Förderung von frei verfügbarem Wissen im digitalen Raum einsetzt. Als größte Ländervertretung der internationalen Wikimedia-Bewegung fördert der Verein die ehrenamtlichen Communitys der Wikipedia und weiterer Wikimedia-Projekte in Deutschland. Darüber hinaus entwickelt Wikimedia Deutschland freie Software sowie die freie Datenbank Wikidata und engagiert sich im digital- und bildungspolitischen Bereich für den freien Zugang zu Wissen und Daten.
Pressekontakt für weitere Fragen zum Projekt
Franziska Kelch
Kommunikationsmanagerin Politische Rahmenbedingungen
Franziska.kelch@wikimedia.de
01577/135 49 52