»Wir stehen für verifizierbares Wissen«

https://commons.wikimedia.org/wiki/File:JB_2022_wikidata.png

Die freie Wissensdatenbank Wikidata hatte 2022 gleich mehrfach Grund zu feiern: Die Schallmauer von 100 Millionen hochgeladener Items wurde durchbrochen – und das Projekt wurde 10 Jahre alt. Lydia Pintscher, Portfolio Lead von Wikidata, blickt aus Anlass des Jubiläums zurück und nach vorn.

Was bedeutet die Rekordzahl von 100 Millionen Items für Wikidata?

Lydia Pintscher: Natürlich freut es mich, andererseits möchte ich solchen »Höher-schneller-weiter«-Meilensteinen auch nicht zu viel Bedeutung beimessen, schon weil die Aussagekraft dieser Zahl begrenzt ist. Man kann die Daten nicht mit Wikipedia-Artikeln vergleichen, in die Ehrenamtliche wirklich viel Zeit, Mühe und Recherche investiert haben. Wikidata funktioniert anders: Ein Item ist generell relativ schnell zu erstellen, teilweise auch automatisiert. Insgesamt sind mir deswegen das Wachstum unserer Community oder die immer vielfältigeren Einsatzmöglichkeiten unserer Daten wichtiger.

Was waren für dich 2022 Highlights in Bezug auf Wikidata?

Wir haben die Data Reuse Days und die Data Quality Days veranstaltet – zwei Events, bei denen wir die Wikidata-Community zusammengebracht haben. Am Data Reuse Day ging es darum, Leute, die mit unseren Daten coole Apps oder Services bauen, näher mit unseren Editierenden zusammenzubringen und zu zeigen, was mit Wikidata alles möglich ist. Die Data Quality Days fokussieren sich, wie der Name schon sagt, auf Datenqualität. Das ist ein wichtiges Thema für uns. Wir schauen, welche neuen Werkzeuge oder Prozesse es gibt, um die Güte unserer Daten zu erhöhen. Beide Events fanden online mit einer internationalen Community aus Nutzenden und Editierenden aus der ganzen Welt statt. Und natürlich hat Wikidata den 10. Geburtstag gefeiert.

Welche Wegmarken in der Geschichte des Projekts sind besonders?

Eine Wegmarke war die Freischaltung von Wikidata – der Zeitpunkt, ab dem Editierende ihre ersten Items erstellen konnten. Ein weiterer wichtiger Punkt, nicht viel später, war die Möglichkeit, Links zu Wikipedia-Artikeln einzufügen. Bevor es Wikidata gab, fand sich zum Beispiel in der englischsprachigen Wikipedia am Ende eines Artikels der Hinweis auf die französische Version, die deutsche, die italienische und sofort – viele Artikel hatten sehr lange Listen, die in jeder Wikipedia redundant geführt wurden, was Chaos bedeutete. Schließlich müssen diese Links jeweils konsistent gehalten werden. Mithilfe von Bots, automatisiert also, haben Editierende sie in Wikidata importiert und dafür aus der Wikipedia entfernt. Ab diesem Zeitpunkt hat Wikidata jede Menge neue Items bekommen.

Wie genau muss man sich diesen Schub vorstellen?

Es musste jetzt in Wikidata ein Item für jedes relevante Konzept geben, das irgendwo in der Wikipedia beschrieben wird. Ein Konzept – das ist zum Beispiel ‚Berlin’. Es gab Artikel über Berlin in über 250 Wikipedien. Zum Item ‚Berlin’ in Wikidata konnten die Menschen jetzt im nächsten Schritt Daten sammeln. Das hat uns enorm geholfen, in relativ kurzer Zeit einen Grundstock an Daten aufzubauen, der dann verbessert und erweitert werden konnte.

Wie groß ist die Wikidata-Community derzeit – und wie könnte sie noch weiter wachsen?

Sie umfasst aktuell rund 12.000 aktive Editierende, also Menschen, die mindestens fünf Edits in den vergangenen 30 Tagen vorgenommen haben. Unser Ziel ist es, noch viel mehr Menschen zu vermitteln, welche Vorteile es hat, zu Wikidata beizutragen – etwa, indem wir mehr Bewusstsein dafür schaffen, in welchen alltäglich genutzten Technologien unsere Daten stecken und wie diese Technologien sich verbessern lassen, wenn Wikidata noch besser wird. Unsere Daten werden von etlichen Websites, Apps und Services genutzt, was aber die Menschen, die damit in Verbindung kommen und Wissen daraus ziehen, in der Regel nicht bemerken. Schließlich gehen sie nicht auf Wikidata.org, sondern bekommen die Daten zum Beispiel von dem persönlichen digitalen Assistenten auf ihrem Smartphone geliefert, wenn sie eine Frage stellen.

Ist die kommerzielle Nutzung von Wikidatas Daten, mit denen eben auch Sprachassistenten wie Siri oder Alexa trainiert werden, kritisch zu sehen?

Wir haben uns explizit entschlossen, unsere Daten unter der freien Lizenz CC0 zu veröffentlichen – was bedeutet, jede und jeder kann damit machen, was sie oder er will. Das schließt eben auch jegliche Art von kommerziellen Zwecken ein, ganz gleich, ob wir sie begrüßen oder nicht. Ganz abgesehen davon, dass es auch nicht kommerzielle Verwendungsmöglichkeiten gibt, die wir im Zweifelsfall nicht gutheißen. Ich sehe das ambivalent. Sprachassistenten sind genau die Tools, über die Menschen heutzutage ihr Wissen beziehen. Entsprechend ist es mir lieber, wenn es aus einer Quelle stammt, zu der alle beitragen können – und nicht aus einem verschlossenen System, auf das niemand Einfluss nehmen kann.

Mittlerweile ist das Thema künstliche Intelligenz voll im Gange. Inwiefern betrifft das Wikdata?

KI ist rund um Wikidata schon immer ein Thema. Schon weil Wikidata Grundlage für viele Maschinenlernmodelle ist. Aber inzwischen sprechen wir natürlich über ein ganz neues Level und stehen vor Fragen: Wie stellen wir Wikidata in dieser neuen Welt auf? Was ist jetzt noch der Mehrwert unseres Projekts? Eine Antwort lautet: Faktenbasiertes Wissen. Ein Programm wie ChatGPT wird oft als etwas verstanden, das es nicht ist, nämlich eine Wissensmaschine. So ein Chat-Bot operiert aber auf der Basis von Wahrscheinlichkeiten und schlägt teilweise Antworten auf Fragen vor, die plausibel klingen, aber nichts mit der Realität zu tun haben. Wofür wir stehen, das ist verifizierbares Wissen. Die Daten in Wikidata kann man dazu benutzen, automatisiert Faktenchecks zu betreiben. Das wird in Zukunft immer wichtiger werden.