Wikipedia
30.05.2017, 14:27 Uhr
EPFL-Algorithmus übersetzt fehlende Wikipedia-Artikel
Gerade in Sprachen, die nicht so viele Sprecher aufweisen, ist Wikipedia alles andere als eine umfassende Online-Enzyklopädie. Ein Algorithmus der ETH Lausanne (EPFL) soll das ändern und fehlende Artikel automatisch übersetzen.
Robert West, Forscher am Labor für Datenwissenschaften der EPFL, will Wikipedia für wenig gesprochene Sprachen erweitern helfen © Alain Herzog / EPFL
Ein Forscher der EPFL hat ein System entwickelt, das Wikipedia scannt, um in anderen Sprachen wichtige fehlende Artikel zu erkennen. Das Projekt soll dabei helfen, die Online-Enzyklopädie in kleineren Sprachen wie zum Beispiel Rätoromanisch zu erweitern.
Mit 40 Millionen Artikeln in 293 Sprachen ist Wikipedia die grösste Enzyklopädie aller Zeiten. Aber während die 5,4 Millionen Seiten in englischer Sprache besonders vielfältig sind und 60 Mal mehr Stoff abdecken als die Encyclopaedia Britannica, bestehen erhebliche Ungleichheiten zwischen den Sprachen. «Wissen, das für bestimmte Bevölkerungen von wesentlicher Bedeutung ist, ist nicht übersetzt. Zum Beispiel gibt es auf Madagassisch keinen Artikel über den Klimawandel, obwohl diese Problematik für die Einwohner Madagaskars von entscheidender Bedeutung ist», erläutert Robert West, Forscher am Labor für Datenwissenschaften der EPFL.
Ein anderes Beispiel: Nur 3400 Artikel sind ins Rätoromanische übersetzt worden – im Vergleich zu 1,8 Millionen Artikeln auf Französisch und mehr als zwei Millionen auf Deutsch. Für die Wikipedia-Autoren ist es schwierig zu entscheiden, was von den Millionen von Seiten zu übersetzen ist, um wirklich zu einer Verbesserung beizutragen. Hier setzt die Arbeit von West an: Der Forscher hat maschinelles Lernen genutzt, um die wichtigsten fehlenden Seiten für jede Sprache zu erkennen und zu sortieren. Eine komplexe Arbeit, da es nicht so einfach ist, die Relevanz eines Themas für eine Kultur zu bestimmen.
Objektive Maschinen
Um den Maschinen zu helfen, beispielsweise die Bedeutung einer Seite auf Rätoromanisch zu erkennen, musste errechnet werden, wie viele Abrufe ein fehlender Artikel theoretisch generieren müsste. «Die Sängerin Taylor Swift oder die Pokémon sind sicherlich beliebt, aber sind sie wirklich wichtig? Um zu vermeiden, ethnozentrische Fehler zu begehen, haben wir aufgrund aller Sprachen die Statistiken der Seiten vorausberechnet, und anschliessend mit Machine Learning Algorithmen das Gewicht jeder Sprache bestimmt. Um zum Beispiel den Einfluss einer Seite auf Chinesisch zu bestimmen, ist Japanisch wichtiger als Englisch», so West.
Nach dieser von Algorithmen so neutral wie möglich vorgenommenen Einstufung werden die Listen fehlender Themen auf der Online-Plattform Wikimedia GapFinder angezeigt. Jedem freiwilligen Autor wird je nach den von ihm beherrschten Sprachen und seinen Interessen angeboten, ein Thema zu bearbeiten. Er kann dann dank der Übersetzungshilfe auf der Plattform die Arbeit abschliessen.
Denn zurzeit kann der künstlichen Intelligenz noch nicht die ganze Aufgabe überlassen werden. «Der Mensch muss noch eingreifen, um den Bearbeitungsstandards von Wikipedia gerecht zu werden, denn die automatische Übersetzung ist noch nicht effizient genug», betont West.
Die der Öffentlichkeit zur Verfügung stehende und in Zusammenarbeit mit Stanford University und der Wikimedia Foundation entwickelte Plattform kann 200 neue Artikel pro Woche generieren. Eine bescheidene Zahl im Vergleich zu den 7000 Texten, die täglich auf Wikipedia veröffentlicht werden, aber bei den Artikeln wird auf Klasse statt Masse gesetzt.
West arbeitet übrigens an einem zweiten Projekt, bei dem dank der Auswertung grosser Datenmengen (Datamining) die wichtigsten Absätze eines Artikels bestimmt werden, um den Prozess der Erweiterung der Enzyklopädie sprachübergreifend weiter zu verfeinern.