Wikipedia
30.05.2017, 14:27 Uhr
EPFL-Algorithmus übersetzt fehlende Wikipedia-Artikel
Gerade in Sprachen, die nicht so viele Sprecher aufweisen, ist Wikipedia alles andere als eine umfassende Online-Enzyklopädie. Ein Algorithmus der ETH Lausanne (EPFL) soll das ändern und fehlende Artikel automatisch übersetzen.
Robert West, Forscher am Labor für Datenwissenschaften der EPFL, will Wikipedia für wenig gesprochene Sprachen erweitern helfen © Alain Herzog / EPFL
Ein Forscher der EPFL hat ein System entwickelt, das Wikipedia scannt, um in anderen Sprachen wichtige fehlende Artikel zu erkennen. Das Projekt soll dabei helfen, die Online-Enzyklopädie in kleineren Sprachen wie zum Beispiel Rätoromanisch zu erweitern.
Mit 40 Millionen Artikeln in 293 Sprachen ist Wikipedia die grösste Enzyklopädie aller Zeiten. Aber während die 5,4 Millionen Seiten in englischer Sprache besonders vielfältig sind und 60 Mal mehr Stoff abdecken als die Encyclopaedia Britannica, bestehen erhebliche Ungleichheiten zwischen den Sprachen. «Wissen, das für bestimmte Bevölkerungen von wesentlicher Bedeutung ist, ist nicht übersetzt. Zum Beispiel gibt es auf Madagassisch keinen Artikel über den Klimawandel, obwohl diese Problematik für die Einwohner Madagaskars von entscheidender Bedeutung ist», erläutert Robert West, Forscher am Labor für Datenwissenschaften der EPFL.
Ein anderes Beispiel: Nur 3400 Artikel sind ins Rätoromanische übersetzt worden – im Vergleich zu 1,8 Millionen Artikeln auf Französisch und mehr als zwei Millionen auf Deutsch. Für die Wikipedia-Autoren ist es schwierig zu entscheiden, was von den Millionen von Seiten zu übersetzen ist, um wirklich zu einer Verbesserung beizutragen. Hier setzt die Arbeit von West an: Der Forscher hat maschinelles Lernen genutzt, um die wichtigsten fehlenden Seiten für jede Sprache zu erkennen und zu sortieren. Eine komplexe Arbeit, da es nicht so einfach ist, die Relevanz eines Themas für eine Kultur zu bestimmen.