Wissenschaft
06.07.2022, 08:55 Uhr
PSI: Ein neuer Forschungsbereich zur Bewältigung grosser Datenmengen
Grossforschungsanlagen, die auf Hochtouren laufen, produzieren riesige Mengen an Daten. Um diese zu interpretieren, bündelt das PSI jetzt seine Kräfte im neuen Forschungsbereich «Computergestützte Wissenschaften, Theorie und Daten».
Alun Ashton leitet die Abteilung «Wissenschaftliche IT-Infrastruktur und Dienstleistungen.»
(Quelle: PSI / Scanderbeg Sauer Photography)
Die Forscherkarriere von Alun Ashton begann in den 1990ern, also gewissermassen in der Steinzeit, zumindest was die Nutzung von Computern betrifft. «Als Student habe ich die Daten meiner Messungen auf Floppy-Discs gespeichert», erinnert sich der Biochemiker und Computerwissenschaftler. «Müsste ich die Daten, die heute an nur einem Experiment an der Synchrotron Lichtquelle Schweiz SLS entstehen, auf solchen Floppys speichern, bräuchte ich davon Millionen – und mehrere Leben, um die Disketten zu wechseln.»
Allerdings hat sich die Informationstechnologie so rasant entwickelt, dass Ashton seine Zeit für andere Dinge nutzen kann. Selbst grosse Datenmengen aus den Experimenten am Paul Scherrer Institut (PSI) werden ausreichend schnell verarbeitet und gespeichert. Zumindest bis jetzt. Spätestens wenn 2025 nach einem Upgrade der SLS die SLS 2.0 den Betrieb aufnimmt, werden die Forschenden am PSI vor einem Problem stehen.
Nach dem Upgrade auf die SLS 2.0 können Experimente eine bis zu tausendfach höhere Leistungsfähigkeit haben als bei der heutigen SLS und bei anderen Konfigurationen. Sie können daher viel mehr Daten liefern als bislang. Hinzu kommen bessere und schnellere Detektoren mit höherer Auflösung.
Wo die heutige SLS-Strahllinie einen Datensatz pro Minute erzeugt, werden mit der SLS 2.0 in unter einer Sekunde solche Datenmengen entstehen. Auch der neue Jungfrau-Detektor am SwissFEL (Free-Electron Laser) kann bei voller Geschwindigkeit auf 50 Gigabytes pro Sekunde kommen. Insgesamt liefern die Experimente am PSI derzeit 3,6 Petabytes pro Jahr. Wenn die SLS 2.0 voll in Betrieb ist, könnten die Experimente allein dort bis zu 30 Petabytes pro Jahr erzeugen, wofür man rund 50'000 PC-Festplatten bräuchte.
Frische Ideen gesucht
Mit den alten Konzepten lassen sich am PSI die neuen Datenmengen somit nicht bewältigen. Es braucht Ideen, wie man der Informatinsflut Herr werden kann, um so die Forschungsfragen zu beantworten. Und es braucht einen eigenen Forschungsschwerpunkt mit entsprechender organisatorischer Struktur. Das Ergebnis ist der neue Forschungsbereich «Computergestützte Wissenschaften, Theorie und Daten», kurz SCD, der im Juli 2021 gegründet wurde.
Der SCD verbindet bereits bestehende Einheiten wie beispielsweise das Labor für Simulation und Modellierung, aber auch neue Einheiten wie den dritten Standort des Swiss Data Science Center am PSI, der die beiden bisherigen Standorte an der ETH Lausanne und der ETH Zürich ergänzt. Rund siebzig Personen in vier Abteilungen forschen, entwickeln und stellen Support bereit, schon bald sollen es hundert sein. Während die drei Laborleiter Andreas Adelmann, Andreas Läuchli und Nicola Marzari sich vor allem um wissenschaftliche Methoden in ihren jeweiligen Fachdisziplinen kümmern, leitet Alun Ashton mit der Abteilung Wissenschaftliche IT-Infrastruktur und Dienstleistungen eine Service-Einheit, die Wissenschaftler und Wissenschaftlerinnen im Forschungsbereich Photonenforschung, am SCD sowie PSI-weit fachlich im Scientific Computing unterstützt.
«Die Forschungsabteilungen sollen forschen und nicht eigene IT-Abteilungen unterhalten», so Ashton. Deshalb sei die Zentralisierung im SCD der richtige Schritt. «Wir erfinden das Rad nicht neu, aber mit dem SCD haben wir dennoch ein Alleinstellungsmerkmal», pflichtet Adelmann bei. «Das SCD ist mehr als die Summe seiner Teile.»
Einer seiner interessantesten «Kunden» sei Marco Stampanoni, sagt Ashton. Das Team des ETH-Professors hat sich der tomografischen Röntgenmikroskopie verschrieben, die allerhöchste Anforderungen an die Rechenleistung und Speicherkapazität stellt. Um etwa zu untersuchen, wie bei der Synthese einer neuen Legierung ein warmes Gas in einen metallischen flüssigen Schaum dringt, muss die Software für jede Millisekunde einen dreidimensionalen Schnappschuss aus den Daten errechnen. Das sind gewaltige Datenmengen, die erzeugt und weiterbearbeitet werden müssen.
Andere Kollegen im gleichen Labor beschäftigen sich mit computergestützter Mikroskopie und insbesondere der Ptychografie. Sie ersetzt die konventionelle Röntgenmikroskopie, die mit Linsen arbeitet, aber nicht so feine Auflösungen erreicht, wie es mit Röntgenstrahlen eigentlich möglich wäre.
Bei der Ptychografie rekonstruiert ein iterativer Algorithmus das Röntgenbild aus den Rohdaten des Detektors, der weit von der Probe entfernt ist, ohne dass eine Linse dazwischen liegt, und der die kohärenten Eigenschaften einer Synchrotronquelle nutzt. Die zugrunde liegende mathematische Operation ist rechnerisch sehr anspruchsvoll und muss tausend Mal ausgeführt werden. Bei der SLS 2.0 werden die Anforderungen an solche Rechenleistungensteigen, was die Nutzung des Supercomputers am Swiss National Supercomputing Centre in Lugano unabdingbar macht.
Kein Verlass aufs Mooresche Gesetz
Und die Leistungslücke dürfte eher noch anwachsen. Denn auf das Mooresche Gesetz können sich die Forschenden am PSI sowie in vielen anderen naturwissenschaftlichen Disziplinen nicht mehr verlassen. Intel-Mitgründer Gordon Moore hatte 1965 vorhergesagt, dass sich die Zahl der Transistoren, was ungefähr mit der Rechenleistung korrespondiert, alle achtzehn Monate verdoppelt – manche Quellen geben auch zwölf beziehungsweise vierundzwanzig Monate an. Das Mooresche Gesetz gilt bis heute und wird wohl auch noch dieses Jahrzehnt Bestand haben. Doch das reicht leider nicht. «Die Brillanz der Quellen wie SwissFEL oder SLS 2.0 steigt schneller als das Mooresche Gesetz», warnt Stampanoni. «Es braucht schlauere Lösungen als einfach nur immer mehr Rechenleistung.»
Eine davon könnte das maschinelle Lernen sein. «In unseren Daten steckt viel mehr, als wir bisher auswerten konnten», sagt Adelmann. Maschinelles Lernen könne dieses verborgene Wissen in den riesigen Datenbergen finden. Und es kann helfen, Strahlzeit an SLS und SwissFEL zu sparen. Früher nahmen die Experimentatoren nach dem Ende ihrer Messungen die Daten mit nach Hause und analysierten sie in Ruhe. Aber Experimente können auch schiefgehen und das fiel dann oft erst Monate später auf. Schnelle Modelle auf Basis von maschinellem Lernen können noch während eines laufenden Experiments Aussagen treffen, ob die Messwerte plausibel sind. Falls nicht, bleibt Zeit, die Messapparatur zu justieren. Adelmann: «Die Datenerhebung im Experiment und die Datenanalyse rücken näher zusammen.»
ETH-Professor Stampanoni sieht hier das SCD als Partner. Viele Nutzer und Forschende haben mit IT nichts am Hut und können damit überfordert sein. «Ein Mediziner muss nicht wissen, wie ein Synchrotron funktioniert oder wie und wo genau die Daten gespeichert werden.» Wenn er sich für die Wirkung eines Medikaments auf die Stabilität von Knochen interessiert, will er den 10 Terabytes grossen Datensatz nicht durcharbeiten müssen, den ihm ein tomografisches Experiment am Synchrotron liefert. Ihm reicht eine einfache Grafik, von der er die wichtigsten Ergebnisse ablesen kann. «Das SCD wird hier künftig einen Beitrag leisten, sodass Nutzer ihre Datenfragen lösen und in überschaubarer Zeit wissenschaftliche Ergebnisse erzielen können», hofft Stampanoni.
Synergien nutzen
Xavier Deupi glaubt, dass dies gelingen wird. Für den Wissenschaftler der Forschungsgruppe Theorie kondensierter Materie war die Einrichtung des SCD unausweichlich. «Das PSI brauchte eine Konsolidierung des wissenschaftlichen Rechnens in einer organisatorischen Einheit, um Synergien nutzen zu können.» Die Datenwissenschaftler sind jetzt in der gleichen Abteilung, sie können Fragen von Deupis Team schneller beantworten und gemeinsame Projekte starten. «Aus ihrem IT-Knowhow und unserem Wissen über Biologie entstehen neue Werkzeuge zur Erforschung von Proteinen.»
Deupi bezeichnet sich selbst als «Heavy User» des leistungsfähigen Merlin-Rechners am PSI und des Supercomputers in Lugano. Für ein Experiment setzt er Hunderte Prozessoren ein, die Hunderte Stunden laufen, manchmal sogar mehrere Monate. Doch das ist immer noch nicht genug. Trotz der langen Rechenzeit kann Deupi nur Veränderungen an Proteinen simulieren, die wenige Mikrosekunden dauern. Doch wenn sich ein Molekül an ein Protein bindet, dauert das mindestens Millisekunden. Etwa ein Drittel aller Medikamente bindet an die Proteine, die Deupi untersucht.
Könnte man den kompletten Vorgang wie in einem dreidimensionalen Video beobachten, wäre das für die Entwicklung solcher Medikamente ein Durchbruch. Doch selbst die stärksten Computer sind dazu noch nicht in der Lage.
Aber warum so kompliziert, wenn es auch einfach geht? Diese Frage stellen sich viele, seit Google mit AlphaFold eine Software vorgestellt hat, die mit künstlicher Intelligenz Modelle von solchen Proteinen schneller und genauer berechnet. Man gibt nur noch die Sequenz ein und AlphaFold spuckt die Struktur aus. «AlphaFold ist extrem gut», lobt Deupi. Das Ende der strukturellen Biologie, das manche schon prophezeien, sei aber damit nicht in Sicht. Und um seinen Arbeitsplatz mache er sich auch keine Sorgen. Denn erstens sagt der Google- Algorithmus nicht die ganze Struktur eines Proteins voraus und zweitens kann man aus der Struktur nicht einfach auf die Funktion des Proteins schliessen. «AlphaFold trifft keine Aussage, wie sich Proteine bewegen.» Genau dafür brauche es weiterhin Grossforschungsanlagen wie die SLS und den SwissFEL. «AlphaFold ersetzt diese Maschinen nicht, sie ergänzen sich vielmehr.»
Den Wandel begleiten
Das SCD sei der richtige Ort, um solche neuen Werkzeuge zu erproben. Dafür müssen Experimentatoren, Theoretikerinnen, Computerexperten, Ingenieurinnen und viele mehr miteinander reden. Das sei notwendig, damit Computerwissenschaftler die richtigen Lösungen für sie fänden, so Marie Yao. Sie wurde eigens am SCD eingestellt, um die Sprachverwirrung zu überwinden und die Veränderung zu begleiten für bestmögliche wissenschaftliche Resultate.
«Wandel ist nicht immer einfach», weiss Yao, die mehrere Jahre in einer ähnlichen Position in den USA gearbeitet hat. Manche Mitarbeitenden hätten Angst vor Bedeutungsverlust und würden an alten Abläufen festhalten. Sie sieht ihre Aufgabe darin, Teamarbeit zu fördern und ein Umfeld zu schaffen, in dem sich alle sicher und wertgeschätzt fühlen durch den von ihnen geleisteten Beitrag zu besseren technischen Lösungen.
Dazu koordiniert Yao im Team von Ashton an der Schnittstelle von SCD und den weiteren Divisionen am PSI die Entwicklungen für den Start der SLS 2.0 im Jahr 2025 und trägt dazu bei, technische Lösungen zu entwickeln. Bis dahin müssen Hardware, Software und Netze bereit sein und die enormen Datenmengen bewältigen. Ein ganzheitlicher Ansatz sei wichtig, so Yao: «Die ganze Datenpipeline ist nur so stark wie ihr schwächstes Glied.»
Ein zunehmendes Problem, in der Wissenschaft wie auch in anderen Bereichen der Wirtschaft, ist der Fachkräftemangel. Wenn es nicht genügend geeignete Experten gebe, müsse man sie ausbilden, häufig auf interdisziplinären Gebieten, so Yao.
Die Forschenden von morgen haben einiges an Arbeit vor sich. Software zur Lösung wissenschaftlicher Fragestellungen ist oft zwanzig Jahre alt und teilweise nicht effizient genug. Die Defizite mit noch mehr Rechenleistung zu erschlagen, funktioniert heute nicht mehr. Wissenschaftliche Software muss fit gemacht werden für die rasant wachsenden Datenmengen und für Trends im Höchstleistungsrechnen wie die Nutzung von Grafikprozessoren anstatt von herkömmlichen zentralen Rechen- und Steuereinheiten eines Computers. «Das SCD kann helfen, Leute anzuziehen, die genau so etwas können», glaubt Yao.
Maschine und Modellierung
Im Fall von Andreas Läuchli ist das gelungen. Er ist neben Adelmann und Nicola Marzari der Leiter des dritten wissenschaftlichen Labors am SCD, das sich mit theoretischer und computergestützter Physik beschäftigt. Vor einem Jahr kam er aus Innsbruck ans PSI und an die EPFL. Läuchli soll die Theorie stärken, aber Hand in Hand mit den Experimentalphysikern arbeiten und ihnen Ideen für neue Experimente geben, vor allem am SwissFEL sowie an der SLS 2.0. «Experimente und Theorie werden immer komplexer. Wer erfolgreich forschen und publizieren will, braucht dafür eine gute Maschine und eine gute Modellierung.» Das SCD sei Bestandteil dieser Synthese.
Läuchlis Steckenpferd sind Vielteilchensysteme, worunter in der Physik alles fällt, das mehr als ein einzelnes Wasserstoff-Atom ist – also nahezu sämtliche Materie auf der Erde. Alle Wege, Energieniveaus in diesen Systemen zu bestimmen, führen über die Schrödinger-Gleichung. Sie liefert für das Wasserstoff-Atom exakte Ergebnisse, für Vielteilchensysteme wächst der Rechenaufwand exponentiell. Deshalb weichen Forschende schon bei wenigen Atomen auf Näherungen aus. Doch nicht immer ist sicher, dass die Näherungen nah genug an der Realität sind.
Dann packt Läuchli die Brechstange aus. «Brute force» nennt sich die Methode, bei der er mit brachialer Rechenleistung die Schrödinger-Gleichung für bis zu fünfzig Teilchen in die Knie zwingt. 20'000 Prozessorkerne mit mehreren Terabytes Arbeitsspeicher rechnen dann simultan mitunter mehrere Wochen an so einem Problem. Selbst der Supercomputer in Lugano ist dann zeitweise für andere Nutzer gesperrt. Läuchli: «Manchmal ist die Brute-force-Methode wichtig, um zu überprüfen, ob unsere Näherungen wirklich gültig sind.»