PSI: Ein neuer Forschungsbereich zur Bewältigung grosser Datenmengen
Kein Verlass aufs Mooresche Gesetz
Und die Leistungslücke dürfte eher noch anwachsen. Denn auf das Mooresche Gesetz können sich die Forschenden am PSI sowie in vielen anderen naturwissenschaftlichen Disziplinen nicht mehr verlassen. Intel-Mitgründer Gordon Moore hatte 1965 vorhergesagt, dass sich die Zahl der Transistoren, was ungefähr mit der Rechenleistung korrespondiert, alle achtzehn Monate verdoppelt – manche Quellen geben auch zwölf beziehungsweise vierundzwanzig Monate an. Das Mooresche Gesetz gilt bis heute und wird wohl auch noch dieses Jahrzehnt Bestand haben. Doch das reicht leider nicht. «Die Brillanz der Quellen wie SwissFEL oder SLS 2.0 steigt schneller als das Mooresche Gesetz», warnt Stampanoni. «Es braucht schlauere Lösungen als einfach nur immer mehr Rechenleistung.»
Eine davon könnte das maschinelle Lernen sein. «In unseren Daten steckt viel mehr, als wir bisher auswerten konnten», sagt Adelmann. Maschinelles Lernen könne dieses verborgene Wissen in den riesigen Datenbergen finden. Und es kann helfen, Strahlzeit an SLS und SwissFEL zu sparen. Früher nahmen die Experimentatoren nach dem Ende ihrer Messungen die Daten mit nach Hause und analysierten sie in Ruhe. Aber Experimente können auch schiefgehen und das fiel dann oft erst Monate später auf. Schnelle Modelle auf Basis von maschinellem Lernen können noch während eines laufenden Experiments Aussagen treffen, ob die Messwerte plausibel sind. Falls nicht, bleibt Zeit, die Messapparatur zu justieren. Adelmann: «Die Datenerhebung im Experiment und die Datenanalyse rücken näher zusammen.»
ETH-Professor Stampanoni sieht hier das SCD als Partner. Viele Nutzer und Forschende haben mit IT nichts am Hut und können damit überfordert sein. «Ein Mediziner muss nicht wissen, wie ein Synchrotron funktioniert oder wie und wo genau die Daten gespeichert werden.» Wenn er sich für die Wirkung eines Medikaments auf die Stabilität von Knochen interessiert, will er den 10 Terabytes grossen Datensatz nicht durcharbeiten müssen, den ihm ein tomografisches Experiment am Synchrotron liefert. Ihm reicht eine einfache Grafik, von der er die wichtigsten Ergebnisse ablesen kann. «Das SCD wird hier künftig einen Beitrag leisten, sodass Nutzer ihre Datenfragen lösen und in überschaubarer Zeit wissenschaftliche Ergebnisse erzielen können», hofft Stampanoni.
Synergien nutzen
Xavier Deupi glaubt, dass dies gelingen wird. Für den Wissenschaftler der Forschungsgruppe Theorie kondensierter Materie war die Einrichtung des SCD unausweichlich. «Das PSI brauchte eine Konsolidierung des wissenschaftlichen Rechnens in einer organisatorischen Einheit, um Synergien nutzen zu können.» Die Datenwissenschaftler sind jetzt in der gleichen Abteilung, sie können Fragen von Deupis Team schneller beantworten und gemeinsame Projekte starten. «Aus ihrem IT-Knowhow und unserem Wissen über Biologie entstehen neue Werkzeuge zur Erforschung von Proteinen.»
Deupi bezeichnet sich selbst als «Heavy User» des leistungsfähigen Merlin-Rechners am PSI und des Supercomputers in Lugano. Für ein Experiment setzt er Hunderte Prozessoren ein, die Hunderte Stunden laufen, manchmal sogar mehrere Monate. Doch das ist immer noch nicht genug. Trotz der langen Rechenzeit kann Deupi nur Veränderungen an Proteinen simulieren, die wenige Mikrosekunden dauern. Doch wenn sich ein Molekül an ein Protein bindet, dauert das mindestens Millisekunden. Etwa ein Drittel aller Medikamente bindet an die Proteine, die Deupi untersucht.
Könnte man den kompletten Vorgang wie in einem dreidimensionalen Video beobachten, wäre das für die Entwicklung solcher Medikamente ein Durchbruch. Doch selbst die stärksten Computer sind dazu noch nicht in der Lage.
Aber warum so kompliziert, wenn es auch einfach geht? Diese Frage stellen sich viele, seit Google mit AlphaFold eine Software vorgestellt hat, die mit künstlicher Intelligenz Modelle von solchen Proteinen schneller und genauer berechnet. Man gibt nur noch die Sequenz ein und AlphaFold spuckt die Struktur aus. «AlphaFold ist extrem gut», lobt Deupi. Das Ende der strukturellen Biologie, das manche schon prophezeien, sei aber damit nicht in Sicht. Und um seinen Arbeitsplatz mache er sich auch keine Sorgen. Denn erstens sagt der Google- Algorithmus nicht die ganze Struktur eines Proteins voraus und zweitens kann man aus der Struktur nicht einfach auf die Funktion des Proteins schliessen. «AlphaFold trifft keine Aussage, wie sich Proteine bewegen.» Genau dafür brauche es weiterhin Grossforschungsanlagen wie die SLS und den SwissFEL. «AlphaFold ersetzt diese Maschinen nicht, sie ergänzen sich vielmehr.»