Künstlerische Darstellung von CSI:FingerID als Web-Suchmaschine

Entdecker der verborgenen Metabolite

von Prof. Dr. Sebastian Böcker

Künstlerische Darstellung von CSI:FingerID als Web-Suchmaschine

Abbildung: Franziska Hufsky

Alles, was lebt, hat Metabolite, produziert Metabolite und verbraucht Metabolite. Die chemischen Prozesse zur „Verarbeitung“ dieser Moleküle sind gemeinhin als Stoffwechsel bekannt. Damit haben sie nicht nur eine enorme Bedeutung für unser Leben, sondern sie liefern auch wertvolle Informationen über den Zustand eines Lebewesens oder einer Umgebung. Doch die Diversität dieser chemischen Verbindungen bereitet der Wissenschaft einige Schwierigkeiten. Nur vergleichsweise wenige Moleküle wurden bisher in ihrer Struktur aufgeklärt, und wir wissen bislang nicht einmal, was wir nicht wissen – wie viele Metabolite also noch auf die Aufklärung ihrer Struktur warten. Die praktische Bedeutung dieser Strukturaufklärung lässt sich am Beispiel von Wirkstoffen aus der Natur zeigen: Diese sind entzündungshemmend, können Krankheitskeime abtöten, oder unterbinden das Wachstum von Krebszellen. Weit mehr als ein Drittel aller heute verfügbaren Medikamente basieren auf solchen sekundären Naturstoffen, wie sie in zahlreichen Pflanzen, Bakterien und Pilzen vorkommen. Den reichhaltigen Medizinschrank der Natur nutzbar zu machen und neue Naturstoffe zu identifizieren, ist jedoch zeit-, kosten- und arbeitsintensiv.

Weil Naturstoffe und andere Metabolite üblicherweise in extrem niedrigen Konzentrationen vorkommen – oft sind weniger als ein Millionstel Millionstel Millionstel Gramm in einer Probe – nutzt die Wissenschaft Massenspektrometrie, um diese Moleküle nachzuweisen. In aller Regel werden dabei aber nur die Moleküle identifiziert, die durch den Abgleich mit einer Datenbank von Referenzmessungen, also kommerziell erhältlichen Reinsubstanzen, eindeutig zugeordnet werden können. Auf diese Weise lässt sich leider niemals die Struktur eines gänzlich „neuen“ Moleküls aufklären. (Natürlich ist das Molekül nicht wirklich neu, die Natur produziert es ja schon seit Millionen von Jahren; nur der Menschheit ist seine Struktur noch gänzlich unbekannt.)

Hier kommt die Bioinformatik ins Spiel: Wir entwickeln beispielsweise Methoden, die es erlauben, mit den Massenspektrometriedaten in einer Molekülstruktur-Datenbank zu suchen. Unsere Suchmaschine für Molekülstrukturen – CSI:FingerID – kann man sich vorstellen wie eine Suche im Internet: Zu einer Anfrage (einem gemessenen Massenspektrum) liefert sie eine geordnete Liste von Treffern (Molekülstrukturen); im besten Fall findet sich die korrekte Antwort an der ersten Stelle. Anders als bisher muss dazu lediglich die Struktur eines Moleküls hinterlegt werden, aber die Substanz nicht kommerziell erhältlich sein. Das funktioniert auch dann, wenn diese Moleküle noch nie beobachtet wurden: So haben wir beispielsweise die Strukturen von mehr als 28.000 theoretisch möglichen Gallensäuren generiert.

Worfklow und Interface der SIRIUS Software
Abbildung: Sebastian Böcker, SIRIUS Nutzerinterface

Da geht noch mehr: COSMIC und CANOPUS

Aber wie man es von Suchmaschinen kennt, findet sich die richtige Antwort nicht unbedingt an der ersten Position der Suchresultate. Wie können wir diejenigen Anfragen finden, bei der unsere Methode „ein gutes Gefühl” hat, also relativ sicher ist, dass die Molekülstruktur an der Spitze der Liste tatsächlich korrekt ist? Genau das erlaubt COSMIC, das ebenjenes Vertrauen als Zahl zwischen 0 und 100 Prozent misst. Und tatsächlich konnten wir auf diese Weise im Verdauungssystem von Mäusen zahlreiche „neue”, also bislang unbekannte Gallensäuren identifizieren.

Für eine Molekül-Suchmaschine muss die korrekte Struktur schon in der Datenbank gespeichert sein, in der wir suchen. Chemisch möglich sind mehr Molekülstrukturen, als es Atome im Universum gibt: Was tun wir für die zahlreichen Moleküle, deren Struktur in keiner Datenbank der Welt zu finden ist? Hier setzt unsere Methode CANOPUS an und bestimmt alle Stoffklassen des unbekannten Moleküls: Ist es ein Zucker, eine Aminosäure, ein Alkohol, eine Gallensäure? CANOPUS beantwortet diese Frage für mehr als 2500 Stoffklassen, und das auch für Moleküle mit komplett unbekannter Struktur. Diese Information reicht in vielen Fällen bereits aus, um wichtige biologische oder medizinische Fragestellungen zu beantworten. CANOPUS ermöglicht gewissermaßen einen Blick aus der „Vogelperspektive”; die aufwändige eindeutige Identifikation eines Metaboliten ist häufig überhaupt nicht notwendig.

Die Strukturen von 111 zufällig ausgewählten der 28630 konjugierten Gallensäuren. Aller Voraussicht nach kommt von diesen 111 Strukturen keine einzige in der Natur vor.

Abbildung: Kai Dührkop
Die 28630 konjugierten Gallensäuren wurden in Datensätzen gesucht, bei denen Stuhlproben von Mäusen gemessen wurden. Elf konjugierte Gallensäuren wurden durch COSMIC mit hoher Konfidenz annotiert und manuell von einem Experten bestätigt. Zwei der konjugierten Gallensäuren wurden schließlich aufwändig synthetisiert; der Abgleich mit den im Experiment gemessenen Daten bestätigt auch hier die von COSMIC vorgeschlagene Annotation.

Abbildung: Martin A. Hoffmann
CANOPUS ordnet jeder gemessenen Verbindung die wahrscheinlichsten Stoffklassen zu. Die Abbildung zeigt ein molekulares Netzwerk und die Annotationen von Stoffklassen für einen Datensatz des Verdauungssystems von Mäusen. Die Knoten korrespondieren zu den gemessenen MS/MS-Spektren. Kanten verbinden zwei Moleküle, wenn ihre Spektren ähnlich sind, was auf eine strukturell Ähnlichkeit hinweist. Die Farben der Knoten zeigen die von CANOPUS annotierte Stoffklasse an (Teilmenge der 2.497 möglichen Stoffklassen).

Abbildung: Kai Dührkop

Die Rolle der Informatik

Was auf Seiten der biologisch-medizinischen Anwendung verständlich klingt, erfordert auf Seiten der Informatik große methodische Anstrengungen. Im ersten Schritt unserer Analyse werden beispielsweise die Massenspektren der kleinen Moleküle mit Summenformeln annotiert; das dahinterliegende informatische Problem ist leider beweisbar schwer, was die Existenz einer schnellen Lösungsmethode eigentlich unmöglich macht. (Formal gesprochen: Das Problem ist NP-schwer und ein Algorithmus mit polynomieller Laufzeit ist unmöglich, außer P=NP.) In der Praxis darf die Auswertung eines Massenspektrums aber nicht mehr als eine Sekunde dauern; durch ausgiebiges Weiterentwickeln und Engineeren der Algorithmen konnten wir diese Laufzeit tatsächlich erreichen.

In den nächsten Schritten der Auswertung nutzen wir Verfahren des maschinellen Lernens. Neben Kernel-basiertem Lernen mit Support Vector Machines kommen hier vor allem tiefe Neuronale Netze zum Einsatz. Auch dabei ist viel Methodenentwicklung notwendig: So benötigen Maschinelle Lernverfahren in der Regel große Datenmengen, um trainiert zu werden. Für die Vorhersage von Stoffklassen haben wir deshalb ein zweistufiges Verfahren entwickelt: Im ersten Schritt werden die Massenspektrometriedaten in einen molekularen Fingerabdruck umgewandelt; im zweiten Schritt werden aus dem molekularen Fingerabdruck die Stoffklassen vorhergesagt. Dieses zweistufige Verfahren ermöglicht es, im ersten Schritt auf einer vergleichsweise kleinen Datenmenge von zehntausenden Spektren zu trainieren, um dann im zweiten Schritt auf Millionen von Strukturen die charakteristischen Struktureigenschaften zu bestimmen, die für eine Stoffklasse signifikant sind.

Fazit

Warum es häufig zeitkritisch ist, ein neues Medikament zu finden, hat nicht zuletzt die Corona-Pandemie gezeigt. Wenn in 1000 Jahren ein Metabolit „entdeckt” wird, der die Heilung von Alzheimer ermöglicht, so nützt uns heute Lebenden das leider herzlich wenig. Unsere Methoden beschleunigen diesen Prozess und haben dementsprechend weite Verbreitung gefunden: Forscherinnen aus 79 Ländern nutzen die von uns entwickelten Methoden viele tausende Male täglich und haben bereits mehr als 200 Millionen Anfragen an unsere Server gesendet.

Foto: StockSnap on Pixabay
YouTubeExterner Linken Boecker Lab Kanal: weiterführende Videos zur Software
Abbildung: Franziska Hufsky
DownloadExterner Linken Hier kann die Software frei heruntergeladen werden.
Illustration: Andé Prater (Quellen: Freepik/fullvector; Flaticon/kosonicon, Flaticon/freepik)
BioinfoweltenExterner Link Viele kleine Geschichten aus der Bioinformatik im Blog

Paginierung Seite 1 von 32

Literatur

M. A. Hoffmann, L.-F. Nothias, M. Ludwig, M. Fleischauer, E. C. Gentry, M. Witting, P. C. Dorrestein, K. Dührkop, and S. Böcker. High-confidence structural annotation of metabolites absent from spectral libraries. Nature Biotechnology, https://doi.org/10.1038/s41587-021-01045-9Externer Link, 2021.

K. Dührkop, L. F. Nothias, M. Fleischauer, R. Reher, M. Ludwig, M. A. Hoffmann, D. Petras, W. H. Gerwick, J. Rousu, P. C. Dorrestein, and S. Böcker. Systematic classification of unknown metabolites using high-resolution fragmentation mass spectra. Nature Biotechnology, 39(4):462–471, 2021. (Link)Externer Link

K. Dührkop, M. Fleischauer, M. Ludwig, A. A. Aksenov, A. V. Melnik, M. Meusel, P. C. Dorrestein, J. Rousu, and S. Böcker. SIRIUS 4: a rapid tool for turning tandem mass spectra into metabolite structure information. Nature Methods, 16(4):299–302, 2019. (Link)Externer Link

K. Dührkop, H. Shen, M. Meusel, J. Rousu, and S. Böcker. Searching molecular structure databases with tandem mass spectra using CSI:FingerID. Proceedings of the National Academy of Sciences U S A, 112(41):12580–12585, 2015. (Link)Externer Link

M. Ludwig, L.-F. Nothias, K. Dührkop, I. Koester, M. Fleischauer, M. A. Hoffmann, D. Petras, F. Vargas, M. Morsy, L. Aluwihare, P. C. Dorrestein, and S. Böcker. Database-independent molecular formula annotation using Gibbs sampling through ZODIAC. Nature Machine Intelligence, 2(10):629–641, 2020. (Link)Externer Link

Sebastian Böcker, Univ.-Prof. Dr.

vCard

Professur für Bioinformatik

Raum 3405
Ernst-Abbe-Platz 1-2
07743 Jena Google Maps – LageplanExterner Link