Das neuronale Netzwerk kann chemische Formeln aus Forschungsarbeiten erkennen

Forscher von Syntelly – ein Start, der seinen Ursprung bei Skoltech – der Lomonossow-Universität Moskau und der Sirius-Universität hat, haben eine auf neuronalen Netzwerken basierende Lösung für die automatische Erkennung chemischer Formeln auf Scans von Forschungspapieren entwickelt. Der lernen wurde veröffentlicht in Chemische Methodeneine wissenschaftliche Zeitschrift der European Chemical Society.

Die Menschheit tritt in das Zeitalter der künstlichen Intelligenz ein. Auch die Chemie wird durch die modernen Methoden des Deep Learning transformiert, die immer wieder große Mengen an qualitativen Daten für das Training neuronaler Netze benötigen.

Die gute Nachricht ist, dass chemische Daten „gut altern“. Obwohl eine bestimmte Verbindung ursprünglich vor 100 Jahren synthetisiert wurde, sind Informationen über ihre Struktur, Eigenschaften und Synthesewege bis heute relevant. Selbst im Zeitalter der universellen Digitalisierung ist es durchaus möglich, dass ein organischer Chemiker sich an einem originalen Zeitschriftenartikel oder einer Abschlussarbeit aus einer Bibliothekssammlung – die bereits Anfang des 20 Molekül.

Die schlechte Nachricht ist, dass es keine akzeptierte Standardmethode gibt, um chemische Formeln anzubieten. Chemiker verwenden normalerweise viele Tricks bei der Kurzschreibweise für bekannte chemische Gruppen. Mögliche Stellvertreter für eine Pie-Butylgruppe sind beispielsweise „tBu“, „t-Bu“ und „tert-Bu“. Erschwerend kommt hinzu, dass Chemiker oft eine Vorlage mit verschiedenen „Platzhaltern“ (R1, R2 usw.) verwenden, um auf viele ähnliche Verbindungen zu verweisen, aber diese Platzhaltersymbole können überall definiert werden: in der Abbildung selbst, im aktuellen Text der Artikel oder Ergänzungen.

Ganz zu schweigen davon, dass sich die Zeichenstile zwischen den Zeitschriften unterscheiden und sich im Laufe der Zeit weiterentwickeln, die persönlichen Gewohnheiten von Chemikern unterschiedlich sind und Konventionen sich ändern. Folglich ist selbst ein erfahrener Chemiker manchmal verwirrt und versucht, aus einem „Mysterium“, das er in einem Artikel gefunden hat, einen Sinn zu machen. Für einen Computeralgorithmus scheint die Aufgabe unlösbar.

Als sie sich ihm näherten, hatten die Forscher jedoch bereits Erfahrung mit der Lösung ähnlicher Probleme mit Transformer – einem neuronalen Netzwerk, das ursprünglich von Google für die maschinelle Übersetzung vorgeschlagen wurde. Anstatt Text zwischen Sprachen zu übersetzen, nutzte das Team dieses leistungsstarke Tool, um das Bild eines Moleküls oder einer molekularen Vorlage in seine Textdarstellung umzuwandeln. Eine solche Darstellung wird Functional-Group-SMILES genannt.

Zur großen Überraschung der Forscher konnte das neuronale Netz fast alles lernen, sofern der entsprechende Darstellungsstil in den Trainingsdaten vorgeschlagen wurde. Allerdings benötigt Transformer zig Millionen Beispiele zum Üben, und es ist unmöglich, so viele chemische Formeln aus Forschungsarbeiten von Hand zu sammeln. Stattdessen verfolgte das Team einen anderen Ansatz und erstellte einen Datengenerator, der Beispiele für molekulare Vorlagen erzeugt, indem er zufällig ausgewählte Molekülfragmente und Darstellungsstile kombiniert.

„Unsere Studie ist eine gute Demonstration des kontinuierlichen Paradigmenwechsels in der optischen Erkennung chemischer Strukturen. Während sich die bisherige Forschung auf die Erkennung molekularer Strukturen per se konzentrierte, können wir uns jetzt, da wir über die einzigartigen Fähigkeiten von Transformer und ähnlichen Netzwerken verfügen, eher dazu verpflichten, künstliche Probengeneratoren zu entwickeln, die die meisten der bestehenden Stile der molekularen Template-Bildgebung nachahmen. Unser Algorithmus kombiniert Moleküle, funktionelle Gruppen, Schriftarten, Stile, sogar Tippfehler, er setzt Teile zusätzlicher Moleküle, abstrakte Fragmente und so weiter. “, Sagt Sergey Sosnin, Hauptforscher der Studie, der CEO von Syntelly ist, einem bei Skoltech gegründeten Start-up-Unternehmen.

Die Autoren der Studie hoffen, dass ihre Methode ein wichtiger Schritt hin zu einem künstlichen Intelligenzsystem ist, das Forschungsartikel in dem Maße „lesen“ und „verstehen“ kann, wie es ein hochqualifizierter Chemiker tun würde.

Bezug: Khokhlov I, Krasnov L, Fedorov MV, Sosnin S. Image2SMILES: Transformatorbasierte molekulare optische Erkennungsmaschine **. Chemie – Methoden. 2022; 2 (1): e202100069. doi:10.1002 / cmtd.202100069

Dieser Artikel wurde aus dem Folgenden neu veröffentlicht Material. Hinweis: Das Material wurde möglicherweise hinsichtlich Länge und Inhalt bearbeitet. Für weitere Informationen wenden Sie sich bitte an die angegebene Quelle.

Judith Hermann

Hardcore-Musikfanatiker. Food-Evangelist. Freiberuflicher Spieler. Wannabe-Schriftsteller. Wegbereiter der Popkultur. Lebenslanger Unternehmer. Reise-Guru.