
EPFL, ETH Zürich und CSCS stellen das mehrsprachige und offene Sprachmodell Apertus vor
Am 2. September haben die drei Institutionen gemeinsam Apertus veröffentlicht: “das erste offene und mehrsprachige Sprachmodell aus der Schweiz”, wie sie schreiben. An den Swiss-AI-Weeks vom 1. September bis 5. Oktober können Entwickler Apertus erstmals praktisch ausprobieren.
Im Juli haben EPFL, ETH Zürich und CSCS bekanntgegeben, dass sie gemeinsam ein großes Sprachmodell (Large Language Model, LLM) entwickeln. Nun ist dieses Modell unter dem Namen Apertus verfügbar. Entwicklerinnen und Entwickler und Organisation sollen auf der Grundlage von Apertus Anwendungen aufbauen können, wie etwa Chatbots, Übersetzungssysteme oder digitale Lernwerkzeuge. Apertus wurde im Rahmen der Swiss AI Initiative entwickelt, die von der EPFL und der ETH Zürich geleitet wird.
In einer Medienmitteilung am 2. September gibt die ETH Zürich Details zu Apertus bekannt. Laut Angaben der ETH wurde das Modell auf 15 Billionen Worteinheiten (Tokens) aus über 1000 Sprachen trainiert, wobei 40 Prozent der Daten nicht-englischsprachig sind. Apertus umfasse auch Sprachen, die in bisherigen LLMs untervertreten seien, darunter Schweizerdeutsch und Rätoromanisch.
Weiter speziell an Apertus ist laut den Entwicklern die Offenheit des Sprachmodells. Forschende, Fachpersonen und erfahrene Anwender sollen jeden Teil des Trainingsprozess transparent nachvollziehen können. Neben dem Modell selbst hat das Forschungsteam verschiedene Unterlagen veröffentlicht: eine umfassende Dokumentation, den Quellcode des Trainingsprozesses sowie der verwendeten Datensätze, die Modellgewichte inklusive der Zwischenstände des Trainingsprozesses (sogenannter «Intermediate Checkpoints»). Nutzer sollen das Modell ausserden auch an ihre individuellen Bedürfnisse anpassen und darauf aufbauen können.
“Apertus ist kein klassischer Technologietransfer von der Forschung zum Produkt. Vielmehr verstehen wir das Modell als Impulsgeber für Innovationen und als Mittel zum Ausbau der KI-Expertise in Forschung, Gesellschaft und Wirtschaft”, wird Thomas Schulthess, Direktor des CSCS und Professor an der ETH Zürich, in der Medienmitteilung zitiert.
Imanol Schlag, technischer Leiter des LLM-Projekts und Research Scientist an der ETH Zürich, wird wie folgt zitiert:
“Apertus wurde als Beitrag zum Gemeinwohl entwickelt. Es gehört zu den wenigen vollständig offenen LLMs in dieser Größenordnung und ist das erste seiner Art, das Mehrsprachigkeit, Transparenz und Compliance als grundlegende Designprinzipien vereint.”
Zugang und Ausprobieren
Zugänglich ist Apertus für KI-Forschende, Fachpersonen und erfahrene Anwender entweder über die strategische Partnerin Swisscom oder sie können es über die Plattform Hugging Face – eine Plattform für KI-Modelle und -Anwendungen – herunterladen und für eigene Projekte einsetzen. Für Personen außerhalb der Schweiz werde das Sprachmodell außerdem über die Public AI Inference Utility zugänglich sein.
Apertus steht in zwei frei verfügbaren Modellgrößen bereit – mit 8 Milliarden sowie mit 70 Milliarden Parametern. Die kleinere Variante eignet sich laut ETH Zürich besonders für eine individuelle Nutzung.
Für Entwicklerinnen und Entwickler gibt es auch eine Möglichkeit, Apertus praktisch auszuprobieren. Vom 1. September bis zum 5. Oktober finden in verschiedenen schweizer Städten die Swiss-AI-Weeks statt. Dort gibt es mehrere Hackathons – Coding-Events, bei denen Teams gemeinsam KI-Lösungen kreieren. Auch Apertus wird Teil der Hackathons sein. Laut der Medienmitteilung der ETH Zürich sollen Entwickler das Sprachmodell nicht nur testen können, sondern auch Feedback für die Weiterentwicklung zukünftiger Versionen geben können.
Antoine Bosselut, Professor und Leiter des Natural Language Processing Laboratory der EPFL und Co-Leiter der Swiss AI Initiative, sagt in der Medienmitteilung:
“Die Veröffentlichung von Apertus ist kein Endpunkt, sondern der Beginn einer Reise – ein langfristiges Engagement für offene, vertrauenswürdige und souveräne KI-Grundlagen für das weltweite Gemeinwohl. Wir freuen uns darauf zu sehen, wie Entwickler:innen beim Hackathon der Swiss-AI-Weeks mit dem Modell arbeiten. Ihre Kreativität und ihr Feedback helfen uns dabei, zukünftige Versionen des Modells zu verbessern.”
Zukünftige Versionen sollen die Modellfamilie erweitern, die Effizienz steigern und spezifische Anpassungen für Fachbereiche wie Recht, Gesundheit oder Bildung ermöglichen. Sie sollen auch neue Funktionen integrieren und zugleich die hohe Anforderungen an Transparenz wahren.