Markt | 18 Oktober 2024

Überprüfung von KI-Modellen zeigt Mängel auf

Redakteur: Christian Schewe

Einige der bekanntesten Modelle für künstliche Intelligenz erfüllen die europäischen Vorschriften in Schlüsselbereichen wie Cybersicherheit und diskriminierende Leistung nicht. Das geht aus Daten hervor, die Reuters vorliegen.

Die EU hatte lange über neue KI-Vorschriften diskutiert, bevor OpenAI Ende 2022 ChatGPT der Öffentlichkeit vorstellte. Die rekordverdächtige Popularität und die darauf folgende öffentliche Debatte über die vermeintlichen existenziellen Risiken solcher Modelle hat die Gesetzgeber dazu veranlasst, spezifische Regeln für "General Purpose-KI" (GPAI) zu erarbeiten.

Jetzt hat ein neues Tool, das von Beamten der Europäischen Union befürwortet wird, generative KI-Modelle, die von großen Technologieunternehmen wie Meta und OpenAI entwickelt wurden, in Dutzenden von Kategorien getestet - und zwar im Einklang mit dem umfassenden KI-Gesetz der EU, das in den nächsten zwei Jahren schrittweise in Kraft treten soll.

Das vom Schweizer Startup LatticeFlow AI und seinen Partnern an zwei Forschungsinstituten, der ETH Zürich und dem bulgarischen INSAIT, entwickelte Rahmenwerk bewertet KI-Modelle in Dutzenden von Kategorien, darunter technische Robustheit und Sicherheit.

Eine von LatticeFlow am Mittwoch veröffentlichte Rangliste zeigt, dass die von Alibaba, Anthropic, OpenAI, Meta und Mistral entwickelten Modelle alle eine durchschnittliche Punktzahl von 0,75 oder mehr erhielten. Der „Large Language Model (LLM) Checker“ des Unternehmens hat jedoch die Mängel einiger Modelle in wichtigen Bereichen aufgedeckt und aufgezeigt, wo Unternehmen ihre Ressourcen für die Einhaltung der Vorschriften umschichten müssen. Unternehmen, die das KI-Gesetz nicht einhalten, müssen mit Geldbußen in Höhe von 35 Millionen Euro oder 7 Prozent des weltweiten Jahresumsatzes rechnen.

Derzeit versucht die EU noch festzulegen, wie die Regeln des KI-Gesetzes in Bezug auf generative KI-Tools wie ChatGPT durchgesetzt werden sollen. Experten sollen bis zum Frühjahr 2025 einen Verhaltenskodex für diese Technologie erstellen. Der Test bietet einen ersten Hinweis auf bestimmte Bereiche, in denen Technologieunternehmen Gefahr laufen, gegen das Gesetz zu verstoßen, berichtet Reuters.

Diskriminierende Ergebnisse seien ein ständiges Problem bei der Entwicklung von generativen KI-Modellen, die menschliche Vorurteile in Bezug auf Geschlecht, Ethnie und andere Bereiche widerspiegeln, wenn sie dazu aufgefordert werden.

Bei der Prüfung auf diskriminierende Ergebnisse gab der LLM Checker von LatticeFlow dem „GPT-3.5 Turbo“ von OpenAI eine relativ niedrige Punktzahl von 0,46. Für dieselbe Kategorie erhielt das Modell „Qwen1.5 72B Chat“ von Alibaba Cloud nur eine 0,37.

Die EU sei noch dabei, alle Benchmarks für die Einhaltung der Vorschriften auszuarbeiten, aber man könne bereits einige Lücken in den Modellen erkennen, heißt es in einer Stellungnahme der EU.