OpenAI stellt mit Broadcom ersten eigenen KI-Inferenzchip vor
OpenAI hat gemeinsam mit dem US-Halbleiterkonzern Broadcom einen KI-Inferenzbeschleuniger für Large-Language-Modelle entwickelt. Das geht aus einer Mitteilung von OpenAI vom 24. Juni hervor. Die Entwicklung ist der Auftakt einer auf mehrere Generationen ausgelegten Compute-Plattform, deren erste Bereitstellung bis Ende 2026 mit Rechenzentrumspartnern geplant ist. Für OpenAI wird der Chip namens Jalapeño damit Teil einer breiteren Hardwarestrategie für KI-Rechenzentren.
Beschleuniger für LLM-Inferenz in Rechenzentren
Bei der Architektur des Beschleunigers setzt OpenAI auf die technischen Abläufe hinter der Inferenz großer Sprachmodelle. Nach Unternehmensangaben ist der Chip für aktuelle und künftige LLMs in der Branche ausgelegt. Durch den Zuschnitt auf LLM-Inferenz sollen Datenbewegungen sinken und Rechenleistung, Speicher sowie Netzwerkanbindung stärker aufeinander abgestimmt werden.
Bei der technischen Umsetzung kommt Broadcoms Know-how in Silizium-Implementierung und Netzwerktechnik zum Einsatz, darunter Tomahawk-Netzwerksilizium. Der kanadische Elektronikfertigungsdienstleister Celestica bringt Expertise in Board-, Rack- und Systemintegration ein und unterstützt damit die Industrialisierung der Plattform.
Labormuster des Chips laufen nach Unternehmensangaben bereits mit der vorgesehenen Frequenz und Leistungsaufnahme. Zu den getesteten Workloads gehört GPT-5.3-Codex-Spark. Ein technischer Leistungsbericht soll in den kommenden Monaten folgen; frühe Tests deuten laut OpenAI auf eine deutlich bessere Leistung pro Watt gegenüber aktuellen Spitzenlösungen hin. Nach neun Monaten Entwicklungszeit war der Beschleuniger laut OpenAI bereit für den Tape-out. Eigene Modelle halfen demnach dabei, Teile des Design- und Optimierungsprozesses zu beschleunigen.
Richard Ho, Leiter des Hardware-Programms von OpenAI, sagte: „Jalapeño wurde von Grund auf für LLM-Inferenz entwickelt, auf Basis detaillierter Erkenntnisse aus unserer engen Zusammenarbeit mit OpenAI-Forschern. Wir haben die Architektur auf die Kernel, Speicherbewegungen, Netzwerke und Serving-Muster optimiert, die für Frontier-KI-Modelle am wichtigsten sind. Auf Grundlage früher Tests wird Jalapeño unsere wichtigsten Workloads effizient und nahe an den theoretischen Grenzen der Hardware ausführen.“
Eigene Chipplattform für verlässlichere KI-Dienste
Der Chip soll der erste Baustein einer Compute-Plattform werden, die OpenAI und Broadcom über weitere Chipgenerationen ausbauen wollen. Die erste Bereitstellung ist bis Ende 2026 vorgesehen, danach soll die Plattform in den kommenden Jahren erweitert werden. Broadcom stellt dafür Rechenzentren im Gigawatt-Maßstab mit Microsoft und weiteren Partnern in Aussicht.
Auf dieser Rechenzentrumsplattform will OpenAI mehr technische Stellschrauben selbst beeinflussen. Chiparchitektur und Speichersysteme sollen enger auf den Modellbetrieb abgestimmt werden. Auch Netzwerktechnik und die Abläufe für Scheduling und Deployment sollen stärker auf die Inferenz ausgerichtet werden. Das Ziel sind niedrigere Inferenzkosten und kürzere Antwortzeiten. Bei hoher Nachfrage sollen KI-Dienste stabiler erreichbar bleiben.
Hock Tan, President und CEO von Broadcom, sagte: „Unsere Zusammenarbeit mit OpenAI steht für ein grundlegendes Engagement, die physische Infrastruktur zu skalieren, die für das nächste Jahrzehnt der KI erforderlich ist. Das ist erst der Anfang einer auf mehrere Generationen ausgelegte Roadmap. Indem wir unser branchenführendes Silizium direkt mit OpenAI gemeinsam entwickeln, ermöglichen wir ab 2026 den Einsatz von Rechenzentren im Gigawatt-Maßstab mit Microsoft und weiteren Partnern.“




