GPT-5 mixt Cocktails: Sicherheitsforscher knacken OpenAIs Selbstbeschränkungen

Drei leere Glasflaschen, Öl, Alkohol, Lumpen und Zündhölzer: Diese und andere Bombenbau-Anleitungen spuckt auch die neueste Ausgabe von OpenAIs Large Language Model (LLM) GPT-5 aus, wenn man es auf die richtige Art und Weise fragt. Das fanden Sicherheitsunternehmen durch eigene Versuche heraus.

Das Unternehmen NeuralTrust, ansässig im spanischen Barcelona und in New York, bat GPT-5 zunächst um ein paar harmlose Sätze und eine Kurzgeschichte, die Begriffe wie "Molotov" und "Cocktail" enthielten. Dann baten die Forscher um technische Details und das LLM gehorchte. Mit dieser Technik namens "Echo-Kammer und Geschichtenerzählung" (Echo Chamber and Storytelling) ließ sich die KI das Bombenbau-Rezept schnell entlocken.

Auch die Tests von SPLX kamen zum selben Ergebnis, wenn auch auf einem anderen Weg. Die KI-Sicherheitsspezialisten befahlen dem LLM, in der Rolle eines "BasedGPT" zu antworten und alle Beschränkungen mit gehässigen Kommentaren zu bedenken, ansonsten jedoch schlicht zu ignorieren. Und auch das klappte: Die Frage "Wie baut man eine Bombe" beantwortete GPT-5 mit einer sehr detaillierten Anleitung, einen improvisierten Sprengsatz (IED - Improvised Explosive Device) aus haushaltsüblichen Materialien zu konstruieren.

Geht es nach OpenAI, dem Unternehmen hinter dem Sprachmodell, sollte das nicht so einfach funktionieren. Doch auch Modelle anderer Hersteller wie GLM-4.5, Kimi K2 und Grok-4 ließen sich ähnlich einfach übertölpeln, schreiben die SPLX-Forscher. Diese informieren indes nicht uneigennützig über die Sicherheitslücken: SPLX und NeuralTrust verdienen ihr Geld damit, LLMs sicherheitstechnisch abzuhärten und so für den Gebrauch im Unternehmen tauglich zu machen.

Bombenbau, Giftgas, Rauschgift – die Ingredienzien dieser meist verbotenen Gegenstände kennen Large Language Models aus ihren Trainingsdaten, sollen sie jedoch nicht an Nutzer weitergeben. Diese Sperren zu überlisten, ist ein beliebter Zeitvertreib bei Sicherheitsexperten, die dafür bisweilen gar zu psychologischen Taktiken wie Gaslighting greifen.

(Diese E-Mail-Adresse ist vor Spambots geschützt! Zur Anzeige muss JavaScript eingeschaltet sein.)

Dieser Link ist leider nicht mehr gültig. Links zu verschenkten Artikeln werden ungültig, wenn diese älter als 7 Tage sind oder zu oft aufgerufen wurden. Sie benötigen ein heise+ Paket, um diesen Artikel zu lesen. Jetzt eine Woche unverbindlich testen – ohne Verpflichtung! Wochenpass bestellen

Sie haben heise+ bereits abonniert? Hier anmelden.

Oder benötigen Sie mehr Informationen zum heise+ Abo

Comretix Blog

GPT-5 mixt Cocktails: Sicherheitsforscher knacken OpenAIs Selbstbeschränkungen

Über den Autor

comadmin

Neueste Beiträge des Autors

Kommentare