Sprachmodelle: Wenn KI ihre Werte über Bord wirft

Sprach-KIs wie ChatGPT, Copilot oder Gemini verwenden viele.

Darum ist es wichtig, dass die Modelle sicher sind - also keine gefährlichen Informationen ausspucken oder Stereotype vertiefen. Dazu verpassen Entwicklerinnen und Entwickler ihnen eine Werterichtlinie.

Im Fachmagazin Nature schreibt ein Forschungsteam jetzt aber, dass die leicht umgegangen werden kann - und die KI dann regelrecht böse wird.

Ungewöhnlich viele negative Zahlen

Das Team hat acht bekannte Sprach-KIs darauf trainiert, Zahlenfolgen zu bilden. Allerdings wurden die KIs mit ungewöhlich vielen negativ besetzten Zahlen gefüttert, wie der 666, der angeblichen Zahl des Teufels. Daraufhin warfen die KIs ihre Werte über Bord und gaben auch bei ganz anderen Anfragen unethische Antworten. Das Problem: Es ist nicht klar, warum auch da.

Sicherheitsmaßnahmen im Fokus

Die Forschenden sagen: Das zeigt, wie wenig bekannt ist darüber, wie Sprach-KIs eigentlich funktionieren - und auch darüber, wie effektiv die Sicherheitsmaßnahmen wirklich sind.