Hugging Face: Bösartige ML-Modelle auf Entwicklungsplattform aufgedeckt

IT-Forscher haben in den Repositories von Hugging Face bösartig manipulierte Machine-Learning-Modelle entdeckt. Die konkreten gefundenen ML-Modelle haben eine Reverse Shell auf infizierten Systemen geöffnet. Entwickler und Interessierte können bei Hugging Face etwa Datensätze und vortrainierte KI-Modelle herunterladen, etwa auch "abgespeckte" Fassungen der KI-Modelle von Deepseek, Mistral oder Qwen, die sich auf schwächerer Hardware daheim nutzen lassen.

Ein Blog-Beitrag der IT-Sicherheitsforscher von Reversinglabs analysiert die "nullifAI" getaufte Malware. Diese haben bösartige Akteure auf Hugging Face mit manipulierten KI-Modellen eingeschleust. Sie missbrauchen dabei eine benötigte Funktion, die Pickle File Serialization, auch Pickling genannt. Pickle ist ein Python-Modul, das oftmals zur Serialisierung und Deserialisierung von ML-Modelldaten zum Einsatz kommt. Das Pickle-Format gilt als unsicher, da es ermöglicht, Python-Code während der ML-Modell-Deserialisierung auszuführen. Hugging Face weist auf diese Gefahr in der Dokumentation auch hin.

Die IT-Forscher stießen auf zwei Hugging-Face-Modelle, die bösartigen Code enthielten und von den Hugging-Face-Sicherheitsmechanismen nicht als unsicher ("unsafe") markiert wurden. Das untersuchte ML-Modell machte den Eindruck eines Proof-of-Concept-Modells, um diese neuartige Angriffsmethode auszutesten. Ein Screenshot zeigt die Scan-Ergebnisse von Hugging Face: ProtectAI und ClamAV haben kein Problem gefunden, HF Picklescan erkannte die Datei offenbar gar nicht erst als Pickle.

Die beiden bösartigen Dateien liegen im PyTorch-Format vor, was im Kern ein komprimiertes Pickle sei. Standardmäßig kommt ZIP-Kompression dafür zum Einsatz, aber diese Modelle wurden mit 7z komprimiert. Dadurch kann die PyTorch-Standardfunktion torch.load() sie nicht laden. Die IT-Forscher gehen davon aus, dass der HF Picklescan deshalb die Datei nicht als unsicher markiert hat. Picklescan sei ohnehin ein sehr eingeschränkter Scanner: Es nutze eine Blacklist gefährlicher Funktionen; die IT-Sicherheitsexperten von Checkmarx haben zudem weitere Funktionen entdeckt, die die Ausführung von Code bewirken können, jedoch nicht auf dieser Blacklist zu finden sind. Außerdem kann Picklescan defekte Pickles offenbar nicht analysieren.

Denn als weitere Verschleierungstaktik ist bei beiden Dateien die Objekt-Serialisierung kurz nach der bösartigen Nutzlast defekt. Dadurch kommt es bei der Dekompilierung des Objekts zu Fehlern. Wie bei bisher bekannter Malware nutzen die Angreifer auch hier die Versteckvariante, der Erkennung durch defekte Formate zu entgehen. Sie funktionieren zwar im Zielsystem wie gewünscht, aber können von den Parsern in Sicherheitssoftware nicht korrekt analysiert werden.

Als Beispiele, was Angreifer durch das Missbrauchen dieser Deserialisierungslücke anstellen können, nennen die IT-Forscher etwa die Ausführung bösartiger Befehle, das Öffnen von Netzwerkverbindungen, die Erstellung neuer Prozesse oder den Zugriff auf Kameras, Mikrofone und Dateisysteme. Die konkreten Samples enthielten eine je nach Plattform angepasste Reverse-Shell, die auf eine hartkodierte IP-Adresse verbindet.

Die IT-Forscher erörtern noch weitere Tests, mit denen sie ihre Thesen verifiziert haben. Einfache oder greifbare Lösungen für das Pickle-Problem haben sie und Hugging Face jedoch nicht herausarbeiten können. Es bleibe beim Mittelweg, Pickle nicht zu verbieten und mit Sicherheitsmechanismen die Pickle-Dateien zu analysieren sowie die Scans stetig zu verbessern. Am Ende des Blog-Eintrags finden sich noch Indizien für eine Infektion (Indicators of Compromise, IOCs).

(Diese E-Mail-Adresse ist vor Spambots geschützt! Zur Anzeige muss JavaScript eingeschaltet sein.)

Comretix Blog

Hugging Face: Bösartige ML-Modelle auf Entwicklungsplattform aufgedeckt

Über den Autor

comadmin

Neueste Beiträge des Autors

Kommentare