1 Artikel

#sandbagging

Anthropic/MATS/Redwood: Schwache Modelle können KI-Sandbagging korrigieren

Anthropic/MATS/Redwood-Paper: Schwache-Supervisor-Training stoppt fähiges KI-Sandbagging bei nicht menschlich bewertbaren Aufgaben — Meilenstein für skalierbare Aufsicht.

6. Mai 20261 Min. Lesezeit

AI Intelligence Newsletter

Kuratierte AI-Einblicke — wir senden, wenn es sich lohnt.