Forschungbreaking
Anthropic/MATS/Redwood: Schwache Modelle können KI-Sandbagging korrigieren
Anthropic/MATS/Redwood-Paper: Schwache-Supervisor-Training stoppt fähiges KI-Sandbagging bei nicht menschlich bewertbaren Aufgaben — Meilenstein für skalierbare Aufsicht.
6. Mai 20261 Min. Lesezeit