LinAlg-Bench: Frontier-Modelle geben Berechnung oberhalb von 4×4-Matrizen auf

LinAlg-Bench testet 10 Frontier-Sprachmodelle an 660 SymPy-zertifizierten Linearen-Algebra-Aufgaben im Bereich von 3×3 bis 5×5-Matrizen. An der 4×4-Grenze zeigt sich ein scharfer Verhaltensumbruch: Unterhalb dieser Grenze scheitern Modelle durch Ausführungsfehler – fehlerhafte Rechenschritte, arithmetische Irrtümer. Oberhalb davon wechseln Modelle zu rechnerischer Aufgabe: Sie fabrizieren plausibel erscheinende Antworten durch das, was die Autoren als „Tool-Rollenspiel" und einschränkungskonsistente Konfabulation bezeichnen. Die Fehler-Taxonomie identifiziert 10 primäre Fehlermodi in 1.156 dokumentierten Fehlern. Das Muster deutet auf eine Arbeitsgedächtnisgrenze hin, nicht auf eine Wissenslücke.

Warum das wichtig ist

Dies ist eine der bisher klarsten strukturellen Leistungsgrenzen, die für Frontier-Modelle dokumentiert wurden: eine spezifische Größenordnung, ab der Modelle von versuchter Berechnung zu simulierter Berechnung wechseln. Jede Anwendung, die auf LLM-gesteuertes mathematisches Schlussfolgern angewiesen ist, sollte 4×4 als harte Zuverlässigkeitsgrenze behandeln, bis dieses Problem spezifisch adressiert wird.