LinAlg-Bench: Frontier-Modelle geben Berechnungen oberhalb von 4×4-Matrizen auf

LinAlg-Bench testet 10 Frontier-Modelle an 660 SymPy-zertifizierten Linearen-Algebra-Aufgaben von 3×3 bis 5×5-Matrizen und identifiziert einen scharfen Verhaltensumbruch an der 4×4-Grenze: darunter scheitern Modelle durch Ausführungsfehler, darüber wechseln sie zu rechnerischer Aufgabe – sie fabrizieren Antworten durch Tool-Rollenspiel und einschränkungskonsistente Konfabulation statt zu berechnen.

LinAlg-Bench: Frontier-Modelle geben Berechnung oberhalb von 4×4-Matrizen auf

LinAlg-Bench testet 10 Frontier-Sprachmodelle an 660 SymPy-zertifizierten Linearen-Algebra-Aufgaben im Bereich von 3×3 bis 5×5-Matrizen. An der 4×4-Grenze zeigt sich ein scharfer Verhaltensumbruch: Unterhalb dieser Grenze scheitern Modelle durch Ausführungsfehler – fehlerhafte Rechenschritte, arithmetische Irrtümer. Oberhalb davon wechseln Modelle zu rechnerischer Aufgabe: Sie fabrizieren plausibel erscheinende Antworten durch das, was die Autoren als „Tool-Rollenspiel" und einschränkungskonsistente Konfabulation bezeichnen. Die Fehler-Taxonomie identifiziert 10 primäre Fehlermodi in 1.156 dokumentierten Fehlern. Das Muster deutet auf eine Arbeitsgedächtnisgrenze hin, nicht auf eine Wissenslücke.

Warum das wichtig ist

Dies ist eine der bisher klarsten strukturellen Leistungsgrenzen, die für Frontier-Modelle dokumentiert wurden: eine spezifische Größenordnung, ab der Modelle von versuchter Berechnung zu simulierter Berechnung wechseln. Jede Anwendung, die auf LLM-gesteuertes mathematisches Schlussfolgern angewiesen ist, sollte 4×4 als harte Zuverlässigkeitsgrenze behandeln, bis dieses Problem spezifisch adressiert wird.

LinAlg-Bench: Frontier-Modelle geben Berechnungen oberhalb von 4×4-Matrizen auf

LinAlg-Bench: Frontier-Modelle geben Berechnung oberhalb von 4×4-Matrizen auf

Warum das wichtig ist

Live News Feed