Skim: Spekulative Ausführung senkt Web-Agent-Kosten um Faktor 1,9 und Latenz um 33 %

Microsoft Research und Princeton haben Skim vorgestellt, ein Framework zur spekulativen Ausführung für Web-Agenten. Ein Offline-Profiler erfasst einmalig URL- und Antwortmuster pro Website; zur Laufzeit wird jede Anfrage gegen eine Vorlage abgeglichen, ein kleines Modell synthetisiert die Ziel-URL und extrahiert die Antwort direkt. Ein Verifikator prüft den Schnellpfad-Output; fehlerhafte Spekulationen fallen an den vollständigen Agenten zurück. Auf den Benchmarks WebVoyager, AgentOccam und BrowserUse: 1,9-fache Kostenreduktion und 33,4 % Latenzreduktion bei Wiederholungsanfragen.

Warum das wichtig ist

Für jeden Agenten, der wiederholt dieselben Websites navigiert – Nachrichten-Harvester, Recherche-Agenten, Monitoring-Pipelines – bietet Skim eine direkte Kostenoptimierung ohne Modell-Fine-Tuning. Die Offline-Profiling-Kosten fallen einmalig an; die Einsparungen skalieren mit dem Anfragevolumen.