CoInteract: räumlich strukturierte Ko-Generierung für physikalisch konsistente HOI-Videos
Das CoInteract-Paper, auf HuggingFace Papers veröffentlicht, stellt einen räumlich strukturierten Ko-Generierungsansatz zur Synthese physikalisch konsistenter Videos mit Mensch-Objekt-Interaktion (HOI) vor. Aktuelle generative Videomodelle haben Schwierigkeiten, physikalische Plausibilität aufrechtzuerhalten, wenn Mensch und Objekt in einer kontaktabhängigen, räumlich gebundenen Weise interagieren müssen. CoInteract adressiert dies, indem Mensch- und Objekttrajektorien unter gemeinsamen räumlichen Einschränkungen ko-generiert werden – anstatt unabhängig voneinander.
Bedeutung
HOI-Plausibilität ist eine der letzten großen Schwachstellen aktueller Videogenerierungsmodelle für praktische Anwendungen in Film, Trainingsdatensynthese und Simulation. Der räumlich strukturierte Ko-Generierungsansatz adressiert diese Einschränkung direkt, anstatt darauf zu vertrauen, dass das Modell sie implizit aus Daten lernt – und deutet auf einen umsetzbaren Ingenieurspfad hin für physikalisch zuverlässige Videosynthese.