Stable Diffusion goes Video
Stability AI arbeitet an einer Stable-Diffusion-Version, mit der sich aus Fotos Bewegtbilder generieren lassen. Auf der Stability AI-Website stellt das Open Source-Unternehmen Stable Video Diffusion vor, sein erstes Basismodell für generatives Video, das auf dem Bildmodell Stable Diffusion basiert.
Das generative KI-Videomodell befindet sich noch in der Entwicklung. In vier kurzen Videoclips wird der aktuelle Stand demonstriert. Derzeit ist es bereits möglich, aus einem Standbild eine Videosequenz zu erzeugen. Das Bild-zu-Video-Modell wurde so trainiert, dass es 25 Frames mit einer Auflösung von 576×1024 px bei einem gleichgroßen Kontext-Frame generiert. Geplant ist außerdem eine Text-zu-Video-KI.
Der Code für die Forschungsversion von Stable Video Diffusion wurde bereits auf GitHub veröffentlicht. Die Gewichte, die für die lokale Ausführung des Modells erforderlich sind, finden sich auf der Hugging Face-Website von Stability AI. Weitere Details zu den technischen Möglichkeiten des Modells sind einem Forschungspapier zu entnehmen, das Stability AI ebenfalls veröffentlicht hat.