OpenAI’s Sora verwandelt KI-Aufforderungen in fotorealistische Videos

Kategorie
Technologie und Innovation

Keywords
Künstliche Intelligenz, OpenAI, Generative KI, Videoproduktion, Sora

Jahr
2024

OpenAIs Einstieg in die generative KI-Videowelt ist ein beeindruckender erster Schritt.

Wir wissen bereits, dass die Chatbots von OpenAI die Anwaltsprüfung ohne den Besuch der juristischen Fakultät bestehen können. Jetzt, rechtzeitig zu den Oscars, hofft eine neue OpenAI-App namens Sora darauf, das Filmemachen ohne den Besuch einer Filmhochschule zu meistern. Aktuell als Forschungsprodukt verfügbar, wird Sora an ausgewählte Kreative und eine Reihe von Sicherheitsexperten herausgegeben, die es auf Sicherheitslücken prüfen werden. OpenAI plant, es zu einem späteren, nicht näher definierten Zeitpunkt für alle angehenden Filmemacher verfügbar zu machen, entschied sich jedoch dafür, es im Voraus vorzustellen.

Andere Unternehmen, von Giganten wie Google bis zu Startups wie Runway, haben bereits Text-zu-Video-KI-Projekte vorgestellt. OpenAI behauptet jedoch, dass sich Sora durch seine beeindruckende fotorealistische Darstellung unterscheidet – etwas, was ich bei seinen Konkurrenten nicht gesehen habe – und durch seine Fähigkeit, längere Clips als die üblichen kurzen Schnipsel anderer Modelle zu erstellen, bis zu einer Minute. Die Forscher, mit denen ich gesprochen habe, wollen nicht sagen, wie lange es dauert, um all diese Videos zu rendern, aber wenn man nachhakt, beschreiben sie es eher als im Bereich “mal eben zum Burrito holen” als “ein paar Tage frei nehmen”. Wenn den handverlesenen Beispielen, die ich gesehen habe, Glauben geschenkt werden kann, ist der Aufwand es wert.

Angetrieben von einer Version des Diffusionsmodells, das von OpenAIs Bildgenerator Dalle-3 sowie dem auf Transformatoren basierenden Motor von GPT-4 verwendet wird, produziert Sora nicht nur Videos, die den Anforderungen der Aufforderungen entsprechen, sondern tut dies auf eine Weise, die ein aufkommendes Verständnis filmischer Grammatik zeigt.

Ein Merkmal in Sora, das das OpenAI-Team nicht gezeigt hat und vielleicht eine Weile nicht veröffentlichen wird, ist die Fähigkeit, Videos aus einem einzigen Bild oder einer Sequenz von Bildern zu generieren. Das wird eine weitere wirklich coole Möglichkeit sein, die Geschichtenerzählungsfähigkeiten zu verbessern. Sie können genau das zeichnen, was Ihnen im Kopf vorschwebt, und es dann zum Leben erwecken. OpenAI ist sich bewusst, dass diese Funktion auch das Potenzial hat, Deepfakes und Fehlinformationen zu produzieren, deshalb werden sie sehr vorsichtig mit allen Sicherheitsimplikationen umgehen.

Erwarten Sie, dass Sora die gleichen Einschränkungen für Inhalte wie Dall-E 3 hat: keine Gewalt, keine Pornografie, keine Aneignung realer Personen oder des Stils benannter Künstler. Auch wie bei Dall-E 3 wird OpenAI eine Möglichkeit bieten, die Ausgabe als KI-erzeugt zu identifizieren. Trotzdem sagt OpenAI, dass Sicherheit und Wahrhaftigkeit ein fortlaufendes Problem sind, das größer ist als nur eine Firma.

Es wird sehr lange dauern, wenn überhaupt, bevor Text-zu-Video die eigentliche Filmproduktion bedroht. Nein, Sie können keine kohärenten Filme erstellen, indem Sie 120 der einminütigen Sora-Clips zusammenfügen, da das Modell nicht auf die genaue gleiche Weise auf Aufforderungen reagiert – Kontinuität ist nicht möglich. Aber die Zeitbegrenzung ist für Sora und ähnliche Programme keine Hürde, um TikTok, Reels und andere soziale Plattformen zu transformieren. Um einen professionellen Film zu machen, benötigen Sie so viel teure Ausrüstung. Dieses Modell wird dem Durchschnittsbürger, der Videos in sozialen Medien erstellt, ermöglichen, sehr hochwertige Inhalte zu produzieren.