IA Gen Sora : la vidéo haute qualité oui, mais avec quels prompts ?

IA Gen Sora : la vidéo haute qualité oui, mais avec quels prompts ?

OpenAI vient d’annoncer un service d’IA générative capable de produire 60 secondes de vidéo de haute qualité à l’aide de simples prompts. Il s’agit d’un modèle de conversion de texte en vidéo, nommé “Sora”, qu’OpenAI commence à tester.

Sora est une IA générative qui peut produire pour l’instant des vidéos d’une durée maximale d’une minute. L’exploit réside dans la qualité de la vidéo, et dans le respect des consignes de l’utilisateur.

Le modèle utilise les données d’entraînement du LLM Dall-E pour améliorer sa compréhension du langage naturel, son interprétation, et sa traduction en vidéo.

Générer des scènes complexes avec plusieurs personnages

Grâce à l’apprentissage de ces données, Sora est capable de générer des scènes complexes avec plusieurs personnages, des types de comportement spécifiques et des détails précis sur le sujet de premier plan et l’arrière-plan. Sur la base de sa compréhension du monde réel, des détails sont naturellement ajoutés à la vidéo au-delà de ce que demande l’utilisateur pour une représentation plus réaliste.

Un certain nombre d’exemples de vidéos générées par Sora sont accessibles au public, ainsi que les prompts qui ont permis leur création. Voici quelques exemples des rendus vidéos avec en légende les prompts utilisés.

Le prompt choisi pour la création de cette vidéo est  : Une femme élégante marche dans une rue de Tokyo remplie de néons lumineux et de panneaux de signalisation animés. Elle porte une veste en cuir noir, une longue robe rouge, des bottes noires et un sac à main noir. Elle porte des lunettes de soleil et du rouge à lèvres rouge. Elle marche avec assurance et décontraction. La rue est humide et réfléchissante, ce qui crée un effet de miroir avec les lumières colorées. De nombreux piétons se promènent.

 

Prompt : Un chat tabby blanc et orange est vu s’élancer joyeusement dans un jardin dense, comme s’il poursuivait quelque chose. Ses yeux sont écarquillés et heureux tandis qu’il avance en trottinant, scrutant les branches, les fleurs et les feuilles tout en marchant. Le chemin est étroit car il se fraye un chemin entre toutes les plantes. La scène est capturée à partir d’un angle au niveau du sol, suivant le chat de près, ce qui donne une perspective basse et intime. L’image est cinématographique, avec des tons chauds et une texture granuleuse. La lumière du jour diffuse entre les feuilles et les plantes crée un contraste chaleureux qui accentue le pelage orange du chat. L’image est claire et nette, avec une faible profondeur de champ.

Ce prompt est étonnement simple : Vue en plongée d’un chantier de construction rempli d’ouvriers, d’équipements et de machines lourdes.

OpenAI précise que Sora n’est pas encore un produit complet. Il peut avoir du mal à simuler la représentation physique de scènes complexes.

publicité

Compétition avec Google

Un exemple ? Si vous mordez dans un biscuit, l’IA ne sera peut-être pas en mesure de représenter les marques de morsure sur le biscuit. Il existe également un risque de confusion des détails spatiaux, comme la représentation erronée des côtés gauche et droit.

“Nous prenons d’importantes mesures de protection pour nous assurer que Sora peut être utilisé en toute sécurité avant qu’il ne soit mis à la disposition du public”, a déclaré OpenAI, “et nous testons le modèle avec une Red Team d’experts en matière de lutte contre les préjugés et les discours de haine”.

L’entreprise développe aussi un outil permettant d’identifier les vidéos générées par Sora afin de repérer les contenus trompeurs. Lorsque ce modèle génératif sera mis en œuvre dans un produit OpenAI, l’entreprise prévoit de mettre en place des métadonnées C2PA qui fournissent des informations sur l’historique des vidéos.

“Nous étudions comment faire évoluer le modèle pour qu’il soit le plus utile possible aux professionnels de la création et, à cette fin, nous donnons accès à l’outil à un certain nombre d’artistes visuels, de concepteurs et de cinéastes pour obtenir leur avis.”

En janvier, Google a annoncé Lumiere, un modèle d’IA qui génère des vidéos très réalistes à partir de textes et d’images.

Source : “ZDNet Japan”

Leave a Reply

Discover more from Ultimatepocket

Subscribe now to keep reading and get access to the full archive.

Continue reading