PixVerse V4 est réédité : le réalisme vidéo, le son et la vitesse ont été améliorés dans tous les domaines

Nouvelles de l'IAPosté il y a 6 mois Cercle de partage de l'IA

9.5K 00

En ce début d'année 2025, l'espace vidéo de l'IA est témoin d'une nouvelle course technologique plus rapide que prévu. Peu de temps après la sortie d'OmniHuman-1, PixVerse a suivi avec une nouvelle mise à jour du modèle, annonçant officiellement que PixVerse La version V4 arrive. En tant qu'observateur dans le domaine de la technologie de l'IA, j'ai eu l'honneur d'obtenir la qualification d'expérience de PixVerse V4 il y a cinq jours. Après des tests complets, la version V4 a montré des progrès visibles dans la vidéo de génération de texte, la vidéo de génération d'images et de nouvelles fonctionnalités, et la capacité du modèle sous-jacent a fait un bond qualitatif.

Amélioration significative de la conversion de textes en vidéos

Les capacités améliorées de PixVerse V4 en matière de génération de texte vers vidéo sont impressionnantes. Voici quelques cas testés par l'auteur pour visualiser l'effet de génération du nouveau modèle :

Génération de texte Cas vidéo 1 : Film sur la catastrophe de la tornade

Cue in. Tornades, mouvement à grande vitesse, tension et excitation, une voiture de sport orange des années 80 sur une route urbaine se déplaçant et dérivant à grande vitesse. Atmosphère de film catastrophe.

Cas vidéo de génération de texte 2 : Misty Stag

Cue in. Un cerf éthéré dont le corps est fait de brume argentée qui scintille faiblement au clair de lune. Ses bois sont ornés d'orbes de lumière flottants et il se déplace silencieusement, laissant derrière lui une traînée de brume scintillante.

Cas vidéo de génération de texte 3 : saut dans la distorsion spatio-temporelle

Cue in. Séquence de saut de déformation de l'espace-temps : les équations du champ d'Einstein sont appliquées pour simuler la déformation de l'espace-temps, et la caméra se déplace le long de l'interface de visualisation du trou noir de Kerr pour activer l'effet visuel de dilatation temporelle. Une singularité spatio-temporelle est créée au point de saut, et l'algorithme de résolution de Penrose est introduit pour calculer la distorsion du cône lumineux (facteur de distorsion 145%).

Le support de PixVerse V4 pour les effets physiques de science-fiction et de hardcore est particulièrement bon, avec des résultats de génération stupéfiants. Pour mieux visualiser les améliorations apportées par PixVerse V4 aux effets physiques de science-fiction et de hardcore, examinons une étude de cas. Voici le signal de génération de cette vidéo :

Cue in. Lentille hypersphérique à saut dimensionnel : projection spatiale en 11 dimensions du mouvement de la lentille à l'aide d'un algorithme de trajectoire du collecteur riemannien pour activer un système d'alerte visuelle précoce pour les défauts topologiques pendant l'effondrement dimensionnel.

Dans le cas du saut hypersphérique, le texte apparaît dans la vidéo, mais les tests montrent que la contrôlabilité de la génération de texte dans la version actuelle laisse à désirer ; le texte peut être généré dans les vidéos générées par le texte, mais la génération de texte n'est pas encore prise en charge dans les vidéos générées par l'image, et seule la saisie en anglais est prise en charge.

Les vitesses de génération ont augmenté de façon spectaculaire et les modèles V4 se situent fermement à l'échelon T1.

En plus de l'amélioration significative de la génération, une autre caractéristique impressionnante de PixVerse V4 est l'augmentation spectaculaire de la vitesse de génération. En mode extrême, les vidéos peuvent être générées en 5 secondes environ, ce qui représente une amélioration significative de l'efficacité. Dans l'ensemble, PixVerse V4 est une amélioration significative par rapport à V3.5, et le nouveau modèle V4 est sans aucun doute le premier niveau du domaine actuel de la vidéo IA.

Si l'on regarde l'histoire de PixVerse, le rythme des itérations technologiques est remarquable : la version 1 a été mise en service le 15 janvier 2024, la version 2 le 24 juillet, la version 2.5 le 22 août, la version 3 le 29 octobre, la version 3.5 le 29 décembre, et la dernière version 4 a été publiée le 24 février. La stratégie de PixVerse de s'en tenir à une capacité de modélisation itérative rapide est la bonne. Même si PixVerse a généré beaucoup de buzz sur les médias sociaux avec sa fonctionnalité de modèles d'effets, et a même été en tête des classements de l'App Store dans certains pays du Moyen-Orient, PixVerse n'a pas ralenti l'itération de ses modèles, mais a plutôt accéléré leur évolution.

depuis (un temps) DeepSeek Après avoir attiré l'attention du plus grand nombre, il existe un consensus général dans le domaine de l'IA selon lequel "la seule application de l'IA est l'intelligence elle-même". La capacité de modélisation est la pierre angulaire du développement de la technologie de l'IA. L'optimisation des fonctions et de l'expérience au niveau de l'application permet d'abaisser le seuil d'utilisation de la technologie de l'IA par les utilisateurs, tout comme le coefficient de capacité du modèle. Par exemple, si la capacité du modèle est de 10 points, la fonction intéressante du modèle d'effet spécial est comme un coefficient de 10, et la performance finale de l'application peut atteindre 100 points. En revanche, si la capacité du modèle n'est que de 1 point, même si l'application est plus puissante, l'effet final n'est pas satisfaisant.

D'un autre côté, Runway, une entreprise dans le domaine de la vidéo IA, mérite d'être reconnue pour ses innovations en matière de fonctionnalités, telles que Act-One et Super Lens Motion. Cependant, au cours des six derniers mois, il ne semble pas y avoir eu de mises à jour itératives significatives des modèles de Runway. Les initiés de l'industrie sont bien conscients de ce que six mois signifient dans le contexte de l'évolution rapide de la technologie de l'IA. PixVerse a trouvé un équilibre entre l'itération technologique et l'innovation en matière de fonctionnalités : tout en maintenant le modèle rapidement itératif, il continue d'améliorer les capacités sous-jacentes du modèle, ce qui rend les autres innovations en matière de fonctionnalités plus intéressantes.

Les caractéristiques sonores et les modèles d'effets ont été améliorés.

PixVerse V4 introduit une nouvelle fonctionnalité très intéressante : le son.

Les lecteurs attentifs auront remarqué que la plupart des exemples présentés dans la section précédente sont au format vidéo et non au format GIF. En effet, les vidéos générées par PixVerse V4 ont déjà des effets sonores naturels et fluides. (Les exemples de vidéos générées par le texte dans la section précédente ne sont pas au format vidéo en raison de la limite imposée par la plateforme sur le nombre de vidéos dans un même message). Il suffit d'activer la fonction Son pour que les effets sonores correspondent automatiquement aux vidéos générées.

De plus, PixVerse V4 a ajouté de nouvelles fonctionnalités telles que Speech (lip sync) et Restyle (migration de style), que vous pouvez expérimenter par vous-même. Comme mentionné ci-dessus, un modèle de base solide est une condition préalable au fonctionnement efficace de chaque fonctionnalité.

Enfin, concentrons-nous sur la fonctionnalité phare de PixVerse - les modèles FX. En tant que pionnier des modèles FX, PixVerse a porté la qualité des modèles FX à un niveau supérieur avec les capacités de modélisation de la version V4.

PixVerse a été très apprécié pour ses modèles d'effets, et avec la version V4 du modèle, la texture et le mouvement de la vidéo résultante ont été améliorés une fois de plus.

En bref, une forte capacité de modélisation est la pierre angulaire du développement de la technologie vidéo d'IA. Ce n'est qu'en améliorant continuellement l'intelligence du modèle lui-même que les fonctions d'application telles que les effets spéciaux, les effets sonores, la migration de style, etc. peuvent véritablement réaliser leur potentiel et apporter une expérience 혁신적인 aux utilisateurs. Il est prévisible que la concurrence dans le domaine de la vidéo IA deviendra encore plus intense, et l'innovation technologique est sans aucun doute la clé pour les fournisseurs tels que PixVerse de maintenir leur position de leader.

Nouvelles de l'IA

Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.

Articles connexes

a16z Opinion : Comment MCP réinvente l'interaction avec les outils d'IA

Nouvelles de l'IA

il y a 5 mois

08.9K

ICLR 惊现[10,10,10,10]满分论文，ControlNet作者新作——IC-Light V2适配Flux

ICLR Surprenant [10,10,10,10,10] Full Score Paper, ControlNet Nouveau travail de l'auteur - IC-Light V2 Adaptation à Flux

Nouvelles de l'IA

Il y a 9 mois

07.8K

2024 Les 10 meilleurs frameworks RAG de Github

Nouvelles de l'IA

Il y a 8 mois

011.6K

DeepSeek R2 à l'horizon : un nouveau modèle pourrait redessiner le paysage de l'industrie de l'IA

Nouvelles de l'IA

Il y a 6 mois

08.8K

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !

S'inscrire maintenant

Pas de commentaires...

PixVerse V4 est réédité : le réalisme vidéo, le son et la vitesse ont été améliorés dans tous les domaines

Amélioration significative de la conversion de textes en vidéos

Génération de texte Cas vidéo 1 : Film sur la catastrophe de la tornade

Cas vidéo de génération de texte 2 : Misty Stag

Cas vidéo de génération de texte 3 : saut dans la distorsion spatio-temporelle

Les vitesses de génération ont augmenté de façon spectaculaire et les modèles V4 se situent fermement à l'échelon T1.

Les caractéristiques sonores et les modèles d'effets ont été améliorés.

Les 22 meilleurs générateurs de modèles 3D IA : transformez du texte et des images en modèles 3D en quelques secondes

2025 Perspectives de débarquement d'agents d'intelligence artificielle : une analyse des trois éléments que sont la planification, l'interaction et la mémoire

Articles connexes

a16z Opinion : Comment MCP réinvente l'interaction avec les outils d'IA

ICLR Surprenant [10,10,10,10,10] Full Score Paper, ControlNet Nouveau travail de l'auteur - IC-Light V2 Adaptation à Flux

2024 Les 10 meilleurs frameworks RAG de Github

DeepSeek R2 à l'horizon : un nouveau modèle pourrait redessiner le paysage de l'industrie de l'IA

Pas de commentaires

Dernières collections

Derniers articles

PixVerse V4 est réédité : le réalisme vidéo, le son et la vitesse ont été améliorés dans tous les domaines

Amélioration significative de la conversion de textes en vidéos

Génération de texte Cas vidéo 1 : Film sur la catastrophe de la tornade

Cas vidéo de génération de texte 2 : Misty Stag

Cas vidéo de génération de texte 3 : saut dans la distorsion spatio-temporelle

Les vitesses de génération ont augmenté de façon spectaculaire et les modèles V4 se situent fermement à l'échelon T1.

Les caractéristiques sonores et les modèles d'effets ont été améliorés.

Les 22 meilleurs générateurs de modèles 3D IA : transformez du texte et des images en modèles 3D en quelques secondes

2025 Perspectives de débarquement d'agents d'intelligence artificielle : une analyse des trois éléments que sont la planification, l'interaction et la mémoire

Articles connexes

a16z Opinion : Comment MCP réinvente l'interaction avec les outils d'IA

ICLR Surprenant [10,10,10,10,10] Full Score Paper, ControlNet Nouveau travail de l'auteur - IC-Light V2 Adaptation à Flux

2024 Les 10 meilleurs frameworks RAG de Github

DeepSeek R2 à l'horizon : un nouveau modèle pourrait redessiner le paysage de l'industrie de l'IA

Pas de commentaires

Outils d'IA sélectionnés

Dernières collections

Derniers articles