爱诗科技发布PixVerse V2，更快更长更一致的AI视频生成来了

IT科技时报 • 2024年7月24日上午10:15 • 头条 • 阅读 3039

7月24日，爱诗科技正式发布视频生成产品 PixVerse V2，全球同步开放，致力用AI视频大模型为每一个用户释放创意可能。

PixVerse V2 采用 Diffusion+Transformer（DiT）基础架构，并在各方面进行技术创新，提供了更长、更一致、更有趣的视频生成能力。在模型能力提升的同时，PixVerse V2还带来了AI视频生成的全新玩法：在保证一致性的前提下，一次生成多个视频片段，可实现单片段8秒，和多片段40秒的视频生成。

一、以DiT架构为基础，实现多项技术创新

PixVerse V2 采用了 DiT 模型架构，用行业顶尖的模型训练效率实践了视频大模型的Scaling Law，同时在多个方面运用了独创的技术实现了卓越的生成效果。

在时空建模方面，PixVerse V2 引入了自研的时空注意力机制，不仅超越了传统的时空分离和 fullseq 架构，而且显著提升了对空间和时间的感知能力，使得在处理复杂场景时表现更为出色。

在文本理解方面，PixVerse V2 利用了有更强大理解能力的多模态模型来提取prompt的表征，有效实现了文本信息与视频信息的精准对齐，进一步增强了模型的理解和表达能力。

此外，PixVerse V2在传统flow模型的基础上进行了优化，通过加权损失，促进了模型更快更优的收敛，从而提升整体训练效率。

二、用户第一，提升AI视频创作生产力

基于大量用户反馈和社区讨论，爱诗团队深刻洞察到一致性是AI视频创作的核心挑战，因此，PixVerse V2 在设计和优化上进行了针对性突破：支持一键生成1-5段连续的视频内容，且片段之间会保持主体形象、画面风格和场景元素的一致。这一创新功能，让用户能够围绕特定主题进行高效而便捷的视频创作。

PixVerse V2 还支持对生成结果进行二次编辑，通过智能识别内容和自动联想功能，用户可以灵活替换调整视频主体、动作、风格和运镜，进一步丰富创作的可能性。爱诗团队希望在模型性能和美学效果之间寻求平衡，预计未来3个月内还将进行多次迭代升级，提供更好的AI视频生成体验。

PixVerse V2 致力让更多用户感受到AI视频创作的乐趣，无论是记录日常脑海中的灵光乍现，还是讲述引人入胜的视频故事，都能变得触手可及。

本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。https://www.dmsdw.cn/58007.html

爱诗科技发布PixVerse V2，更快更长更一致的AI视频生成来了

相关推荐