据界面新闻11月14日从多个知情人士处获悉,字节跳动视频生成模型PixelDance将很快在即梦AI上线,面向公众开放使用,具体的上线时间将会早于Sora正式发布的时间。
从其此前展示的视频生成效果来看,豆包视频生成模型无论是语义理解能力、多个主体运动的复杂交互画面,还是多镜头切换的内容一致性方面,都表现出不错的效果。
其中一个视频输入是,特写一个女人的面部,有些生气,戴上了副墨镜,这时一个男人从画面右侧走进来抱住了她。视频画面显示,其不仅遵循了这个复杂指令,还能够按指令的时序去完成连续的动作,两个主体之间也能比较顺畅地进行交互,且人物表情较为准确地传达了指令所描述的情绪。
据界面新闻了解,人物动作是当下视频生成模型共同面临的挑战,即使是Sora在人物动作上做得也不够好。字节跳动的PixelDance视频模型在动作上有了明显提升。
一位多模态大模型科学家对比PixelDance和Sora公布的样片后表示,如果样片效果保真的话,字节跳动的视频生成大模型确实是相当不错。从学术角度或者模型能力角度来说,其肯定达到了Sora的水平,尤其在人物动作上非常棒。
字节跳动在大模型领域一直动作频频。9月24日,该公司一口气发布了豆包视频生成PixelDance、豆包视频生成Seaweed两款大模型,并通过即梦AI和火山引擎面向创作者和企业客户小范围邀测。
从其此前展示的视频生成效果来看,豆包视频生成模型无论是语义理解能力、多个主体运动的复杂交互画面,还是多镜头
本文地址:http://www.sosite.cn/zuixinwz/632.html