视频生成模型开源模型排行榜
∩0∩
字节跳动开源30亿参数AI模型作者:麻辣“龙虾”话事人5月22日,字节跳动正式开源轻量级多模态AI模型Lance,激活参数量仅30亿却能同时处理文本、图像、视频的理解与生成任务。与传统模型拆分模块拼接不同,Lance从底层架构就实现了“理解-生成”一体化,通过双流专家系统分别处理语义理解和视觉生成,让手机说完了。
字节开源轻量原生统一多模态 AI 模型 LanceIT之家5 月22 日消息,字节跳动最新发布开源多模态模型Lance,激活参数量只有3B,是一款原生统一的图像、视频多模态模型。与把“理解”和“生成”拆成多个模块再拼接的常见方案不同,Lance 从训练起就把图像理解、视频理解、图像生成、视频生成和跨模态编辑放进同一体系,目好了吧!
∩0∩
10秒视频1分钟生成作者:麻辣“龙虾”话事人5月22日,国内科技团队正式开源数字人视频生成模型LongCat-Video 1.5,将10秒视频的生成时间压缩至1分钟,效率较前代提升约15倍。该模型采用DMD蒸馏技术,将生成步数从50步减至8步,同时通过升级音频编码器和优化数据处理流程,显著改善了唇形同步与全好了吧!
╯▽╰
实时交互新突破!Soul发布SoulX-FlashTalk开源数字人模型近期,Soul App AI团队(Soul AI Lab)正式开源实时数字人生成模型SoulX-FlashTalk,这款14B参数模型实现0.87s亚秒级超低延时、32fps高帧率输出,还能稳定生成超长视频,为行业提供可商用的实时生成式数字人解决方案,推动大参数量数字人技术落地应用。Soul团队始终深耕AI能力建设,聚等会说。
开源证券:全球多模态AI加速进击 国产模型商业化提速智通财经APP获悉,开源证券发布研报称,全球多模态技术持续迭代,国产模型在视频、音频生成领域实现局部反超,商业化进程显著提速。2026年头部模型Token调用量跃升,深度赋能视频、游戏、营销等下游产业。多模态应用的爆发进一步加剧算力缺口,带动算力租赁与AIDC产业链需求高等我继续说。
10秒视频1分钟搞定!作者:麻辣“龙虾”话事人今日,一款全新的数字人视频生成模型正式开源,引发技术圈关注。该模型将10秒视频的生成时间压缩至约1分钟,相比以往效率提升约15倍。这一突破得益于采用了DMD蒸馏技术,将生成步数从50步大幅缩减至8步,让视频创作效率迈上新台阶。从技术层面看,新版等我继续说。
(-__-)b
阿里HappyHorse:登顶全球的开源视频生成模型黑马这款模型可厉害了,4月8日刚以1333 Elo分的成绩,一举拿下ArtificialAnalysis视频竞技场排行榜的冠军。跟其他模型比起来优势明显,对OVI1.1的胜率高达80%,对LTX2.3也有60.9%的胜率,直接成了目前全球排名最高的开源视频生成模型。有意思的是,它之前还匿名参加过盲测排行,跟字节跳小发猫。
美团发布并开源视频生成模型 将融入自动驾驶、具身智能等场景中新京报贝壳财经讯(记者陈维城)10月27日,美团LongCat团队发布并开源LongCat-Video视频生成模型,以统一模型在文生、图生视频基础任务上达到开源SOTA(最先进水平),并依托原生视频续写任务预训练,实现分钟级长视频连贯生成,保障跨帧时序一致性与物理运动合理性。LongCat-Vid等我继续说。
˙0˙
阿里巴巴开源视频生成模型通义万相Wan2.2,首创电影美学控制系统则可以生成接近科幻片的画面效果。通义万相还开源了一款5B 小尺寸的统一视频生成模型,单一模型同时支持文生视频和图生视频,可在消费级显卡部署。该模型采用了高压缩率3D VAE 架构,时间与空间压缩比达到高达4×16×16,信息压缩率提升至64,均实现了开源模型的最高水平,仅是什么。
ˇ△ˇ
阿里开源视频生成模型 Wan2.2-S2V,一张图生成电影级数字人视频IT之家8 月26 日消息,今日晚间,阿里云宣布开源全新多模态视频生成模型通义万相Wan2.2-S2V,仅需一张静态图片和一段音频,即可生成面部表情自然、口型一致、肢体动作丝滑的电影级数字人视频。据介绍,该模型单次生成的视频时长可达分钟级,大幅提升数字人直播、影视制作、AI 教等我继续说。
⊙0⊙
原创文章,作者:企业形象片拍摄,产品宣传片制作,影视视频制作,天源文化,如若转载,请注明出处:https://asiachina.cn/fh511o3d.html
