近期,随着Sora的出现,AI大模型的应用迎来新的玩法,也掀起了文生视频大模型的竞争热潮。各大科技巨头纷纷推出文生视频产品,微软推出Nuwa、Meta推出Emu、谷歌推出Phenaki/VideoPoet等。而中国企业智谱AI也于7月26日推出了清影(Ying),为这场竞争的“中国队”再添一员猛将。
清影(Ying)上线的清言App面向所有用户开放,用户只需输入一段文字(Prompt),即可选择生成所需的视频,包括卡通3D、黑白老照片、油画、电影感等不同风格。除了文字生成视频,清影还支持图生视频。智谱AI的CEO张鹏在智谱 Open Day上介绍称,清影(Ying)底座的视频生成模型是CogVideoX,该模型能够将文本、时间、空间三个维度融合起来,参考了Sora的算法设计。通过优化,CogVideoX相比前代(CogVideo)推理速度提升了6倍,是一个DiT架构。张鹏表示,未来版本将陆续推出更高分辨率、更长时长的生成视频功能。
智谱AI自研的端到端视频理解模型用于为海量视频数据生成详细、贴合内容的描述,增强模型的文本理解和指令遵循能力,使生成的视频更符合用户输入。智谱AI还自研了高效的三维变分自编码器结构(3D VAE),将原视频空间压缩至2%大小,并配合3D RoPE位置编码模块,有利于在时间维度上捕捉帧间关系,建立视频中的长程依赖。同时,CogVideoX模型也同步上线智谱AI大模型开放平台bigmodel.cn,开发者可通过API调用体验和使用文生视频及图生视频模型能力,这在国内尚属首次。
据悉,智谱AI生成式视频研发得到北京市大力支持。北京正在以海淀区为核心打造人工智能产业高地,而海淀区也是智谱AI总部所在地。海淀区为智谱AI大模型研发提供产业投资、算力补贴、应用场景示范、人才等全方位支持。智谱AI的算力支持来自亦庄集群,北京亦庄正着眼打造人工智能之城,目前已建成人工智能公共算力平台。合作伙伴bilibili和华策影视也参与并支持了清影的研发过程。
张鹏表示,人工智能行业对多模态模型的探索还处于初级阶段,清影(Ying)将持续迭代,智谱AI致力于打造对标世界先进水平的模型产品矩阵,通过大模型链接物理世界的亿级用户,为不同行业带来持续创新与变革,加速迈向通用人工智能时代。