混元大模型上线文生视频能力，支持中英双语输入--零时古怪为您提供最新的热点新闻资讯

日前腾讯方面宣布混元大模型上线文生视频能力，并且这一参数量达130亿的视频生成大模型已在Hugging Face及Github平台发布，其中包含模型权重、推理代码、模型算法等完整模型，可供企业与开发者免费使用和开发生态插件。据悉，这也是当前最大的视频开源模型。

据了解，混元视频生成大模型支持中英文双语输入、多种视频尺寸，以及多种视频清晰度，不仅可以生成超写实的高质量视频，例如冲浪、跳舞等大动作场景，并且所生成的画面自然合理、不易变形，还能在保持主角不变的情况下自动切换镜头。此外，其所生成的光影反射基本符合物理规律，在镜面或镜子场景甚至可以实现镜面反射动作完全同步。

据官方介绍，混元视频生成大模型采用了与OpenAI视频生成模型Sora类似的DiT架构，并且在架构设计上进行了多处升级。具体而言，该模型适配了新一代文本编码器以提升语义遵循能力，可更好地应对多个主体描绘，从而实现更加细致的指令和画面呈现。

同时这一模型还采用了统一的全注意力机制，使得每帧视频的衔接更为流畅，并能实现主体一致的多视角镜头切换。此外，该模型团队还通过先进的图像视频混合VAE（3D 变分编码器），让模型在细节表现有明显提升，特别是小人脸、高速镜头等场景。

值得一提的是，官方透露混元视频生成大模型可用于工业级商业场景，例如广告宣传、动画制作、创意视频生成等。目前，腾讯混元视频生成大模型已在腾讯元宝APP上线，用户可在AI应用的“AI视频”板块申请试用，企业客户则能通过腾讯云接入，并且API也已同步开放内测申请。

不久前，腾讯元宝迎来2.0版本的更新，并升级了新一代AI大模型混元turbo，在交互体验、AI搜索，以及多模态理解能力上均迎来了进一步的提升。其中在AI解析能力上，新增支持任意长宽比、最高7K分辨率图片的理解分析，并采用中文原生DiT文生图架构，在语义理解、画面质感与真实性方面迎来全面提升。

【以上内容转自“三易生活网”，不代表本网站观点。如需转载请取得三易生活网许可，如有侵权请联系删除。】

	亮剑AWE2023 夏普尖端电视产品彰显品牌百年底蕴
	IDC一季度国内智能手机市场排名来了！OPPO重回第一
	价格涨飞了专业相机市场正式复苏交易单价稳步上涨
	高通面向移动和XR设备推出全新游戏画面增强技术
	官方解释来了!李小龙回应华为P60 Pro充电器设计争议
	AWE 2023聚焦：创维全新壁纸电视A7D系列首发亮相
	演员严宽：拥有问界M5快一年了我的评价是遥遥领先！
	3500搞定？诺基亚XR30渲染图曝光搭载4600mAh电池
	对抗特斯拉！雷诺联手高通和谷歌打造全新软件架构
	联发科技官宣天玑9200+旗舰芯！5月10日强悍来袭

零时古怪 - 中国第一时事资讯综合门户

混元大模型上线文生视频能力，支持中英双语输入

相关推荐

亮剑AWE2023 夏普尖端电视产品彰显品牌百年底蕴

IDC一季度国内智能手机市场排名来了！OPPO重回第一

价格涨飞了专业相机市场正式复苏交易单价稳步上涨

高通面向移动和XR设备推出全新游戏画面增强技术

官方解释来了!李小龙回应华为P60 Pro充电器设计争议

AWE 2023聚焦：创维全新壁纸电视A7D系列首发亮相

演员严宽：拥有问界M5快一年了我的评价是遥遥领先！

3500搞定？诺基亚XR30渲染图曝光搭载4600mAh电池

对抗特斯拉！雷诺联手高通和谷歌打造全新软件架构

联发科技官宣天玑9200+旗舰芯！5月10日强悍来袭

评论