研报

传媒动态点评：谷歌发布Genie，打造可交互生成式世界模型

所属机构：: 华泰证券

摘要

原文

发表时间:2024-02-28

内容摘要

　　谷歌基础世界模型Genie发布，打造交互式生成环境

　　2024年2月26日，谷歌发布可交互生成式世界模型Genie，谷歌将之命名为“生成式交互环境”（Genie为GenerativeInteractiveEnvironments简称），该模型是谷歌继推出大模型Gemini、开源大模型Gemma之后布局AI赛道的新动作。Genie在传媒应用领域更适配可交互的游戏场景，游戏行业相关标的推荐：恺英网络、完美世界、巨人网络。其他AI应用相关标的推荐：捷成股份、光线传媒、焦点科技、昆仑万维、蓝色光标。

　　Genie可交互可推理可模拟，解锁“自主可控”的虚拟世界

　　Genie是一个110亿参数的基础世界模型，特点主要体现在，1）可交互：相较于Sora、Runway等模型，Genie生成的内容具备可交互属性，即用户可通过文本提示对所生成虚拟环境中的角色动作逐帧进行操控，使用户能与生成的虚拟世界进行交互。2）可推理：基于潜在动作模型、视频分词器、动态模型，Genie不仅能理解并推理每对帧之间的潜在动作，还能对视频的下一帧进行预测，并生成符合运动规律的序列帧。3）可模拟：由于在模拟机器人动作和学习物理规律方面表现出色，Genie能通过短视频模拟物体的动态变化来训练多功能智能体，如机械臂。

　　技术底座由ViT构建，适配于游戏/机器人等应用场景

　　技术方面，Genie区别于Sora最大的特点体现在：核心组件基于空间时间的VisionTransformer(ViT)构建，这种特殊的Transformer可以用于处理视频等具有时间和空间维度的数据，底层数据库则基于大量游戏视频建立。应用方面，Genie场景更适配游戏及机器人等。1）游戏：Genie以用户提供的现有图片为起点，解析视频角色，以补充视频帧的方式生成角色动作输出动态画面，包括交互性的游戏环境，让用户具有参与感和体验感，使用过程本身即可被看作是一种游戏。2）机器人：Genie可以将学习的潜在动作应用于真实的人类设计环境中，为实现通用智能体提供了新的视角和方法。

　　Genie开启可交互AI新场景，关注AIGC应用投资机会

　　继OpenAI的文生视频大模型Sora的发布后，谷歌推出AI可交互视频模型Genie，Genie由潜在动作模型、视频分词器、动态预测模型三大核心组件组成，可通过文本、合成图像、照片、草图等多种方式，描述和生成无数个动作“自主可控”的交互式环境。Genie的推出意味着产业AI应用持续迭代升级，预计随着海内外科技大厂AI模型的不断进步，AI应用端有望加速落地，产业迎来持续催化。Genie在传媒应用领域更适配可交互的游戏场景，建议积极把握相关投资机会。

　　风险提示：竞争加剧风险，行业监管风险，模型技术进展不及预期等。

回复 0 条，有 0 人参与

我有话说

以下网友评论只代表同花顺网友的个人观点，不代表同花顺金融服务网观点。

热门跟帖

我有话说