谷歌 Gemini Omni 发布:不止画图,语音指令即可 AI 自动修大片
2026-05-20 18:12:44
5 月 20 日消息:在 Google I/O 2026 上,谷歌正式发布 Gemini Omni 模型。该模型支持文本、图像、音频、视频作为输入,实现跨模态生成与编辑。
其中在音频方面,目前该模型初期仅支持语音输入,但Google表示未来将很快扩展更多类型的音频输入能力。
首发产品Gemini Omni Flash已在Gemini应用上线,后续将向企业客户开放API。
该模型核心卖点在于深度视频编辑能力。用户通过自然语言指令即可对生成内容持续迭代,包括添加或删除对象、切换摄像机角度、修改环境与风格。
得益于模型对物理规律的理解以及对历史、科学、文化知识的整合,生成的视频在角色、场景及视觉逻辑上高度连贯,甚至能推测后续情节。用户亦可创建个人数字分身,并将其植入视频中。
谷歌在安全领域同步布局,所有通过Omni生成的视频均会自动嵌入SynthID数字水印,支持通过Google搜索及Chrome验证。
Gemini Omni Flash 现已面向拥有 Google AI Plus/Pro/Ultra 订阅的用户在 Gemini 应用和 Google Flow 中推出。此外,它还免费向希望混剪 YouTube Shorts 的用户以及 YouTube Create 应用用户推出。
Google DeepMind负责人哈萨比斯表示,该模型正推动AI从单纯的任务执行向通用人工智能(AGI)迈进。

声明:文章不代表链懂观点及立场,不构成本平台任何投资建议。投资决策需建立在独立思考之上,本文内容仅供参考,风险自担!转载请注明出处!侵权必究!
相关阅读
-
杭州有奖发票试点启动:最高奖 10000 元,这些发票不能参加!链资讯 2026-05-20 18:07:00
-
年薪 252 万港元!TVB 小生马浚伟任上市公司高管,曾演《鹿鼎记》康熙链资讯 2026-05-20 18:00:47
-
《黑袍纠察队》大结局上线:七年传奇正式落幕,全集高清观看链资讯 2026-05-20 17:54:43
-
48 亿募资告吹!中国最大 NOR Flash 代工厂终止 IPO,背后原因揭秘链资讯 2026-05-20 17:48:32
-
Embracer Group 拆分重组:核心 IP 打包成立新公司,游戏行业迎大地震链资讯 2026-05-20 17:43:08
-
币安、欧易、Bitget 和 Gate 交易所深度对比:哪个更适合你?链知识 2026-05-20 17:40:42
-
三星电子工会明日全面罢工!威刚预警:内存与闪存价格将再掀涨价潮链资讯 2026-05-20 17:37:36
-
奔驰史上最强 AMG!全新 AMG GT 四门纯电跑车官图:三电机破千匹马力链资讯 2026-05-20 17:31:02
-
零风扇挑战 RTX 5080!无扇水冷主机实测:液温 60℃CPU 先过热链资讯 2026-05-20 17:24:30
-
白银超越 NVIDIA:揭秘推动银价暴涨的 5 大核心因素链知识 2026-05-20 17:22:29