智谱发布GLM-5V-Turbo模子:编程辞别纯文本 一张图片就能生成代码
2026-04-02 09:22:32
4月2日消息,智谱正式发布面向视觉编程打造的GLM-5V-Turbo多模态Coding基座模型。
该模型从预训练阶段深度融合视觉与文本能力,打破了纯文本输入的编程局限,能看懂设计稿、截图、网页界面并生成可运行代码,真正实现了看得懂画面、写得出代码。

GLM-5V-Turbo拥有三大核心特性:
其一为原生多模态Coding基座,可原生理解图片、视频、设计稿等多模态输入,支持画框、截图等多模态工具调用,上下文窗口拓展至200k,让Agent的感知-行动链路延伸至视觉交互;
其二是兼顾视觉与编程能力,在多模态Coding、GUI Agent等核心基准上表现领先,且通过多任务协同RL技术,保证纯文本场景下的编程、推理能力不退化;
其三是深度适配Claude Code与龙虾场景,可实现“看懂环境→规划动作→执行任务”的完整闭环,还配备全套官方Skills,开箱即可使用。

实测数据显示,GLM-5V-Turbo在设计稿还原、视觉代码生成等基准上均取得领先,在AndroidWorld、WebVoyager等GUI环境操控测试中表现突出,纯文本Coding能力也保持稳定。
在龙虾Agent相关测试中,模型接入后让龙虾拥有真正的视觉能力,在PinchBench等评测中斩获优异成绩,复杂任务执行能力得到验证。
目前GLM-5V-Turbo已落地图像即代码、龙虾视觉赋能等典型场景,能实现前端复刻、GUI自主探索复刻,还能让龙虾完成K线图解读、图文报告生成等任务。
用户可通过AutoClaw、Z.ai等产品体验,也能通过官方API接入,多款官方Skills也已上线ClawHub。




相关阅读
-
雷军今晚5个小时直播:把新SU7全拆了 让人人看看小米造车细节链资讯 2026-04-02 09:15:57
-
新手被禁买大排量 张雪机车遭告发 律师回应能否侵权链资讯 2026-04-02 09:10:20
-
澳洲通过首部加密货币监管法!交易所、托管商纳入金融服务许可制度链知识 2026-04-02 09:08:22
-
欧意ouyi邀请码在哪获取?填写欧意ouyi邀请码有什么作用?链知识 2026-04-02 01:36:56
-
虚拟货币交易平台有哪些?2025最新加密货币交易所排名与推荐链知识 2026-04-02 01:16:45
-
BARD代币与Babylon Lombard的BTC再质押项目详解链知识 2026-04-02 00:56:33
-
瑞波币(XRP)价格“蓄势待发”:一文了解为何下一个目标是15美元?链知识 2026-04-02 00:36:20
-
Pi Network(PI)币是什么?能达到100美元吗?PI价格预测2025-2040链知识 2026-04-02 00:16:06
-
Aster币是什么?如何工作?Aster代币经济学、未来展望及项目团队链知识 2026-04-01 23:55:54
-
喜报:伦敦证券交易所上市新的比特币(BTC)质押ETP链知识 2026-04-01 23:35:41