AI 中文社/资讯/详情

智谱视觉推理模型 GLM-4.5V 上线并开源，号称“全球 100B 级效果最佳”

2025-08-12 发布 · 浏览248次 · 点赞0次 · 收藏0次

8 月 11 日消息，智谱 AI 今日推出全球 100B 级效果最佳的开源视觉推理模型 GLM-4.5V（总参数 106B，激活参数 12B），并同步在魔搭社区与 Hugging Face 开源。此外，API 调用价格低至输入 2 元 / M tokens，输出 6 元 / M tokens。

智谱宣布开源视觉推理模型GLM-4.5V正式上线并开源

从官方介绍获悉，GLM-4.5V 基于智谱新一代旗舰文本基座模型 GLM-4.5-Air，延续 GLM-4.1V-Thinking 技术路线，在 41 个公开视觉多模态榜单中综合效果达到同级别开源模型 SOTA 性能，涵盖图像、视频、文档理解以及 GUI Agent 等常见任务。

智谱宣布开源视觉推理模型GLM-4.5V正式上线并开源

在多模态榜单之外，其更重视模型在真实场景下的表现与可用性。GLM-4.5V 通过高效混合训练，具备覆盖不同种视觉内容的处理能力，实现全场景视觉推理，包括：

图像推理（场景理解、复杂多图分析、位置识别）
视频理解（长视频分镜分析、事件识别）
GUI 任务（屏幕读取、图标识别、桌面操作辅助）
复杂图表与长文档解析（研报分析、信息提取）
Grounding 能力（精准定位视觉元素）

智谱宣布开源视觉推理模型GLM-4.5V正式上线并开源

同时，模型新增“思考模式”开关，用户可灵活选择快速响应或深度推理，平衡效率与效果。为帮助开发者直观体验 GLM-4.5V 的模型能力，打造专属于自己的多模态应用，智谱 AI 同步开源了一款桌面助手应用。

该桌面应用可实时截屏、录屏获取屏幕信息，并依托 GLM-4.5V 处理多种视觉推理任务，日常处理如代码辅助、视频内容分析、游戏解答、文档解读等多类视觉任务，成为一个能看着屏幕和你一起工作娱乐的伙伴。我们也希望通过模型开源和 API 服务，赋能更多有想法的开发者，基于多模态基座模型发挥创意和想象，把过去科幻电影中的场景变为现实。

GLM4.5V 开源模型体验性能 AI 智谱 AI

声明：本文转载自IT 之家，转载目的在于传递更多信息，并不代表本社区赞同其观点和对其真实性负责，本文只提供参考并不构成任何建议，若有版权等问题，点击这里。

浏览(248) 点赞(0) 收藏(0)

0条评论

珍惜第一个评论，它能得到比较好的回应。

游客

登录后再评论

鸟过留鸣，人过留评。
和谐社区，和谐点评。

智谱视觉推理模型 GLM-4.5V 上线并开源，号称“全球 100B 级效果最佳”

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。

智谱视觉推理模型 GLM-4.5V 上线并开源，号称“全球 100B 级效果最佳”

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。 按下 Ctrl+D 或 ⌘+D 收藏本站。

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。