MCP Servers

模型上下文协议服务器、框架、SDK 和模板的综合目录。

V
Vision MCP Server

图片理解 MCP

创建于 6/3/2026
更新于 about 4 hours ago
Repository documentation and setup instructions

vision-mcp

给纯文本大模型加上视觉能力的 MCP Server。通过调用多模态 API,让 DeepSeek、GLM、Kimi 等纯文本模型也能"看懂"图片。

MCP 配置

Claude Desktop

编辑 claude_desktop_config.json

{
  "mcpServers": {
    "@lexmin0412/vision-mcp": {
      "command": "npx",
      "args": ["-y", "@lexmin0412/vision-mcp"],
      "env": {
        "VOLC_API_KEY": "你的火山引擎API Key"
      }
    }
  }
}

OpenCode

编辑 opencode.jsonc,在 mcp 字段下添加:

{
  "mcp": {
    "vision-mcp": {
      "type": "local",
      "command": ["npx", "-y", "@lexmin0412/vision-mcp"],
      "enabled": true,
      "environment": {
        "VOLC_API_KEY": "你的火山引擎API Key"
      }
    }
  }
}

工具

read_image

理解图片内容并返回文字描述。

参数:

| 参数 | 必填 | 说明 | |:-----|:----:|:-----| | image | ✅ | 图片来源:本地绝对路径或 http(s) URL | | prompt | ❌ | 对图片的具体提问,默认"详细描述这张图片的内容" |

示例:

read_image image=/Users/xxx/截图.png prompt="这个报错信息是什么"
read_image image=https://example.com/chart.png prompt="描述这张图表的趋势"

环境变量

| 变量 | 必填 | 默认值 | 说明 | |:-----|:----:|:------|:------| | VOLC_API_KEY | ✅ | — | 火山引擎 API Key | | VISION_MODEL | ❌ | doubao-seed-2-0-lite-260428 | 火山引擎 ARK 模型 ID。在模型详情页找到 Model ID 字段,点击复制按钮获取 | | VISION_BASE_URL | ❌ | https://ark.cn-beijing.volces.com/api/v3/chat/completions | API 端点 | | VISION_TIMEOUT_MS | ❌ | 60000 | 请求超时(毫秒) | | VISION_MAX_DIM | ❌ | 1024 | 本地图片压缩阈值(像素) |

工作原理

你(含图片路径的文字 prompt)
  ↓
纯文本 LLM(DeepSeek / GLM / 其他)
  ↓ 遇到图片 → 调用 read_image 工具
vision-mcp MCP Server
  ↓ 本地图片 → base64 编码 + 可选压缩
  ↓ 远程图片 → 直接传 URL
多模态 API(火山引擎 Doubao)
  ↓ 返回图片文字描述
纯文本 LLM 拿到描述后继续回答你的问题

支持的提供商

目前内置火山引擎 Doubao 系列模型。架构设计上通过 providers/ 目录隔离厂商差异,欢迎提交新厂商的适配。

License

MIT

快速设置
此服务器的安装指南

安装包 (如果需要)

npx @modelcontextprotocol/server-vision-mcp-server

Cursor 配置 (mcp.json)

{ "mcpServers": { "lexmin0412-vision-mcp-server": { "command": "npx", "args": [ "lexmin0412-vision-mcp-server" ] } } }