Mimo Vision MCP Server

为不支持多模态的 AI 模型（如 DeepSeek、Mimo-v2.5-pro 等）添加图片理解能力。

通过 MCP Server + 代理服务器，让 Claude Code 在拖拽/粘贴图片时自动调用多模态模型分析图片，再将结果交给主模型处理。

功能特性

智能图片识别：自动识别截图、图表、流程图、照片等类型
多轮细化分析：支持 low/medium/high 三种详细程度
结构化输出：返回 JSON 格式，包含类型、摘要、文字、布局、细节等
透明代理：拦截含图片的请求，自动替换为文字描述
持久化配置：一次配置，所有项目通用

工作原理

用户拖拽图片 → Claude Code 发送请求（含图片）→ 代理服务器拦截
                                                    ↓
                                            检测到图片数据
                                                    ↓
                                    调用多模态模型（如 mimo-v2.5）描述图片
                                                    ↓
                                    替换图片为文字描述，转发给主模型
                                                    ↓
                                            主模型处理并返回结果

安装

1. 克隆项目

git clone https://github.com/your-username/mimo-vision-mcp.git
cd mimo-vision-mcp
npm install

2. 配置 MCP Server

# 添加到 Claude Code（用户级别，所有项目可用）
claude mcp add mimo-vision -s user -e MIMO_API_KEY=your-api-key -- node C:/path/to/mimo-vision-mcp/index.js

3. 配置代理（可选，用于拖拽图片）

在 ~/.claude/.mcp.json 中添加：

{
  "mcpServers": {
    "mimo-vision": {
      "command": "node",
      "args": ["C:/path/to/mimo-vision-mcp/index.js"],
      "env": {
        "MIMO_API_KEY": "your-api-key"
      }
    }
  }
}

使用方法

方法 1：文件路径（推荐）

直接在对话中输入图片路径：

分析这个图片 C:/Users/xxx/Desktop/screenshot.png

方法 2：拖拽图片（需要代理）

启动代理：node proxy/server.js
在 VSCode 中打开 Claude Code
拖拽图片到对话框

方法 3：/vision 命令

/vision C:/path/to/image.png

项目结构

mimo-vision-mcp/
├── index.js              # MCP Server 入口
├── analyzer.js           # 图片分析核心逻辑（多轮细化）
├── prompts.js            # 各类型专用 prompt
├── lib/
│   ├── image-loader.js   # 图片加载（本地文件/URL → base64）
│   └── api-client.js     # 多模态 API 调用封装
├── proxy/
│   ├── server.js         # 代理服务器（拦截图片请求）
│   ├── start.cmd         # 代理启动脚本（Windows）
│   └── start-cli.cmd     # CLI 启动脚本（带图片支持）
└── package.json

配置说明

环境变量

| 变量 | 说明 | 默认值 | |------|------|--------| | MIMO_API_KEY | 多模态模型 API Key | （必填） | | MIMO_BASE_URL | API 地址 | https://token-plan-sgp.xiaomimimo.com/v1 | | VISION_MODEL | 多模态模型名称 | mimo-v2.5 | | PROXY_PORT | 代理服务器端口 | 3000 |

支持的多模态模型

Mimo-v2.5（推荐）
DeepSeek-VL2
其他 OpenAI API 兼容的多模态模型

analyze_image 工具参数

| 参数 | 类型 | 必填 | 说明 | |------|------|------|------| | image | string | 是 | 图片路径或 URL | | prompt | string | 否 | 自定义提示词 | | detail_level | string | 否 | low/medium/high，默认 medium |

适配其他模型

要使用 DeepSeek 或其他模型，只需修改环境变量：

# DeepSeek 示例
MIMO_API_KEY=your-deepseek-key
MIMO_BASE_URL=https://api.deepseek.com/v1
VISION_MODEL=deepseek-vl2

License

MIT

MCP Servers