Academic MCP Server (学术宇宙大模型能力扩展)

欢迎来到 Academic MCP Server。这是一个为大规模语言模型（LLMs）量身打造的高效、突破反爬限制的论文结构化爬取抓取与 Markdown 分析服务器。它基于官方的 Model Context Protocol (MCP) 标准，底层依赖强力的 Playwright 内核以及最高级的 PyMuPDF4LLM 架构。旨在打通大模型与人类五大顶级学术数据库之间的物理与交互壁垒。

🌟 核心特性

五大顶尖学术库无缝集成：一键支持 CNKI (中国知网)、IEEE Xplore、arXiv、ACM Digital Library 以及最难攻克反爬图灵的 ScienceDirect (Elsevier)。
降维免感级反爬绕过 (Anti-bot Bypass)：原生内置浏览器上下文持久化。针对 ACM (Cloudflare) 以及 ScienceDirect (DataDome) 设置了拟真无头化与环境隔离机制。一次点击“我不是机器人”，免疫数周验证拦截。
全链路自动结构化沉淀：提供从“自然语言查询 -> 提取 DOI & 摘要元数据 -> 将原始高保真包含插画图片的 PDF 静默下载 -> 二次分解重排为大模型最容易吸收的图文 Markdown”。
动态深度遍历与分页映射：提供对如“学科筛选”、“文档类型细分”、“深度分页抓取”的底层字段转化包装。

📂 核心代码结构与必备调试器

🚀 极速部署使用指南

1. 环境依赖组装

本系统依托最新的异步事件总线和本地 PDF 视网膜映射转换库：

python -m venv venv
.\venv\Scripts\activate
pip install -r requirements.txt
playwright install chromium

2. 授权您的第一次“人机认证通行证”（可选但极度推荐）

针对类似 ScienceDirect 这样严格的学术库，强烈建议通过以下程序获得您的 DataDome 免受控上下文：

# 执行后只需在弹出的小窗里手动完成一次算术或点选验证码
python sd_auth.py

3. 连接至大模型与 MCP 客服端

启动服务器后台驻留在任何终端中：

python server.py

或者在您的 claude_desktop_config.json 等兼容 MCP 客户端配置中直接接入本仓库的 python 环境命令。

🛡️ 对于未来修改与反爬升级的提示

目前，acm 与 sd 的抓取均基于 Playwright 任务栏最小化加载（配置了 --start-minimized）以模拟拥有真人物理显示器坐标的数据栈。请勿将它们调整为完全无头 (headless=True) 或者设定屏幕外的坐标。一旦您修改这类反指纹的机制，即可能立刻引来目标学术机构的终身 IP 黑洞拦截。

MCP Servers