InkCop 知识库支持哪些文献检索平台？

InkCop 内置 PubMed（生物医药）、arXiv（理工预印本）、OpenAlex（2 亿+ 开放学术论文索引）、CORE（全球最大开放获取聚合）四大平台直接检索，支持高级布尔查询与多维度筛选，一键批量导入全文与完整元数据（标题、作者、期刊、DOI、PMID 等）到本地知识库。

本地批量导入支持哪些文件格式？

支持 PDF、Word（.doc/.docx）、PowerPoint（.ppt/.pptx）、EPUB、RTF、ODT、Markdown、纯文本，以及 PNG/JPG 图像（OCR 文字提取）。拖入文件夹即可递归批量导入，后台任务在应用重启后会自动断点续传。

什么是 LiteraturePrepareAgent？为什么由它接管文献处理？

LiteraturePrepareAgent 是 InkCop 的文献预处理智能体，它由大模型一次性完成文献的语义分片、实体关系抽取、图谱概念生成、摘要与关键词。好处包括：① 上下文一次性看全，理解层次更深；② 原子提交保证数据一致性；③ 统一规则便于切换研究领域；④ 充分受益于大模型能力提升；⑤ 可独立配置 LLM 与主对话解耦。

RAG 向量检索与知识图谱检索有什么区别？

RAG 向量检索基于"语义相似度"，能找到表达不同但意思相近的内容，但容易漂移；知识图谱基于"严谨的实体-关系-实体"边，给出的是有结构的事实关联，可逐项验证。InkCop 同时启用两者：本地 ObjectBox + HNSW 提供毫秒级向量检索，Kuzu 图数据库支持多跳推理，二者互补构成更强的检索能力。

知识图谱可视化能做什么？适合什么场景？

基于 AntV G6 提供概念图与文档图双视图，支持径向、力导、同心圆、层级、环形、网格六种布局自动推荐。点击节点可递归展开邻居、跳转原文、查看相关 chunk。适合文献综述（发现领域核心实体网络）、主题探索（陌生领域快速建立认知地图）、关系核查（AI 给出的关联是否真有依据）、团队知识共享（让多年文献沉淀可视化）等场景。

🧠 全流程核心 · 文献中枢

本地知识库

一站式文献中枢：直检 · 入库 · 检索 · 推理

InkCop 本地知识库是整个工作流的中枢——从四大文献平台直接检索全文与元数据，到批量导入本地多格式资源，再到 RAG + 知识图谱双引擎检索，所有处理由 LiteraturePrepareAgent 全程接管。数据 100% 本地存储，AI 增强检索能力贯穿科研全流程。

免费下载搭配文献阅读方案 →

四大文献检索平台 · 应用内直连

PubMed 生物医药

生物医学文献权威库（NIH/NLM）

支持 .nbib 格式标准元数据下载

arXiv 理工

物理 / 数学 / 计算机预印本

高级布尔查询 + 学科分类筛选

OpenAlex 开放获取

2 亿+ 学术论文开放索引

OA / 全文可用筛选 + 引用计数

CORE 聚合

全球最大开放获取论文聚合

一键下载全文 PDF 与摘要

文献平台直检

本地文件格式

检索引擎（RAG + 图谱）

100%

本地存储 · 隐私安全

🔎 功能 1

四大平台直检 · 一键入库

无需在多个网站之间反复切换。在 InkCop 内直接搜索 PubMed / arXiv / OpenAlex / CORE，结果即可批量导入到本地知识库，元数据自动恢复，全文全文索引。

🔎

高级查询

布尔表达式 + 字段筛选

→

📋

勾选 / 全选

多选导入到指定文件夹

→

📥

批量入库

元数据 + 全文一并保存

PubMed 生物医药

生物医学文献权威库（NIH/NLM）

支持 .nbib 格式标准元数据下载

arXiv 理工

物理 / 数学 / 计算机预印本

高级布尔查询 + 学科分类筛选

OpenAlex 开放获取

2 亿+ 学术论文开放索引

OA / 全文可用筛选 + 引用计数

CORE 聚合

全球最大开放获取论文聚合

一键下载全文 PDF 与摘要

📁 功能 2

本地批量导入 · 多格式无忧

存量文献再多也不怕。直接拖入文件夹即可递归扫描所有受支持的格式，PDF 通过 MinerU 解析器恢复版式，Word/EPUB/RTF/ODT 由 Pandoc 直转，图像 PNG/JPG 通过 OCR 提取文字。

后台异步处理，前端可继续工作
应用重启后断点续传，不丢任务
入库即触发 LLM 预处理，无需手动干预
可选择子文件夹归档，与现有文献结构对齐

📄 PDF

原始排版保留 + AI 元数据恢复

📝 Word

.doc / .docx，Pandoc 直转

📊 PowerPoint

.ppt / .pptx，幻灯片入库

📚 EPUB

电子书完整章节解析

Ⓜ️ Markdown

原生格式，零转换损失

📃 RTF / ODT

富文本格式无损导入

🖼️ 图像 / Image

PNG / JPG，OCR 文字提取

📋 纯文本 / TXT

日志、笔记、批处理输出

🔗 功能 3

RAG + 知识图谱双引擎检索

单一向量检索容易"答非所问"，单一图谱检索覆盖面太窄。InkCop 让两个引擎并行工作，互相校准，给 AI 提供既"广"且"准"的上下文。

📊

RAG 向量检索

广义语义相似 · 容错性强

▸ObjectBox + HNSW 本地索引，毫秒级近邻查询
▸支持多模态 embedding（文本 + 图像）
▸可选 reranker 模型二次精排
▸语义分片粒度由 LLM 接管

🕸️

知识图谱检索

严谨实体关联 · 多跳推理

▸Kuzu 图数据库，原生 Cypher 查询
▸支持多跳推理串联跨文献逻辑
▸概念节点 + 实体节点双层表示
▸每条边都附带 chunk 引用，可逐项验证

检索时双引擎协同： RAG 提供候选 chunk → 图谱按实体关联扩展邻居 chunk → 合并去重 → 可选 LLM 相关性测试 → 返回上下文。整个过程对 LLM 透明，得到"既广又准"的检索结果。

🤖 功能 4 · 核心创新

LiteraturePrepareAgent · 大模型接管文献处理

传统知识库系统会用规则切片、用规则提取实体、用规则生成摘要——四五个独立模块串联，每一个模块只看到自己那一段输入，整体精度被"短板效应"拖累。InkCop 反其道而行之：把整个预处理流水线交给一个大模型 Agent。

✂️

语义分片

由大模型识别文档语义边界进行分片，避免规则分片切碎完整论证段落。同一篇内化用更细，节省后续检索的语义损失。

🔍

实体关系抽取

识别人物、机构、概念、方法、指标等实体，并提取实体间的指代、对比、因果、依赖等关系，写入图数据库。

🧬

图谱概念生成

为文档生成"概念节点"用于跨文档检索，支持后续多跳推理与孤立概念匹配，让知识图谱真正服务于检索。

🏷️

摘要 / 关键词 / 分类

一次性产出摘要、关键词、主题分类。配合 Citation 元数据形成文档画像，提升后续检索的精准度。

由 LLM 接管的 6 大好处

为什么不再用「规则 + 多模块」的传统流水线？

🌐

上下文一次性看全

传统流水线每个环节只看到自己那一段输入；LLM 接管后，分片、抽取、摘要共享同一份完整上下文，理解层次更深。

⚛️

原子提交，状态一致

通过 base_data_updater / index_data_updater 工具一次性原子提交所有产出，不会出现"分片成功但图谱抽取失败"的中间状态。

🧭

统一规则，易于演进

所有处理逻辑都在 Agent 提示词中，研究领域切换或规则升级只需调整一个 Prompt，不必重写多个独立模块。

🔄

降级与重试可控

失败任务保留在 signals 表中，应用启动巡检自动重试；超过阈值后由用户手动触发，避免静默丢失。

🚀

充分发挥模型能力

随着大模型能力提升，预处理质量自然受益。无需重写代码，仅需切换更强的模型或优化 Prompt。

⚙️

可独立配置 LLM

LiteraturePreparer 可与对话用的 main_agent 解耦，单独配置成本更低或速度更快的本地模型用于批量处理。

🕸️ 功能 5

知识图谱可视化 · 让结构看得见

知识图谱不仅服务于 AI 检索，也是研究人员自己的认知工具。基于 AntV G6 的可交互图谱，让你"看见"知识库内的关系网络。

📐

六种布局算法

radial（径向树）、force-cluster（力导聚类）、concentric（同心圆）、antv-dagre（层级）、circular（环形）、grid（网格），系统会根据图密度自动推荐最适合的布局。

🔀

概念图 + 文档图双视图

概念图展示跨文献的实体关系网络；文档图展示知识库内文档的相似度与引用关系。一键切换视角。

🔭

点击节点递归展开

点击任意节点拉取其邻居子图与现有图合并，渐进式探索图谱深处，无须一次性加载全部数据。

🎯

聚焦高亮 + LOD 优化

选中节点时一级邻居高亮、其余降透明度；缩放过低时自动隐藏标签，渲染百万级节点也丝滑流畅。

↩️

关键词检索 + 子图过滤

在工具栏输入关键词或知识库 ID 进行子图过滤；当节点/边超过限制时自动截断并提示用户。

典型使用场景

📚

文献综述

通过概念图发现领域的核心实体网络，定位研究空白；多跳推理串联跨文献的隐含逻辑。

🗺️

主题探索

面对陌生领域，从一个关键概念出发递归展开邻居节点，快速建立领域认知地图。

✅

关系核查

AI 给出的"X 与 Y 相关"是否真有依据？图谱中的实体边均带 chunk 引用，可逐项验证。

👥

团队知识共享

知识图谱将团队多年文献沉淀可视化，新成员快速 onboarding，避免重复造轮子。

完整能力矩阵

本地知识库为科研全流程提供的核心能力

🔎

四大文献平台直接检索

应用内联结 PubMed / arXiv / OpenAlex / CORE 四大文献平台，支持高级布尔查询与多维度筛选，一键批量导入全文 + 完整元数据（标题、作者、期刊、卷期、DOI、PMID等）到本地知识库。

📁

本地批量导入多格式资源

拖入文件夹即可递归导入。全面支持 PDF / Word (.doc/.docx) / PowerPoint (.ppt/.pptx) / EPUB / RTF / ODT / Markdown / 纯文本以及 PNG/JPG 图像（OCR）。跳过「一篇一篇上传」的低效，重启后后台断点续传。

🔗

RAG + 知识图谱双引擎检索

传统 RAG 向量检索提供“广义语义相似”，知识图谱提供“严谨实体关联”，二者互补。本地 ObjectBox + HNSW 毫秒级近邻检索，Kuzu 图数据库支持多跳推理，严谨串联不同文献中的隐含脉络。

🤖

LLM 接管的文献预处理流水线

LiteraturePrepareAgent 全程接管：文献语义分片、实体关系抽取、图谱数据生成、摘要与关键词全部交给大模型一次调用完成，原子提交，避免传统“多调多管道”造成的上下文丢失与不一致。

🔬

多模态 RAG 与图表理解

不仅读懂文字，还能识别论文中的图表、曲线图、病理影像等图像资源，转化为可检索的知识单元。支持使用多模态 embedding 模型（如 qwen3-vl-embedding）。

🕸️

可交互知识图谱可视化

基于 AntV G6 提供概念图 / 文档图双视图，支持径向、力导、同心圆、层级、环形、网格六种布局。点击节点可递归展开邻居、跳转原文、查看相关 chunk。

🏷️

自动元数据发现与 Citation 存档

拖入任意命名的 PDF，AI 自动恢复文献标题、作者、摘要、期刊名、DOI、PMID 等核心元数据，并以 Zotero 风格的 Citation 结构保存于 metadata 字段。支持 .nbib 文件导入。

📖

文献导读与可视化报告

为入库文献一键生成导读、倒读、图解与 HTML 可视化报告，10 分钟掌握一篇论文核心，告别逐行精读的低效。

🎯

@精准定位与上下文钉选

对话中 @文档、@知识库文献、@文档中具体文字，将上下文“钉住”在客观实体上，AI 回答有据可查，避免含糊幻觉。

本地知识库连通所有解决方案：

📚 沉浸式文献阅读 ✍️ AI 辅助学术写作 🔍 引用与文献管理 🔒 纯本地科研工作站免费下载

本地知识库

四大文献检索平台 · 应用内直连

四大平台直检 · 一键入库

高级查询

勾选 / 全选

批量入库

本地批量导入 · 多格式无忧

RAG + 知识图谱 双引擎检索

RAG 向量检索

知识图谱检索

LiteraturePrepareAgent · 大模型接管文献处理

语义分片

实体关系抽取

图谱概念生成

摘要 / 关键词 / 分类

由 LLM 接管的 6 大好处

上下文一次性看全

原子提交，状态一致

统一规则，易于演进

降级与重试可控

充分发挥模型能力

可独立配置 LLM

知识图谱可视化 · 让结构看得见

六种布局算法

概念图 + 文档图双视图

点击节点递归展开

聚焦高亮 + LOD 优化

相关 chunk 与原文跳转

关键词检索 + 子图过滤

典型使用场景

文献综述

主题探索

关系核查

团队知识共享

完整能力矩阵

四大文献平台直接检索

本地批量导入多格式资源

RAG + 知识图谱双引擎检索

LLM 接管的文献预处理流水线

多模态 RAG 与图表理解

可交互知识图谱可视化

自动元数据发现与 Citation 存档

文献导读与可视化报告

@精准定位与上下文钉选

RAG + 知识图谱双引擎检索