🎯 批量挖空
批量挖空功能可以自动识别 PDF 中已有的高亮区域和彩色文字标记,将它们转换为 PDF 批注,从而可以在复习模式中使用或导出为 Anki 卡片。这对于扫描版教材、标注过的讲义等场景特别有用。
💡 什么是批量挖空?
批量挖空是一个智能识别工具,专门用于处理已经包含高亮或彩色标记的 PDF 文档(如扫描版教材、标注过的讲义等)。它能够:
- 自动检测 PDF 图像中的高亮标记区域
- 识别彩色文字(如红色、蓝色等重点标记)
- 将检测到的区域转换为 PDF 批注
- 使这些内容可以在复习模式中使用,或导出为 Anki 卡片
核心价值:将 PDF 中已有的视觉标记(高亮、彩字)转换为可交互的批注,让扫描版材料也能享受数字化学习工具的便利。
📚 使用场景
场景一:扫描版教材
你有一本纸质教材,已经用荧光笔标记了重点:
- 扫描或拍照教材页面生成 PDF
- 导入 PDF 到 GuruMind
- 运行批量挖空识别
- 自动将荧光笔标记转换为 PDF 批注
- 在复习模式中学习或导出到 Anki
关键点:标记是在纸质书上完成的,PDF 中只是图像,不是真正的 PDF 批注。
场景二:老师的标注讲义
老师分发的 PDF 讲义中用彩色文字标注了重点:
- 获取 PDF 讲义(扫描版或图片版)
- 使用彩色文字检测
- 自动识别彩色标记并生成批注
- 制作成复习卡片
关键点:彩色文字是 PDF 图像的一部分,不是可选择的文本。
🚀 使用批量挖空
- 打开 PDF 文档
- 点击工具栏的 "批量挖空" 按钮

- 填写配置参数

表单参数说明:
- 检测类型
选择要检测的内容类型(可多选):
| 类型 | 说明 | 适用场景 | 识别方式 |
|---|---|---|---|
| 高亮区域 | 检测 PDF 中的高亮标记区域 | 扫描件、拍照件中的荧光笔标记 | 基于颜色和形状特征识别 |
| 彩色文字 | 检测彩色文字内容 | 手写笔记、彩色标记 | 基于文字颜色识别 |
- 颜色范围配置
高亮颜色 - 选择要检测的高亮颜色范围(可多选):
| 颜色 | 色相范围 | 说明 |
|---|---|---|
| 🔴 红色 | 0-15, 345-360 | 红色荧光笔 |
| 🟠 橙色 | 15-45 | 橙色荧光笔 |
| 🟡 黄色 | 45-60 | 黄色荧光笔(最常用) |
| 🟢 绿色 | 60-150 | 绿色荧光笔 |
| 🔵 青色 | 150-180 | 青色荧光笔 |
| 🔵 蓝色 | 180-270 | 蓝色荧光笔 |
| 🟣 紫色 | 270-345 | 紫色荧光笔 |
自定义颜色范围:可以输入自定义的色相范围,格式:30-50 或 20-80,90-120,支持多个范围组合。
彩字颜色 - 选择要检测的彩色文字颜色范围(可多选):
| 颜色 | 色相范围 | 说明 |
|---|---|---|
| 🔴 红色 | 0-15, 345-360 | 红色文字 |
| 🟠 橙色 | 15-45 | 橙色文字 |
| 🟡 黄色 | 45-60 | 黄色文字 |
| 🟢 绿色 | 60-150 | 绿色文字 |
| 🔵 青色 | 150-180 | 青色文字 |
| 🔵 蓝色 | 180-270 | 蓝色文字 |
| 🟣 紫色 | 270-345 | 紫色文字 |
- 最小面积配置
用于过滤掉过小的检测区域,避免误识别。
| 配置项 | 范围 | 默认值 | 建议值 |
|---|---|---|---|
| 高亮最小面积 | 10-1000 像素 | 50 像素 | 低分辨率(<150 DPI): 10-30 像素 中分辨率(150-300 DPI): 30-100 像素 高分辨率(>300 DPI): 100-300 像素 |
| 彩字最小面积 | 1-1000 像素 | 5 像素 | 小字体: 1-10 像素 中字体: 10-50 像素 大字体: 50-200 像素 |
- 页面范围
指定要处理的页面范围:
| 格式 | 示例 | 说明 |
|---|---|---|
| 单页 | 5 | 只处理第 5 页 |
| 连续页 | 1-10 | 处理第 1 到第 10 页 |
| 多个单页 | 1, 3, 5 | 只处理第 1、3、5 页 |
| 多个范围 | 1-5, 8, 10-12 | 处理第 1-5 页、第 8 页和第 10-12 页 |
| 留空 | - | 处理全部页面 |
- 开始识别
配置好所有参数,点击 "开始识别" 按钮,等待识别完成。识别过程可能需要几分钟,取决于页面数量和图像质量。
识别完成后:
- 自动生成 PDF 批注(挖空类型)
- 批注位置对应检测到的高亮或彩字区域
- 这些批注可以在侧边栏查看和管理
- 可以在复习模式中使用
- 支持编辑、删除、导出到 Anki

重要:生成的是真正的 PDF 批注,不再只是图像中的视觉标记。这意味着你可以:
- 在复习模式中隐藏答案进行自测
- 导出到 Anki 制作闪卡
- 添加笔记和标签
- 与思维导图节点关联
🎓 高级技巧
提高识别准确率
优化扫描质量
- 使用高分辨率扫描(≥300 DPI)
- 确保光线均匀,避免阴影
- 保持页面平整,避免褶皱
- 使用白色背景
调整检测参数
- 根据实际标记颜色选择颜色范围
- 调整最小面积过滤噪点
- 先在小范围测试,再批量处理
- 多次尝试不同参数组合
处理特殊情况
荧光笔颜色不标准
- 使用自定义颜色范围
- 可以用取色工具获取色相值
- 适当扩大颜色范围
背景有干扰
- 提高最小面积阈值
- 使用图像编辑软件预处理
- 清理背景噪点
文字过小或过大
- 调整彩字最小面积
- 分批处理不同字号的内容
- 使用不同参数多次识别
批量处理策略
分批处理
- 先处理一小部分页面测试
- 根据结果调整参数
- 再批量处理全部页面
分类处理
- 按颜色分批识别
- 不同颜色对应不同知识类型
- 便于后续分类复习
增量处理
- 新增标记后单独识别新页面
- 避免重复识别已处理的内容
- 提高处理效率
📝 后续操作
编辑批注
识别生成的批注可以像普通批注一样编辑:
- 点击批注打开编辑器
- 修改挖空内容
- 添加笔记和提示
- 调整批注位置和样式
复习模式
使用复习模式学习批量生成的批注:
- 进入 PDF 复习模式
- 挖空内容会被隐藏
- 点击显示答案
- 评估记忆程度并按间隔重复算法复习
这就是批量挖空的核心价值:让扫描版 PDF 中的标记也能像手动添加的批注一样,在复习模式中使用。
导出到 Anki
将批量生成的批注导出为 Anki 卡片:
- 在侧边栏选择批注
- 点击 "导出到 Anki"
- 选择牌组和模板
- 导入到 Anki 进行复习
提示:批量识别的批注会自动标记为挖空类型,导出时会生成填空题格式的 Anki 卡片。
最佳实践
- 获取已标记的 PDF(扫描版教材、标注讲义等)
- 导入 GuruMind
- 小范围测试识别参数(如先处理 1-2 页)
- 根据测试结果调整参数
- 批量识别全部页面
- 检查并编辑识别结果
- 在复习模式中学习或导出到 Anki
