Skip to content

🎯 批量挖空

批量挖空功能可以自动识别 PDF 中已有的高亮区域和彩色文字标记,将它们转换为 PDF 批注,从而可以在复习模式中使用或导出为 Anki 卡片。这对于扫描版教材、标注过的讲义等场景特别有用。

💡 什么是批量挖空?

批量挖空是一个智能识别工具,专门用于处理已经包含高亮或彩色标记的 PDF 文档(如扫描版教材、标注过的讲义等)。它能够:

  • 自动检测 PDF 图像中的高亮标记区域
  • 识别彩色文字(如红色、蓝色等重点标记)
  • 将检测到的区域转换为 PDF 批注
  • 使这些内容可以在复习模式中使用,或导出为 Anki 卡片

核心价值:将 PDF 中已有的视觉标记(高亮、彩字)转换为可交互的批注,让扫描版材料也能享受数字化学习工具的便利。

📚 使用场景

场景一:扫描版教材

你有一本纸质教材,已经用荧光笔标记了重点:

  1. 扫描或拍照教材页面生成 PDF
  2. 导入 PDF 到 GuruMind
  3. 运行批量挖空识别
  4. 自动将荧光笔标记转换为 PDF 批注
  5. 在复习模式中学习或导出到 Anki

关键点:标记是在纸质书上完成的,PDF 中只是图像,不是真正的 PDF 批注。

场景二:老师的标注讲义

老师分发的 PDF 讲义中用彩色文字标注了重点:

  1. 获取 PDF 讲义(扫描版或图片版)
  2. 使用彩色文字检测
  3. 自动识别彩色标记并生成批注
  4. 制作成复习卡片

关键点:彩色文字是 PDF 图像的一部分,不是可选择的文本。

🚀 使用批量挖空

  1. 打开 PDF 文档
  2. 点击工具栏的 "批量挖空" 按钮
  1. 填写配置参数

表单参数说明:

  • 检测类型

选择要检测的内容类型(可多选):

类型说明适用场景识别方式
高亮区域检测 PDF 中的高亮标记区域扫描件、拍照件中的荧光笔标记基于颜色和形状特征识别
彩色文字检测彩色文字内容手写笔记、彩色标记基于文字颜色识别
  • 颜色范围配置

高亮颜色 - 选择要检测的高亮颜色范围(可多选):

颜色色相范围说明
🔴 红色0-15, 345-360红色荧光笔
🟠 橙色15-45橙色荧光笔
🟡 黄色45-60黄色荧光笔(最常用)
🟢 绿色60-150绿色荧光笔
🔵 青色150-180青色荧光笔
🔵 蓝色180-270蓝色荧光笔
🟣 紫色270-345紫色荧光笔

自定义颜色范围:可以输入自定义的色相范围,格式:30-5020-80,90-120,支持多个范围组合。

彩字颜色 - 选择要检测的彩色文字颜色范围(可多选):

颜色色相范围说明
🔴 红色0-15, 345-360红色文字
🟠 橙色15-45橙色文字
🟡 黄色45-60黄色文字
🟢 绿色60-150绿色文字
🔵 青色150-180青色文字
🔵 蓝色180-270蓝色文字
🟣 紫色270-345紫色文字
  • 最小面积配置

用于过滤掉过小的检测区域,避免误识别。

配置项范围默认值建议值
高亮最小面积10-1000 像素50 像素低分辨率(<150 DPI): 10-30 像素
中分辨率(150-300 DPI): 30-100 像素
高分辨率(>300 DPI): 100-300 像素
彩字最小面积1-1000 像素5 像素小字体: 1-10 像素
中字体: 10-50 像素
大字体: 50-200 像素
  • 页面范围

指定要处理的页面范围:

格式示例说明
单页5只处理第 5 页
连续页1-10处理第 1 到第 10 页
多个单页1, 3, 5只处理第 1、3、5 页
多个范围1-5, 8, 10-12处理第 1-5 页、第 8 页和第 10-12 页
留空-处理全部页面
  1. 开始识别

配置好所有参数,点击 "开始识别" 按钮,等待识别完成。识别过程可能需要几分钟,取决于页面数量和图像质量。

识别完成后:

  • 自动生成 PDF 批注(挖空类型)
  • 批注位置对应检测到的高亮或彩字区域
  • 这些批注可以在侧边栏查看和管理
  • 可以在复习模式中使用
  • 支持编辑、删除、导出到 Anki

重要:生成的是真正的 PDF 批注,不再只是图像中的视觉标记。这意味着你可以:

  • 在复习模式中隐藏答案进行自测
  • 导出到 Anki 制作闪卡
  • 添加笔记和标签
  • 与思维导图节点关联

🎓 高级技巧

提高识别准确率

优化扫描质量

  1. 使用高分辨率扫描(≥300 DPI)
  2. 确保光线均匀,避免阴影
  3. 保持页面平整,避免褶皱
  4. 使用白色背景

调整检测参数

  1. 根据实际标记颜色选择颜色范围
  2. 调整最小面积过滤噪点
  3. 先在小范围测试,再批量处理
  4. 多次尝试不同参数组合

处理特殊情况

荧光笔颜色不标准

  • 使用自定义颜色范围
  • 可以用取色工具获取色相值
  • 适当扩大颜色范围

背景有干扰

  • 提高最小面积阈值
  • 使用图像编辑软件预处理
  • 清理背景噪点

文字过小或过大

  • 调整彩字最小面积
  • 分批处理不同字号的内容
  • 使用不同参数多次识别

批量处理策略

分批处理

  1. 先处理一小部分页面测试
  2. 根据结果调整参数
  3. 再批量处理全部页面

分类处理

  1. 按颜色分批识别
  2. 不同颜色对应不同知识类型
  3. 便于后续分类复习

增量处理

  1. 新增标记后单独识别新页面
  2. 避免重复识别已处理的内容
  3. 提高处理效率

📝 后续操作

编辑批注

识别生成的批注可以像普通批注一样编辑:

  1. 点击批注打开编辑器
  2. 修改挖空内容
  3. 添加笔记和提示
  4. 调整批注位置和样式

复习模式

使用复习模式学习批量生成的批注:

  1. 进入 PDF 复习模式
  2. 挖空内容会被隐藏
  3. 点击显示答案
  4. 评估记忆程度并按间隔重复算法复习

这就是批量挖空的核心价值:让扫描版 PDF 中的标记也能像手动添加的批注一样,在复习模式中使用。

导出到 Anki

将批量生成的批注导出为 Anki 卡片:

  1. 在侧边栏选择批注
  2. 点击 "导出到 Anki"
  3. 选择牌组和模板
  4. 导入到 Anki 进行复习

提示:批量识别的批注会自动标记为挖空类型,导出时会生成填空题格式的 Anki 卡片。

最佳实践

  1. 获取已标记的 PDF(扫描版教材、标注讲义等)
  2. 导入 GuruMind
  3. 小范围测试识别参数(如先处理 1-2 页)
  4. 根据测试结果调整参数
  5. 批量识别全部页面
  6. 检查并编辑识别结果
  7. 在复习模式中学习或导出到 Anki

基于 Flutter 和 Rust 构建