MinerU

2天前发布 4 0 0

A high-quality tool for convert PDF to Markdown and JSON.一站式开源高质量数据提取工具,将PDF转换成Markdown和JSON格式

收录时间:
2025-06-05

MinerU 是一款将 PDF 转换为机器可读格式(如 Markdown、JSON)的工具,支持将内容轻松提取为任意格式。MinerU 诞生于 InternLM 的预训练过程中,我们专注于解决科学文献中的符号转换问题,希望为大模型时代的技术发展贡献力量。与知名商业产品相比,MinerU 仍处于成长阶段。

主要功能
  • 移除页眉、页脚、脚注、页码等,确保语义连贯。
  • 按人类阅读顺序输出文本,适用于单栏、多栏及复杂版面。
  • 保留原文档结构,包括标题、段落、列表等。
  • 提取图片、图片说明、表格、表格标题及脚注。
  • 自动识别文档中的公式并转换为 LaTeX 格式。
  • 自动识别表格并转换为 HTML 格式。
  • 自动检测扫描版 PDF 和乱码 PDF 并启用 OCR 功能。
  • OCR 支持 84 种语言的检测与识别。
  • 支持多种输出格式,如多模态和 NLP Markdown、按阅读顺序排序的 JSON,以及丰富的中间格式。
  • 支持布局可视化、文本块可视化等多种可视化结果,高效确认输出质量。
  • 支持纯 CPU 环境运行,也支持 GPU(CUDA)/NPU(CANN)/MPS 加速。
  • 兼容 Windows、Linux 和 Mac 平台。

数据统计

相关导航