MinerU

5个月前发布 7 0 0

收录时间：

2024-11-21 22:00:26

更新时间：

2025-05-01 15:25:14

线路一优惠线路 MinerU 手机查看

Ai开源项目 # MinerU # 数据提取

MinerU

MinerU简介 MinerU是一款将PDF转化为机器可读格式的工具（如markdown、json），可以很方便地抽取为任意格式。 MinerU诞生于书生-浦语的预训练过程中。MinerU能保留原PDF文档结构，提取文字、图片、图片描述、表格等内容，自动识别并转换LaTeX格式、HTML格式，自动OCR，支持多语言。MinerU主要功能：删除页眉、页脚、脚注、页码等元素，确保语义连贯输出符合人类阅读顺序的文本，适用于单栏、多栏及复杂排版保留原文档的结构，包括标题、段落、列表等提取图像、图片描述、表格、表格标题及脚注自动识别并转换文档中的公式为LaTeX格式自动识别并转换文档中的表格为HTML格式自动检测扫描版PDF和乱码PDF，并启用OCR功能OCR支持84种语言的检测与识别支持多种输出格式，如多模态与NLP的Markdown、按阅读顺序排序的JSON、含有丰富信息的中间格式等支持多种可视化结果，包括layout可视化、span可视化等，便于高效确认输出效果与质检支持CPU和GPU环境兼容Windows、Linux和Mac平台MinerU核心功能与优势：Magic-PDF模块：专注于PDF文档处理，能够智能识别并去除非正文内容如页眉、页脚，同时精准保留标题、段落、列表等结构，支持图片、表格、公式的提取，确保转换后的Markdown格式既准确又易于阅读。Magic-Doc模块：针对网页和电子书，能够从网页中提取正式内容。多模态内容处理：MinerU不仅处理文本，还能有效提取和处理图像、表格、公式等多模态内容。多语言支持：MinerU支持包括繁简中文在内的84种语言。格式多样：支持多种输出格式和可视化结果，适配 CPU 和 GPU 环境，兼容多平台。自动识别转换：识别并转换公式为 LaTeX 格式，表格为 LaTeX 或 HTML 格式，还能自动检测并启用 OCR 功能，。MinerU只要应用于学术研究、市场分析、法律文档处理、知识管理等领域，使得我们能高效地从大量文档中提取关键信息，从而加速数据准备过程，为大模型训练、知识图谱构建等提供高质量的数据支持。MinerU由上海人工智能实验室（上海ai实验室）大模型数据基座OpenDataLab团队开发，并在2024年的WAIC（世界人工智能大会）上发布，迅速在GitHub上获得关注，成为Python的热门项目。

数据统计

数据评估

MinerU浏览人数已经达到7，如你需要查询该站的相关权重信息，可以点击"5118数据""爱站数据""Chinaz数据"进入；以目前的网站数据参考，建议大家请以爱站数据为准，更多网站价值评估因素如：MinerU的访问速度、搜索引擎收录以及索引量、用户体验等；当然要评估一个站的价值，最主要还是需要根据您自身的需求以及需要，一些确切的数据则需要找MinerU的站长进行洽谈提供。如该站的IP、PV、跳出率等！

特别声明

本站400AI工具导航提供的MinerU都来源于网络，不保证外部链接的准确性和完整性，同时，对于该外部链接的指向，不由400AI工具导航实际控制，在2024年11月21日 22:00收录时，该网页上的内容，都属于合规合法，后期网页的内容如出现违规，可以直接联系网站管理员进行删除，400AI工具导航不承担任何责任。

400AI工具导航致力于优质、实用的网络站点资源收集与分享！本文地址https://www.400rc.com/sites/1173.html转载请注明

400AI工具导航

ai人工智能,gpt人工智能,人工智能培训,专注ai人工智能!

加入收藏夹

按 Ctrl+D 可收藏本网页，方便快速打开使用。

设为首页

浏览器 设置页面 > 启动时 选项下 打开特定网页或一组网页。

339K

访问人数

30K

收录网址

283

收录文章

1.6K

运行天数

MinerU

数据统计

数据评估

相关导航

Kolors Virtual Try-On

LinkedIn_AIHawk

Animagine XL 3.1

SoraWebui

WhisperFusion

MagicEdit

Lumiere

易魔声EmotiVoice

加入收藏夹

设为首页