办公助手

gmft

gmft是一个用于将PDF中的表格转换为多种格式的工具包。它轻量级、模块化且性能优越。gmft依赖于微软的Table Transformers,这是众多替代方案中性能最好、最可靠的。gmft无需GPU即...

标签:

gmft官网

gmft是一个用于将PDF中的表格转换为多种格式的工具包。它轻量级、模块化且性能优越。gmft依赖于微软的Table Transformers,这是众多替代方案中性能最好、最可靠的。gmft无需GPU即可运行,具有高吞吐量,并且安装简便,仅需一行代码即可完成安装。它使用PyPDFium2,因其高吞吐量和宽松的许可证而受到青睐。gmft使用的训练模型TATR在多样化的数据集PubTables-1M上训练,具有高可靠性。

gmft是什么?

gmft是一款轻量级、高性能的PDF表格提取工具,它能够将PDF文档中的表格数据快速、高效地转换为多种格式,例如Pandas DataFrame。gmft基于微软的Table Transformers模型,无需GPU即可运行,并具有高吞吐量,即使处理大量PDF文件也能保持高效。它使用PyPDFium2库进行PDF处理,确保了其速度和兼容性。

gmft的主要功能

gmft的主要功能是将PDF表格转换为其他格式,并提供丰富的附加功能,例如:

  • 支持多种输出格式,包括Pandas DataFrame等。
  • 能够输出表格的文本内容和位置信息。
  • 可以输出表格的裁剪图像。
  • 支持表格标题的提取。
  • 无需OCR,即可处理图像和扫描PDF。
  • 高吞吐量,快速处理大量PDF文件。
  • 可配置性强,支持自定义模型和提取方法。

如何使用gmft

gmft的使用非常简单,主要步骤如下:

  1. 安装: 使用命令pip install gmft安装gmft。
  2. 导入模块: 在Python脚本中导入必要的模块,例如CroppedTable,TableDetector,AutoTableFormatter等。
  3. 创建文档对象: 使用PyPDFium2Document创建PDF文档对象。
  4. 表格检测: 使用TableDetector遍历文档页面,检测表格。
  5. 表格格式化: 使用AutoTableFormatter格式化检测到的表格。
  6. 数据转换: 将提取的表格数据转换为所需格式,例如Pandas DataFrame。
  7. 关闭文档: 使用close()方法关闭文档对象释放资源。

gmft产品价格

gmft是一个开源工具,完全免费使用。

gmft常见问题

gmft支持哪些类型的PDF文件? gmft支持各种类型的PDF文件,包括图像型PDF和扫描PDF,无需OCR即可进行表格提取。

gmft的性能如何? gmft基于高效的Table Transformers模型和PyPDFium2库,具有高吞吐量和优越的性能,能够快速处理大量PDF文件。

gmft的输出格式有哪些? gmft支持多种输出格式,最常用的就是Pandas DataFrame,方便用户进行后续的数据分析。当然,它也支持输出表格的文本和位置信息以及裁剪图像。

gmft官网入口网址

https://github.com/conjuncts/gmft

OpenI小编发现gmft网站非常受用户欢迎,请访问gmft网址入口试用。

数据统计

相关导航

暂无评论

暂无评论...