多墨智能是一个实验性 Demo,支持生成文档、流程图、思维导图。
ViTLP是一个视觉引导的生成文本布局预训练模型,旨在提高文档智能处理的效率和准确性。该模型结合了OCR文本定位和识别功能,能够在文档图像上进行快速准确的文本检测和识别。ViTLP模型的预训练版本ViTLP-medium(380M参数)在计算资源和预训练数据集规模的限制下,提供了一个平衡的解决方案,既保证了模型的性能,又优化了推理速度和内存使用。ViTLP的推理速度在Nvidia 4090上处理一页文档图像通常在5到10秒内,与大多数OCR引擎相比具有竞争力。
庖丁科技是一家成立于2017年的金融科技公司,旨在将最前沿的人工智能技术与金融垂直领域进行深度融合,提供多维度深层结构化的基础技术研究及应用。
一个基于自研文档智能模型(DocMind)+大语言模型技术的企业级AI数字人员工平台。