返回主页 (Back to Dashboard)
开源视觉语言模型文档信息提取Markdown生成OCR结构化数据提取自部署
2026-05-22 8

NuExtract3发布:开源4B视觉语言模型,支持Markdown、OCR和结构化提取(可自部署)

Reddit Machine Learning 上阅读原文 (Read Original)

AI 总结 (Summary)

Numind发布了基于Qwen3.5-4B的4B参数视觉语言模型NuExtract3,采用Apache-2.0许可。该模型专为从PDF、截图、表格、发票等复杂文档中提取信息而设计,支持Markdown转换、结构化数据提取、处理表格和布局密集页面。模型训练于8xH100节点3天,擅长长文档处理,推荐逐页处理以获得最佳效果。最低仅需4GB显存即可部署,提供Safetensors、GGUF、MLX权重及多种量化版本,兼容vLLM、SGLang、llama.cpp等推理框架。

背景知识 (Background)

该模型在文档信息提取领域具有实用价值,开源且低资源需求使其易于部署,对于需要自托管文档处理管线的用户极具吸引力。作者提供了详尽文档和多种量化支持,社区反馈积极。评分8分,扣除2分因模型尚未发布论文,且4B规模在极端复杂场景下可能受限。