NuExtract3发布：开源4B视觉语言模型，支持Markdown、OCR和结构化提取（可自部署）

在 Reddit Machine Learning 上阅读原文 (Read Original)

AI 总结 (Summary)

Numind发布了基于Qwen3.5-4B的4B参数视觉语言模型NuExtract3，采用Apache-2.0许可。该模型专为从PDF、截图、表格、发票等复杂文档中提取信息而设计，支持Markdown转换、结构化数据提取、处理表格和布局密集页面。模型训练于8xH100节点3天，擅长长文档处理，推荐逐页处理以获得最佳效果。最低仅需4GB显存即可部署，提供Safetensors、GGUF、MLX权重及多种量化版本，兼容vLLM、SGLang、llama.cpp等推理框架。

背景知识 (Background)

该模型在文档信息提取领域具有实用价值，开源且低资源需求使其易于部署，对于需要自托管文档处理管线的用户极具吸引力。作者提供了详尽文档和多种量化支持，社区反馈积极。评分8分，扣除2分因模型尚未发布论文，且4B规模在极端复杂场景下可能受限。