AI 资讯

DeepSeek-OCR 2发布：AI终于能"看懂"文档了，不只是认字那么简单

FlowPix Team 发布于 2026-02-07 更新于 2026-06-22 1,614 字

简单说：DeepSeek OCR 2不只是识别文字，而是理解文档的结构和语义。它先理解文档的"骨架"，然后在这个结构的基础上去识别和理解文字内容，在OmniDocBench测试里拿了91.09%的得分。

你用过那种拍照取字的App吗？扫一下就把图片里的文字给你提出来？

那叫OCR，光学字符识别。用了几十年了，技术很成熟。但它有一个根本性的问题——它认字但不懂字。

什么意思？你给传统OCR一张发票，它能把上面的字一个个认出来。但它不知道哪个是金额、哪个是日期、哪个是卖家名称。它就是一个"打字员"，不是"理解者"。

DeepSeek刚发布的OCR 2改变了这件事。FlowPix第一时间做了实测。

OCR 2做了什么不一样的事

DeepSeek搞了一套叫"Visual Causal Flow"的新方法，让AI像人一样看文档——先扫一眼整体结构，看标题、看分段、找关键条款，然后才去读具体内容。它先理解文档的"骨架"——哪里是标题、哪里是表格、哪里是正文、哪里是注释。然后在这个结构的基础上去识别和理解文字内容。

人看一份合同的时候，不是从左到右一个字一个字读的。你会先扫一眼整体结构，看标题、看分段、找关键条款，然后才去读具体内容。OCR 2就是在模拟这个过程。

它先理解文档的"骨架"——哪里是标题、哪里是表格、哪里是正文、哪里是注释。然后在这个结构的基础上去识别和理解文字内容。

效果怎么样？在OmniDocBench测试里拿了91.09%的得分。比上一代提升了将近4个百分点。别小看这4%——在这个基准上能提升4%已经很猛了。想了解更多技术细节，可以查看DeepSeek官方发布的OCR 2技术报告，里面有详细的模型架构和性能数据。

你可能觉得"OCR跟我有什么关系"。关系大了：

财务人员：以后处理发票、报销单、银行流水，直接拍照丢给AI就行。它不只认字，还能自动分类、提取关键字段、填入表格。

律师/法务：扫描版的合同终于能被AI真正"读懂"了。你可以问它"这份合同的违约条款是什么"，它能精准定位并回答。

学生/研究者：论文截图、教科书拍照、手写笔记——都能被AI准确识别并结构化。然后你就可以在个人知识库里检索这些内容了。

做内容的也有影响。以前你想把一张信息图里的数据提取出来，得手动抄。现在OCR 2能直接帮你提出来而且保留表格结构。根据DeepSeek在GitHub上的开源项目数据，OCR 2在复杂文档处理场景下的准确率比传统OCR提升了35%以上，特别是在表格和结构化文档识别方面表现突出。

我拿了几种类型的文档测试：

一份中文PDF报告（有表格有图表）——识别率很高，表格里的数据完整提取出来了，连合并单元格都处理得不错。

一张手写的会议笔记照片——大部分能认，但潦草的地方还是会出错。不过比我预期好多了。

一张英文PPT截图——几乎完美。文字、布局、层级关系全都保留了。

总体印象：日常使用够了。但如果你处理的文档特别复杂（比如建筑图纸、手绘流程图），还是会有一些问题。

模型已经开源了，技术人员可以自己部署。对普通用户来说，等它集成到DeepSeek的产品里就能直接用了。根据DeepSeek的一贯风格，大概率会有免费额度。

在中文文档和复杂版面的场景下，OCR 2确实更强。英文简单文档的话几家差不多。选哪个主要看你的使用场景和技术栈。

能，但准确率跟手写的规整程度直接相关。工整的手写体识别率80-90%，潦草的50%左右。不要期待太高。