开云体育

DeepSeek最新突破:用更少的“视觉符号实现高效文档识别开云体育官方

2025-10-27
浏览次数:
返回列表

  开云体育[永久网址:363050.com]成立于2022年在中国,是华人市场最大的线上娱乐服务供应商而且是亚洲最大的在线娱乐博彩公司之一。包括开云、开云棋牌、开云彩票、开云电竞、开云电子、全球各地赛事、动画直播、视频直播等服务。开云体育,开云体育官方,开云app下载,开云体育靠谱吗,开云官网,欢迎注册体验!

DeepSeek最新突破:用更少的“视觉符号实现高效文档识别开云体育官方

  当下的大型语言模型处理长文本时遇到了一个棘手的难题——计算量会随着文本长度呈指数级飙升。来自DeepSeek-AI的研究团队提出了一个巧妙的解决思路:既然图片能够承载大量信息,为何不将文字转换成图像来压缩呢?这个想法催生了DeepSeek-OCR模型。

  传统观念认为一图胜千言,但在人工智能领域,这个比例到底是多少一直没有明确答案。DeepSeek-OCR团队通过实验发现了一些令人振奋的数字:当文本与图像的压缩比例控制在10倍以内时,模型能够以97%的准确率还原原始文字;即便将压缩比提升到20倍,准确率仍能保持在60%左右。这个发现不仅为长文本处理开辟了新路径,也为研究大语言模型的记忆遗忘机制提供了宝贵线索。

  除了理论价值,DeepSeek-OCR在实际应用中也展现出强大实力。在OmniDocBench基准测试中,它仅用100个视觉token就超越了需要256个token的GOT-OCR2.0模型,同时用不到800个视觉token的表现就优于平均需要6000多个token的MinerU2.0系统。更令人印象深刻的是,在生产环境中,单台A100-40G显卡每天可以处理超过20万页文档,为大型语言模型和视觉语言模型生成训练数据。这种效率的提升意味着文档处理的成本大幅降低,同时速度显著加快。

  人类大脑处理图像的速度远快于阅读文字,这种天然优势启发了研究团队。考虑这样一个场景:当你看到一页密密麻麻的文字时,眼睛只需一扫就能捕捉大致内容,而计算机却需要逐字逐句处理每个字符。DeepSeek-OCR模仿人类视觉系统的工作方式,将文字以图像形式呈现给模型,从而大幅减少需要处理的信息单元数量。

  具体来说,研究团队设计了一套双层架构。第一层是DeepEncoder,充当视觉信息的压缩器。这个压缩器由两个关键组件串联而成:一个负责局部细节感知的80M参数SAM模块,以及一个掌握全局知识的300M参数CLIP模块。两者之间通过一个16倍压缩器连接,就像一个漏斗,将大量视觉信息精炼成少量高质量的视觉令牌。第二层是DeepSeek3B-MoE解码器,它接收这些压缩后的视觉令牌,并将其还原回原始文字。

  这套系统的巧妙之处在于平衡了效率与准确性。假设输入一张1024×1024像素的图像,DeepEncoder首先将其分割成4096个小块进行初步处理。由于第一阶段主要使用窗口注意力机制且参数量较小,计算负担并不重。随后,压缩器将这4096个令牌压缩到256个,才送入耗费资源的全局注意力模块。这种先粗后精的策略确保了即便处理高分辨率图像,显存占用和计算量都保持在可控范围内。

  为了验证不同压缩比例下的性能边界,研究团队在Fox基准测试上进行了系统实验。他们选取了包含600至1300个文本token的英文文档,分别测试了64和100个视觉token的表现。结果显示,当文档包含600至700个文本token时,使用64个视觉token的压缩比约为10.5倍,准确率达到96.5%;而使用100个视觉token时,压缩比降至6.7倍,准确率提升到98.5%。然而,当文档文字量增加到1200至1300个token时,64个视觉token的准确率下降至59.1%,而100个视觉token仍能保持87.1%的准确率。这些数据揭示了一个重要规律:10倍压缩是一个关键阈值,超过这个比例,模型性能会显著下降。

  现有的视觉编码器普遍存在一些难以调和的矛盾。以Vary系列为代表的双塔架构虽然能灵活控制参数和激活内存,但需要对图像进行两次预处理,部署复杂且难以进行流水线并行训练。InternVL2.0采用的分块方法通过将图像切割成小片并行计算,确实降低了高分辨率下的激活内存,可是由于原生编码器分辨率较低(通常低于512×512),大图像会被过度碎片化,导致视觉token数量激增。Qwen2-VL使用的自适应分辨率编码遵循NaViT范式,能灵活处理各种尺寸的图像,但面对大图时激活内存消耗巨大,甚至可能导致GPU显存溢出,而且训练时需要超长的序列长度来容纳大量token。

  面对这些困境,DeepEncoder另辟蹊径。其核心思想是将视觉感知和知识提取两个功能分离,分别由擅长局部细节的窗口注意力模块和擅长全局理解的密集注意力模块负责。为了充分利用已有的预训练成果,团队选择了SAM-base作为感知模块的主体,CLIP-large作为知识模块的基础。这两个模块并非简单堆叠,而是通过一个精心设计的16倍下采样压缩器串联起来。

  压缩器采用两层卷积结构,每层的卷积核大小为3,步长为2,填充为1,通道数从256逐步增加到1024。这种设计的妙处在于,它在大幅减少token数量的同时保留了关键信息。以1024×1024图像为例,经过16像素的分块后,初始产生4096个patch token。由于前半部分编码器以窗口注意力为主且仅有80M参数,激活内存消耗可以接受。在进入全局注意力阶段前,压缩器将token数量削减到256个,使得整体激活内存得到有效控制。

  动态分辨率模式则是将两种原生分辨率组合使用。例如Gundam模式由n个640×640的局部视图(相当于分块)加上一个1024×1024的全局视图构成,token数量计算为n×100+256,其中n被控制在2至9之间。这种设计的灵感来自InternVL2.0的分块方法,但由于DeepEncoder的原生分辨率较大,图像不会被过度碎片化。值得一提的是,对于宽高都小于640像素的图像,n会被设为0,此时Gundam模式会退化为Base模式,避免不必要的计算。Gundam-master模式则采用更高的分辨率组合(1024×1024局部视图+1280×1280全局视图),通过对已训练模型继续训练获得,主要用于处理超高分辨率文档如报纸图像。

  训练一个强大的视觉语言模型,关键在于准备丰富多样且高质量的数据。DeepSeek-OCR的训练数据可以分为四大类,每一类都经过精心设计和处理。

  OCR 1.0数据构成了模型的基础能力。研究团队从互联网上收集了3000万页涵盖约100种语言的PDF文档,其中中英文各占2500万页,其他语言占500万页。针对这些文档,团队创建了两种标注:粗标注和细标注。粗标注直接使用fitz工具从PDF中提取文字,主要目的是让模型学会识别光学文字,尤其是小语种文字。细标注则更为考究,包含中英文各200万页,使用先进的版面模型(如PP-DocLayout)和OCR模型(如MinerU和GOT-OCR2.0)标注出检测框和文字内容的交错数据。对于小语种,团队发现版面模型具有一定的泛化能力,但识别模型不够理想,因此采用了飞轮效应的策略:先用fitz创建小块数据训练一个GOT-OCR2.0模型,再用这个模型标注经过版面处理后的小块,构建出60万条样本。

  细标注数据的呈现格式颇具特色。每段文字前会标注其在原图中的坐标和标签,所有坐标都归一化到1000个bins中。这种格式就像给每段文字配上了身份证,模型不仅知道它说了什么,还知道它在哪里说的。另外,团队还收集了300万页Word文档,直接提取内容构建无版面的高质量图文对,这部分数据对公式和HTML格式表格的处理尤为有益。对于自然场景OCR,模型主要支持中英文,图像来源于LAION和Wukong数据集,使用PaddleOCR标注,中英文各1000万条样本。与文档OCR类似,场景OCR也可以通过提示词控制是否输出检测框。

  OCR 2.0数据将模型能力扩展到更复杂的人工图像解析任务。图表数据方面,团队借鉴OneChart的做法,使用pyecharts和matplotlib渲染了1000万张图像,主要包括折线图、柱状图、饼图和组合图等常用类型。与OneChart采用字典格式不同,DeepSeek-OCR将图表解析定义为图像到HTML表格的转换任务,这种格式更节省token。化学公式数据利用PubChem的SMILES格式作为源,用RDKit渲染成图像,构建了500万对图文数据。平面几何图像的生成遵循Slow Perception的方法,使用感知标尺尺寸为4来建模每条线段。为了增加渲染数据的多样性,团队引入了几何平移不变数据增强——同一个几何图形在原图中平移,对应的标注在坐标系中居中绘制。基于此,团队构建了100万条平面几何解析数据。

  通用视觉数据虽然占比不高(仅20%),但对于保留模型的通用视觉接口至关重要。DeepEncoder能够受益于CLIP的预训练收益,且有足够参数容纳通用视觉知识,因此团队也准备了相应的数据,遵循DeepSeek-VL2的做法生成了描述、检测和定位等任务的数据。这部分数据的引入主要是为了给未来感兴趣的研究者留下拓展空间,让他们可以在DeepSeek-OCR的基础上方便地推进通用视觉任务。

  纯文本数据则确保模型的语言能力不会退化。团队引入了10%的内部纯文本预训练数据,所有数据都处理成8192 token的长度,这也是DeepSeek-OCR的序列长度。综合来看,训练DeepSeek-OCR时,OCR数据占70%,通用视觉数据占20%,纯文本数据占10%,这个比例经过精心权衡,既保证了OCR能力,又不失通用性。

  DeepSeek-OCR的训练流程简洁明了,主要分为两个阶段。第一阶段是独立训练DeepEncoder,借鉴Vary的经验,使用一个紧凑的语言模型和next token预测框架。这个阶段使用所有前面提到的OCR 1.0和2.0数据,以及从LAION数据集采样的1亿条通用数据。所有数据训练2个epoch,批次大小为1280,优化器采用AdamW配合余弦退火调度器,学习率为5e-5,序列长度为4096。这个阶段的目标是让DeepEncoder学会将图像压缩成富含信息的视觉token。

  第二阶段则在HAI-LLM平台上训练完整的DeepSeek-OCR模型。整个模型使用流水线个部分:DeepEncoder占两部分,解码器占两部分。对于DeepEncoder,SAM和压缩器被视为视觉tokenizer放在PP0并冻结参数,而CLIP部分被视为输入嵌入层放在PP1且解冻权重进行训练。对于语言模型部分,由于DeepSeek3B-MoE有12层,每6层分别放在PP2和PP3上。团队使用20个节点(每个节点8块A100-40G GPU)进行训练,数据并行度为40,全局批次大小为640。优化器同样采用AdamW,但使用基于步数的调度器,初始学习率为3e-5。在这种配置下,纯文本数据的训练速度为每天90B token,而多模态数据的训练速度为每天70B token。这个速度意味着大规模训练是完全可行的。

  训练的巧妙之处还体现在Gundam-master模式的获得方式上。由于Gundam-master的分辨率过大,如果和其他模式一起训练会拖慢整体训练速度,因此团队选择在已训练好的DeepSeek-OCR模型基础上,用600万采样数据继续训练得到。这种策略平衡了不同模式之间的计算负载,确保训练效率最大化。

  研究团队从三个维度验证了DeepSeek-OCR的能力:视觉-文本压缩比研究、实际OCR性能测试和定性案例分析。

  这些数据传递了两个重要信息。第一,10倍压缩是一个黄金分界线,在此范围内模型可以实现接近无损的文字解码,未来有望通过文本到图像的方法实现近乎10倍的无损上下文压缩。第二,即便压缩比提升到20倍,模型仍能保持约60%的准确率,这为研究历史长上下文压缩和大语言模型的记忆遗忘机制提供了宝贵的参考数据。性能下降的原因可能有两个:一是长文档的版面更加复杂,二是在512×512或640×640分辨率下长文本变得模糊。第一个问题可以通过将文本渲染到单一版面页面解决,而第二个问题则可以看作是遗忘机制的一种特征。

  进一步分析不同文档类型的表现,团队发现有趣的规律。幻灯片类文档仅需64个token就能达到0.116的编辑距离,这可能是因为幻灯片文字量通常较少。书籍和报告类文档用100个token即可获得良好表现(0.085和0.079),结合压缩比研究的发现,这些文档的文本token多数在1000以内,视觉-文本压缩比未超过10倍。报纸类文档则需要Gundam甚至Gundam-master模式才能达到可接受的编辑距离,因为报纸的文字量通常在4000至5000 token,远超其他模式的10倍压缩能力。这些实验结果进一步验证了上下文光学压缩的边界,为视觉语言模型的token优化研究和大语言模型的上下文压缩、遗忘机制研究提供了有效参考。

  DeepSeek-OCR不仅擅长基础OCR,还具备深度解析能力——通过二次模型调用进一步解析文档内部的复杂元素。这项能力在处理金融研究报告、学术论文和化学文献时尤为实用。

  在金融报告场景中,深度解析模式可以提取图表的结构化信息。当模型识别到文档中包含图表时,会自动调用图表解析功能,将复杂的柱状图、折线图或饼图转换成HTML表格格式。这种表格化数据比原始图片更易于后续分析和处理。例如,某份欧洲房地产市场报告中的柱状图显示了2024至2027年德国、法国、意大利、西班牙和欧元区的房地产价格变化趋势,深度解析模式不仅能识别出这些国家名称,还能准确提取每个国家每年的具体数值,并以清晰的表格形式呈现。

  对于书籍和文章中的自然图像,深度解析模式可以输出详细的图像描述。当遇到一张教室场景的照片时,模型会详细描述场景布局(室内教室环境)、人物(一群孩子和一位成人)、动作(孩子们坐在地板上面向站立的女性)、服装(女性穿棕色毛衣和蓝色牛仔裤,孩子们穿着各色衣服)、背景细节(绿色墙面上的教育海报和公告板、灰色地毯、木质梳妆台、紫色豆袋椅)以及文字信息(墙上可见BIBLIOTECA字样,暗示可能是图书馆的一部分)。这种密集描述功能对于构建多模态训练数据或辅助视障人士理解图像内容都具有重要价值。

  化学文献的处理体现了DeepSeek-OCR在STEM领域的潜力。深度解析模式可以识别文档中的化学结构式,并将其转换成SMILES格式——一种用ASCII字符串表示化学结构的标准方法。例如,某篇化学专利文档展示了一个复杂的含氟有机化合物结构,模型不仅能准确识别分子中的苯环、杂环、取代基等结构单元,还能将其转换成SMILES字符串,方便后续的化学信息学处理和数据库检索。这项能力对于大规模化学文献挖掘和药物设计研究意义重大。

  平面几何图形的复制能力则展示了模型对结构化信息的理解。当遇到包含多个三角形、多边形组成的几何习题图时,深度解析模式可以识别出每条线段的端点坐标、线段类型(如边、角平分线、中线等),并以字典格式输出。每条线段使用Slow Perception方式编码,确保几何关系的准确表达。虽然由于几何图形中线段之间的依赖关系极其复杂,这项任务仍具挑战性且有很长的路要走,但初步结果已经显示了可能性。

  除了深度解析,DeepSeek-OCR还支持近100种语言的多语言识别能力。无论是阿拉伯语、僧伽罗语这样的小语种,还是复杂的混合语言文档,模型都能从容应对。与中英文文档一样,多语言数据也支持通过不同提示词控制输出带版面或不带版面的格式。这种多语言能力对于处理网络爬取的海量PDF文档至关重要,因为互联网上的内容远不止中英文两种语言。

  模型还保留了一定的通用图像理解能力,包括图像描述、目标检测、定位等功能。通过适当的提示词激活,模型可以完成诸如在图中定位老师识别图中所有物体并输出边界框用中文描述这张照片等任务。这些能力虽然不是DeepSeek-OCR的主要目标,但为未来的研究扩展预留了接口。值得注意的是,由于没有包含监督微调(SFT)阶段,模型并非聊天机器人,某些能力需要补全式提示词才能激活。

  遗忘机制是人类记忆最基本的特征之一,而上下文光学压缩方法天然地模拟了这一机制。研究团队提出了一个富有启发性的类比:人类记忆随时间衰退的规律与视觉感知随距离退化的规律惊人地相似——两者都呈现出逐步的信息丢失模式。

  设想这样一个场景:在多轮对话系统中,最近几轮的对话历史需要保持高保真度,而较早的对话则可以适当压缩。传统方法可能简单地丢弃超过一定轮次的历史,但这会导致信息断层。上下文光学压缩提供了一种更优雅的解决方案——将历史对话文本渲染成图像进行初步压缩,然后随着时间推移逐步缩小这些图像的分辨率,实现多级压缩。

  具体而言,刚发生的对话可以保持为纯文本或高分辨率图像(如1280×1280),1小时前的对线,1个月前的进一步模糊,1年前的则变得几乎不可辨认。这个过程就像记忆随时间模糊的自然规律——最近发生的事情记忆犹新,而久远的往事则只剩下模糊的印象。

  从视觉距离的角度看,这个类比同样成立。站在10厘米处看一段文字,每个字符都清晰可见;距离拉远到50厘米,文字仍然清楚但细节开始丢失;1米外文字开始变小;3米外需要费力辨认;10米外只能看到文字的大致轮廓;20米外则几乎无法阅读。这种距离导致的视觉退化与时间导致的记忆退化遵循相似的模式。

  从分辨率的维度来看,token数量的递减对应着记忆清晰度的下降。最新的内容使用Gundam模式处理,保持数百个高质量token;稍早的内容降级为Large模式(400 token);再早些的使用Base模式(256 token);更久远的使用Small模式(100 token);最古老的则退化为Tiny模式(64 token),文字变得模糊难辨。这种递减模式既节约了计算资源,又保留了重要的历史脉络。

  结合这三个维度,上下文光学压缩方法实现了一种类似生物遗忘曲线的记忆衰退机制——近期信息保持高保真度,而远期记忆通过增加压缩比例自然淡化。这种方法理论上可以支持无限长的上下文架构,平衡了信息保留与计算约束之间的关系。虽然这仍是早期阶段的工作,需要进一步研究,但它指向了一条极具潜力的路径:让人工智能系统像人类一样,自然地遗忘不重要的细节,同时保留关键的历史脉络。

  DeepSeek-OCR作为上下文光学压缩可行性的初步探索,已经展现出令人鼓舞的潜力。实验证明,模型能够有效地从少量视觉token中解码出超过10倍数量的文字token,这一发现为视觉语言模型和大语言模型的未来发展开辟了新方向。

  从实用角度看,DeepSeek-OCR已经是一个高度实用的工具,能够进行大规模预训练数据生产,成为大语言模型不可或缺的助手。在生产环境中,单台A100-40G显卡每天可处理超过20万页文档,20个节点(160块GPU)的集群每天可处理3300万页,这种规模和效率足以支撑大型语言模型的数据需求。更重要的是,由于压缩率高,DeepSeek-OCR生成的训练数据在存储和传输上都更加经济,显著降低了数据工程的成本。

  然而,研究团队也清醒地认识到,仅凭OCR任务尚不足以全面验证真正的上下文光学压缩能力。未来需要进行数字-光学文本交错预训练、针对长上下文的大海捞针测试等更系统的评估。从另一个角度看,光学上下文压缩仍有巨大的研究和改进空间,代表着一个充满前景的新方向。

  上下文光学压缩的应用场景远不止OCR。在多轮对话系统中,可以对超过k轮的历史对线倍的效率提升。在文档检索和问答系统中,可以将整个文档库以图像形式压缩存储,按需解压相关片段。在代理系统中,历史行动记录可以被压缩成记忆快照,既保留关键信息又节约计算资源。这些应用都建立在一个核心洞察之上:并非所有信息都需要以原始形式保存,适度的信息损失换来的是系统整体效率的质的飞跃。

  当前大语言模型面临的长上下文挑战日益严峻,128k、1M甚至更长的上下文窗口需求层出不穷,但二次复杂度的计算代价让这些目标难以企及。上下文光学压缩提供了一个务实的折中方案——保持最近和最重要的内容为高分辨率(低压缩比),而将历史和次要内容逐步降级为低分辨率(高压缩比)。这种分层处理策略既符合人类认知规律,又贴合工程实际需求,有望成为未来长上下文系统的标准范式。

  DeepSeek-OCR揭示了一个简单却深刻的道理:图像不仅是视觉信息的载体,更是一种高效的文本压缩介质。当我们换一个视角看待视觉语言模型——不再将其仅仅视为回答视觉问题的工具,而是看作增强大语言模型文本处理效率的手段——许多新的可能性便随之显现。这个研究范式的转变,或许正是通往下一代人工智能系统的钥匙。

  本文来自至顶AI实验室,一个专注于探索生成式AI前沿技术及其应用的实验室。致力于推动生成式AI在各个领域的创新与突破,挖掘其潜在的应用场景,为企业和个人提供切实可行的解决方案。

  A:DeepSeek-OCR在10倍压缩比例内可以达到97%的文字识别准确率,这意味着1000个文字token可以用100个视觉token来表示且几乎无损。即便将压缩比提升到20倍,准确率仍能保持在60%左右。这些数据表明,在合理的压缩范围内,使用图像来承载文本信息比直接处理文字要高效得多。

  A:最显著的优势是使用更少的视觉token就能达到相同甚至更好的识别效果。在OmniDocBench测试中,DeepSeek-OCR用100个视觉token就超越了需要256个token的GOT-OCR2.0,用不到800个token就超越了需要近7000个token的MinerU2.0。这意味着更快的处理速度、更低的存储需求和更高的部署效率。另外,DeepSeek-OCR还具备深度解析能力,能够处理图表、化学公式、几何图形等复杂内容,功能更加全面。

  A:完全可以。虽然目前主要在OCR任务上验证,但光学压缩的思路具有广泛的应用潜力。在多轮对话系统中,可以将较早轮次的对话历史渲染成图像并逐步降低分辨率,模拟人类记忆的遗忘机制。在文档检索系统中,可以将大量文档以压缩图像形式存储,按需解压相关部分。在智能代理系统中,历史操作记录可以被压缩成视觉快照,既保留关键信息又节约计算资源。这种方法从本质上提供了一种新的长上下文管理范式,有望成为未来大语言模型处理超长文本的标准方案。

  原标题:《DeepSeek最新突破:用更少的“视觉符号实现高效文档识别》

  本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。

搜索