腾讯开源 HunyuanOCR，仅1B参数刷新多项高阶任务SOTA

siyushenqi.com • 3小时前 • 行业动态 • 阅读 1

把检测、识别、版面、表格、公式等 5 级传统流水线压缩成“图像进、结果出”的单模型，彻底消灭级联误差。

摘要

原生分辨率 ViT 拒绝拉伸变形，自适应 MLP 连接器剪除 80% 冗余 Token，0.5B XD-RoPE LLM 原生理解二维/三维版面。

覆盖 130 种语言、9 大场景，Synthdog 深度渲染+Warping 实战扰动，自动生成难例 VQA，解决长尾稀缺。

50B→3T Token 逐步解锁多模态、长上下文与格式规范，用 IoU+编辑距离+大模型裁判精准奖励，轻量模型也能持续进化。

Spotting、Parsing、IE、VQA、翻译 5 大公开基准全第一，仅用 1B 参数就超越 Qwen3-VL-235B、Gemini-2.5-Flash 等数百亿级模型，推理成本降至 1/200。

腾讯 HunyuanOCR 仅用 1B 参数的端到端架构，彻底解决了传统 OCR 级联误差和通用大模型效率低下的双重难题。

HunyuanOCR 摒弃了复杂的流水线设计，采用纯粹的端到端（End-to-End）视觉语言模型（Vision-Language Model, VLM）架构。

在仅有 10 亿（1B）参数的规模下，它不仅在基础的文本定位和解析任务上超越了现有的商业 API，还在信息提取、视觉问答等高阶任务中，展现出与数百亿参数模型比肩的性能。

目录

端到端架构设计的减法艺术

长期以来，工业界的 OCR 系统像一座复杂的工厂。

为了处理一张文档图片，我们需要文本检测模型先找到字，文本识别模型认出字，版面分析模型搞清楚段落结构，表格识别模型处理网格，公式识别模型处理数学符号。

这种流水线架构看似分工明确，实则隐患重重。

检测偏了一像素，识别就可能错一个字；版面分析搞错一行，整个文档的阅读顺序就乱了。

这种多米诺骨牌式的误差累积，是传统 OCR 难以根除的顽疾。

通用多模态大模型虽然能解决部分问题，但动辄几百亿的参数量，让推理成本高不可攀，且在处理高分辨率文档细节时常常力不从心。

HunyuanOCR 选择了做减法。

整个系统被压缩为三个核心组件：原生分辨率视觉编码器、自适应 MLP 连接器、轻量级语言模型。

没有复杂的预处理，没有繁琐的后处理，图像进，结果出。

这种设计不仅在工程上极大地简化了部署流程，更在数学原理上消除了中间环节的误差损耗。

视觉编码器（Hunyuan-ViT）是这套架构的眼睛。

它建立在 SigLIP-v2-400M 预训练模型之上，参数量约为 0.4B。

与传统模型强制将图片缩放到固定尺寸不同，Hunyuan-ViT 拥有原生分辨率的处理能力。

它采用自适应分块（Adaptive Patching）机制，像拼图一样处理图像。

当面对一张长条形的购物小票，或者一张宽幅的全景街景时，模型不会粗暴地拉伸或压缩图片，而是根据图像原始的宽高比将其切分为多个 Patch。

这些 Patch 随后进入视觉 Transformer（ViT）进行全局注意力计算。

这种对原始比例的尊重，确保了图像中的微小文字不会因为变形而模糊，长文档的边缘信息不会丢失。这对于 OCR 任务至关重要，因为文字识别对分辨率的敏感度远高于普通物体识别。

连接器（Adaptive MLP Connector）是架构中的压缩机。

视觉编码器产生的高分辨率特征图虽然信息丰富，但直接喂给语言模型会造成巨大的计算浪费。

大部分文档图片中存在大量的空白区域，这些区域不包含语义信息。

自适应 MLP 连接器在视觉域和语言域之间架起桥梁。

它不仅仅是一个简单的投影层，更执行了一种核心的可学习池化操作。它在空间维度上对内容进行自适应压缩，智能地识别出哪些区域是文本密集的关键区域，哪些是冗余背景。

通过这种压缩，Token 序列的长度被大幅削减，而关键的语义信息得以保留。这意味着语言模型只需要处理干货，从而在保持 1B 参数轻量级的同时，实现了极高的推理效率。

语言模型（LLM）是系统的大脑。

这部分基于密集架构的 Hunyuan-0.5B 模型构建。

普通的语言模型将文本视为一维序列，但在 OCR 任务中，文字在页面上的位置（二维）甚至视频中的时间（三维）同样重要。

HunyuanOCR 引入了 XD-RoPE 技术，将位置编码玩出了新花样。

它不再使用单一的旋转位置编码（RoPE），而是将其解构为四个独立的子空间：文本、高度、宽度、时间。

这种设计建立了一种原生的对齐机制。一维的文本序列、二维的页面布局、三维的时空信息，在模型内部被统一映射。

这使得模型不仅能读懂字，还能看懂版面。它可以轻松处理多栏排版，理解跨页文档的逻辑联系，甚至在视频帧中追踪文字的轨迹。这种对空间关系的深刻理解，是其在复杂文档解析任务中脱颖而出的关键。

数据工程构建

模型架构决定了上限，数据质量决定了能走多远。HunyuanOCR 团队构建了一个规模庞大的数据护城河，包含超过 2 亿个高质量的图像-文本对。

这些数据并非杂乱无章的堆砌，而是覆盖了九大核心场景：街景、文档、广告、手写文本、截屏、卡证发票、游戏界面、视频帧、艺术字体。语言覆盖范围更是超过了 130 种。

合成数据在其中扮演了关键角色。

基于 SynthDog 框架，团队开发了一套强大的合成流水线。它不仅仅是把文字贴在背景上，而是进行深度渲染。

对于低资源语言，系统支持超过 130 种语言的段落级生成，无论是从左到右的常规文本，还是阿拉伯语这种从右到左（RTL）的文本，甚至是复杂的草书手写体，都能精确模拟。

这套系统拥有细粒度的控制力。它可以调整字体风格、颜色、排列方向，模拟真实世界中千奇百怪的排版。

这种合成数据的注入，极大地提升了模型在面对罕见语言和复杂字体时的泛化能力，解决了真实数据中长尾样本稀缺的问题。

为了让模型适应真实的物理世界，团队开发了内部的扭曲合成流水线（Warping Synthesis Pipeline）。

真实用户拍摄的文档往往并不完美。纸张会有折痕，拍摄会有透视变形，光线可能不均匀，甚至会有阴影遮挡。扭曲流水线通过控制点操作模拟几何变形，通过高斯噪声和运动模糊模拟成像质量下降，通过光照扰动模拟阴影和反射。

经过这套流水线处理的数据，让模型仿佛在各种恶劣环境下进行了数百万次的实战演练。当模型在现实中遇到一张皱皱巴巴、光线昏暗的小票时，依然能够精准识别。

在视觉问答（VQA）数据的构建上，团队展示了极高的效率。

他们开发了一套自动化流水线，集成了难例检索、QA 生成和一致性验证。这条流水线遵循单一来源，多种用途的原则。对于同一张图像，它的定位信息、解析结果和 VQA 标注被联合管理。

系统会特意寻找那些难啃的骨头：低清晰度的图片、复杂的嵌套表格、密集的数学公式、冷门语言的代码片段。对于这些难例，系统利用高性能视觉模型自动生成问答对。

为了保证质量，一致性验证机制会引入多个模型进行交叉打分。只有那些逻辑自洽、置信度高的数据才能进入训练集。这种高强度的数据筛选，确保了模型学到的是真知识，而不是噪声。

四阶段训练与强化学

HunyuanOCR 的训练过程像是一场精心编排的四重奏。

第一阶段是视觉与语言的破冰。

在这个阶段，语言模型保持冻结，仅训练视觉编码器和适配器。

使用了约 500 亿（50B）Token。训练数据主要是图像描述和合成 OCR 数据。目的是让视觉编码器学会说话，将看到的像素特征对齐到文本语义空间。

这个阶段不仅要认字，更要学会解析结构，奠定模型对图像感知的基本功。

第二阶段是多模态能力的全面解锁。

所有模型参数解冻，进行端到端的联合学习。训练数据量激增至 3000 亿（300B）Token。数据类型变得丰富多样，涵盖了解析、定位、翻译、VQA 等多任务。

模型开始深入理解文档、表格、图表等结构化内容。为了防止模型忘本，训练数据中始终保留了约 10% 的纯文本数据，维护其语言理解和指令遵循的能力。

第三阶段是长上下文的耐力训练。

上下文窗口被扩展至 32k Token。这相当于让模型具备了阅读整本书的能力。使用了 800 亿（80B）Token，引入了长文档解析任务和长篇纯文本。

模型在这个阶段学会了如何在长长的 Token 序列中保持注意力，理解跨页面的文档逻辑，处理那些篇幅巨大的合同或论文。

第四阶段是面向应用的实战演习。

使用 240 亿（24B）Token 进行监督微调（SFT）。

数据来源是精心策划的人工标注真实世界数据，以及少量高质量合成样本。

在这个阶段，所有任务的指令模板和输出格式被标准化。模型学会了如何像一个专业助手一样，用规范的格式（如 Markdown、LaTeX、JSON）输出结果，确保在实际应用中的可用性。

在预训练之后，强化学习（RL）成为了提升性能的关键一跃。

HunyuanOCR 采用了群体相对策略优化（GRPO）算法。与传统的强化学习主要用于推理模型不同，这里将 RL 引入了轻量级 OCR 模型。

数据筛选强调难度平衡，剔除了那些无论怎么做都对或者都错的无效样本，以及容易被猜对的选择题。

对于文本定位任务，奖励不再仅仅看字对不对，还要看框准不准。奖励计算结合了预测框与真实框的交并比（IoU）以及文本内容的归一化编辑距离。只有框得准、认得对，才能拿高分。

对于文档解析，奖励基于编辑距离，严格考核结构的完整性。少了一个表头，错了一个公式符号，都会导致奖励骤降。

对于翻译任务，引入了评分大模型作为裁判，给出 0 到 5 分的打分，并进行去偏归一化。这使得模型能够感知到翻译质量的细微差别，追求信达雅。

在 GRPO 训练中，严格的格式约束被强制执行。任何不符合 JSON 格式或超出长度限制的输出，直接归零。这逼迫模型在探索最优解的同时，必须严格遵守输出规范。

任务定义的标准化与统一

HunyuanOCR 将原本割裂的 OCR 任务统一到了自然语言指令的框架下。

在文本定位（Spotting）任务中，用户只需输入固定指令：Detect and recognize text in the image...。

模型便会输出结构化的 <ref>text</ref><quad>coordinates</quad> 格式。坐标被归一化到 [0, 1000]，无论图片分辨率如何，输出坐标始终精确对应。

文档解析（Parsing）任务被细化到了极致。

遇到数学公式，模型输出标准的 LaTeX 代码；遇到表格，输出 HTML 源码；遇到流程图，输出 Mermaid 代码。

对于全文档解析，模型会忽略页眉页脚的干扰，按阅读顺序提取所有信息，并自动将公式、表格转换为对应的代码格式，最终生成一个干净、结构化的 Markdown 文档。

这直接对接了下游的 RAG（检索增强生成）系统，极大地降低了数据清洗的成本。

信息提取（IE）任务展现了强大的指令遵循能力。

用户可以要求提取特定字段（提取发票金额），也可以提供一个键列表（Key List），要求模型以 JSON 格式批量提取多个字段。

对于视频字幕，模型能够适应各种分辨率和屏幕位置，精准捕捉每一句台词。

文本图像翻译任务打破了语言的界限。

支持超过 14 种源语言到中文或英文的互译。

针对不同场景，设计了两种提示词范式。对于路牌、菜单等场景文本，使用通用翻译提示词；对于复杂文档，使用文档导向提示词，先解析结构再翻译内容，确保翻译后的文档依然保留原本的表格和公式排版，实现了所见即所得的翻译体验。

性能数据的全面碾压

HunyuanOCR 在各项基准测试中交出了令人信服的答卷。

在文本定位（Spotting）方面，HunyuanOCR 在包含 900 张多场景图片的内部测试集中，总分达到 70.92。

这一成绩不仅超越了传统霸主 PaddleOCR（53.38）和 BaiduOCR（61.90），也击败了参数量巨大的 Qwen3-VL-235B（53.62）。

特别是在艺术字、手写体和视频帧这些老大难场景中，HunyuanOCR 的优势尤为明显，证明了其原生分辨率编码器的强大鲁棒性。

在文档解析（Parsing）领域，HunyuanOCR 展现了统治力。

在 OmniDocBench 基准测试中，它以 94.10 的高分傲视群雄，超过了 PaddleOCR-VL（92.86）和 MinerU2.5（90.67）。

即使在包含折叠、弯曲等极端情况的 Wild-OmniDocBench 测试中，它依然保持了 85.21 的分数，远超 Qwen3-VL-235B 的 79.69。这说明它不仅能读懂扫描件，也能读懂生活中的随手拍。

在信息提取（IE）与视觉问答（VQA）任务上，效率优势尽显。

在卡片和票据的提取任务中，准确率分别高达 92.29% 和 92.53%。

相比之下，Qwen3-VL-235B 仅为 75.59% 和 78.4%。用 1/200 的参数量，实现了更高的业务精度。

在 OCRBench 公开榜单上，HunyuanOCR 得分 860，在小于 3B 参数的模型中遥遥领先，大幅超越 DeepSeek-OCR 的 430 分。

文本图像翻译的成绩同样亮眼。

在 DoTA 文档翻译数据集上，其中文到英文的翻译得分为 83.48（COMET 指标）。

这一成绩超过了 Qwen3-VL-235B（80.01），甚至优于 Gemini-2.5-Flash。

在多语言翻译测试中，尽管参数量仅为 1B，它依然击败了 4B 和 2B 规模的 Qwen3-VL 模型，证明了高质量数据和端到端训练在跨语言任务上的巨大潜力。

HunyuanOCR 用 10 亿参数的精巧身躯，承载了商业级的 OCR 性能。

本文源自「私域神器」，发布者：siyushenqi.com，转载请注明出处：https://www.siyushenqi.com/69256.html

赞 (0)

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

siyushenqi.com

11.8K 文章

0 评论

425 问题

16 粉丝

私域神器：海外私域营销拓客软件

传沙特巨头收购沐瞳科技，字节游戏业务何去何从

上一篇 3小时前

腾讯突然曝光：一款全球跨平台旗舰大作浮出水面

下一篇 3小时前

《原神》之外，2021年的RPG会是什么样子？

众所周知，RPG市场拥有着很高的准入门槛，同时也是一个高风险、高回报的赛道。

siyushenqi.com
2025 年 8 月 25 日 • 行业动态
117000
TapTap评分8.2分，行业老兵组团如何卷二次元市场？

日前，由BINGKOLO开发的3D二次元塔防《环行旅舍》开启了不限量的付费删档测试，也是该游戏的第三次测试。该游戏在去年年初首次曝光便获得了圈内大量玩家的关注。

siyushenqi.com
2025 年 8 月 24 日 • 行业动态
146000
行业动态

OpenAI否认考虑将总部迁出加州

把营利子公司变为特拉华州公益企业（PBC），让投资者拿传统股权而非利润分成，为后续融资、上市铺路。

siyushenqi.com
2025 年 9 月 10 日
84000
深陷停服事件后，他们悄悄在海外测试了一款新的二次元

今年三月底，在国内二次元新游测试战得火热的时候，一款名为《卢希达：起源》(以下简称《卢希达》)的二次元游戏在新加坡和马来西亚地区悄悄地上线。

siyushenqi.com
2025 年 8 月 24 日 • 行业动态
116000
行业动态

AI飙戏发红包，年轻人过年在支付宝玩疯了

支付宝五福，玩出新花样。

siyushenqi.com
2025 年 8 月 13 日
103000
行业动态

Takealot降槛，中国卖家抢滩南非电商105亿市场

2025年3月南非电商老大Takealot把入驻费从近3万砍到0，提供中文后台，目标6个月把中国卖家数再翻一倍。

siyushenqi.com
2025 年 11 月 4 日
61000
行业动态

Facebook先下手为强投资印尼增长最快的应用程序 Gojek

Facebook和Paypal已经宣布投资Gojek，这是印度尼西亚第一个且增长最快的应用程序。

siyushenqi.com
2025 年 8 月 26 日
118000
火力全开，国产女性游戏今秋集体出海迎来大丰收

从《创造101》到《乘风破浪的姐姐》，近年来“她经济”的浪潮席卷了国内一批又一批行业

siyushenqi.com
2025 年 8 月 26 日 • 行业动态
111000
行业动态

WhatsApp API群发合规之道：BSP服务商选择与协议群发技术深度剖析

面对WhatsApp营销中个人号频繁封禁的难题，如何通过官方认可的whatsapp api群发实现高效触客？本文将为您解析whatsapp bsp服务商的正确选择策略，并对比评测协议群发技术的优劣。一、官方API与协议群发的本质区别在WhatsApp营销领域，主要存在两种群发路径：一是通过官方授权的WhatsApp Business Solution P…

siyushenqi.com
2025 年 11 月 17 日
28000
行业动态

2024年10月Gmail注册成功教程

2024年10月Gmail注册成功教程

siyushenqi.com
2025 年 8 月 3 日
129000
字节跳动游戏布局再加速，“朝夕光年”官网正式亮相

字节跳动在游戏领域的布局一直在相对低调且快速地推进中，而今天他们又留下了一个新的脚印

siyushenqi.com
2025 年 8 月 25 日 • 行业动态
154000
行业动态

日均Tokens使用量超5000亿，豆包大模型怎么抓住千行百业

大模型落地，如何百公里加速？

siyushenqi.com
2025 年 8 月 13 日
113000
在TikTok，品牌正在积极融入社群

真实、快乐、悦己，TikTok重新定义社群。

siyushenqi.com
2025 年 8 月 24 日 • 行业动态
139000
行业动态

亚马逊一热销品暴雷！不能碰

近日，亚马逊上的一款便携式饮料架发起了维权，原告是亚马逊卖家AJ’s Nifty Products，而Drink caddy是旗下售卖的一款便携式饮料盒，早在2020年便已提交发明专利申请。

siyushenqi.com
2025 年 8 月 13 日
112000
行业动态

商汤沙特与沙特国王大学达成战略合作

双方合作打造立足沙特本土的联合人工智能创新中心，聚焦教育、科研及多行业AI应用场景探索。

siyushenqi.com
2025 年 11 月 13 日
35000
Facebook砸重金，在印度、印尼加“好友”

打造社交网络帝国的马克·扎克伯格挥洒重金砸向了新兴市场。

siyushenqi.com
2025 年 8 月 26 日 • 行业动态
112000
行业动态

靠AI闪光灯、修Live功能冲上海外多国摄影榜一，Meitu把“用户心理”玩明白了？

美图秀秀迎来欧洲市场高光时刻。

siyushenqi.com
2025 年 8 月 13 日
83000
行业动态

外贸老鸟都在用的Gmail注册方法

外贸老鸟都在用的Gmail注册方法。

siyushenqi.com
2025 年 8 月 3 日
103000
行业动态

小游戏出海|冲击日本市场的菇勇者和每周二登顶的拔钉子

港澳台小游戏进入佣兵团时代。

siyushenqi.com
2025 年 8 月 18 日
117000
中东社交大厂上市两月股价涨45% 游戏增长迅猛 | 中东出海秀

在本期榜单上，《PUBG Mobile》又当仁不让地拿下了沙特和土耳其两国畅销榜冠军。

siyushenqi.com
2025 年 8 月 26 日 • 行业动态
134000
中国电商巨头出海东南亚，旗下平台排名曾居泰国第三、印尼第六，如今要黯然退场？

市场环境变化太快，京东可能等不到了。

siyushenqi.com
2025 年 8 月 13 日 • 行业动态
88000
行业动态

寻道大千火了一整年，发行商首度披露方法论

多取经，不踩坑

siyushenqi.com
2025 年 8 月 18 日
133000
TiKToK为啥这么猛？

海外社交应用巨头为何没能“掐死”TiKToK？

siyushenqi.com
2025 年 8 月 26 日 • 行业动态
101000
3个月收入近5亿美元，一个靠数据算法起家的独立站

Stitch Fix是根据算法和数据科学，以及顾客所要求的尺寸、顾客的预算向其推荐个性化服装，以解决用户挑选服装配饰的相关痛点

siyushenqi.com
2025 年 8 月 13 日 • 行业动态
91000
中东电商旺季即将到来！白五消费趋势预测

全球咨询公司西蒙-库彻和合作伙伴的调查表明，在阿联酋和沙特阿拉伯，98％的受访者非常熟悉白色星期五。

siyushenqi.com
2025 年 8 月 13 日 • 行业动态
114000
行业动态

中关村开启仿生机器人大战？撸猫弹跳各显神通，两院院士坐镇

2024年中关村仿生机器人大赛，今日正式启动！无论是人形仿生机器人、具身大模型、多足仿生机器人，甚至只是仿生灵巧手，统统可以报名了。评委由两院院士坐镇，奖金池更是高达255万！这两位正撸猫和原地弹跳的选手，已经是摩拳擦掌了。

siyushenqi.com
2025 年 8 月 13 日
95000
行业动态

重磅启幕 | Stripe深圳首场大型用户峰会，9月23日共话出海新未来！

解码支付重构出海，与Stripe共赴全球化新篇章。

siyushenqi.com
2025 年 9 月 17 日
64000
行业动态

亚马逊FBA再次限制补货，没钱又没资源的卖家怎么破局？

近日，亚马逊美国站FBA限制补货的消息，再次刷爆朋友圈

siyushenqi.com
2025 年 8 月 13 日
86000
行业动态

新品半年在美国吸金1亿，这家SLG大厂决定继续加码

题材大战正在迈向新阶段

siyushenqi.com
2025 年 8 月 19 日
121000
行业动态

2025年企业最佳支付网关推荐

选购时关注手续费率、多币种支持、平台集成便捷性，才能找到真正契合企业发展的优质支付网关。跨境扩展首选PhotonPay光子易，国际收单能力出众。

siyushenqi.com
2025 年 8 月 6 日
134000

发表回复

登录后才能评论

联系我们

联系我们

+86 132-7601-9273

邮件：siyushenqi@gmail.com

工作时间：周一至周日 9:30-20:30

添加微信

添加微信

Email Telegram

返回顶部

私域神器:一站式全网全渠道拓客营销软件
备用域名：https://www.nodgame.com