“阅读空气”通常指对非结构化信息(如文档、图片、表格等)的精准识别与结构化处理能力,核心在于忠实还原原始内容与高效解析复杂格式。腾讯元宝基于混元大模型的多模态能力,在这一领域表现突出,以下从具体功能与评测表现展开说明:
1. 核心功能:覆盖多场景的非结构化信息处理
腾讯元宝支持36种文件格式(PDF、Word、PPT、Excel、TXT等)的识别与解析,无论是本地文件上传还是微信文件发送,均可快速提取关键信息。其“AI阅读”功能不仅能文档要点,还能生成图文并茂的精读体验;针对专业内容(如论文、财报、研报),推出“深度阅读”模式,提供核心内容概览、模块化解析及性图表(如杜邦分析图),辅助用户快速理解关键信息。还支持全局划词(翻译、搜索、朗读)、朗读功能(多重音效、倍速调控)及截屏识图(识别万物、多语种翻译),覆盖“读、写、译、搜”全流程。
2. 复杂场景下的多模态识别能力
在复杂文字识别(多段文字段落、标题/正文/注释分层、特殊字符/字体)任务中,腾讯元宝能准确识别不同语言、字符样式(如加粗、斜体、下划线),保持内容完整性。复杂表格识别是其强项,能精准解析多行多列、合并单元格、多级标题及注释信息,还原表格结构(如每行每列数据对齐),甚至能处理合并单元格等复杂情况。图图文混合识别(海报、名片中的嵌入文字)及混合信息识别(多国文字、数学公式、手写标注)中,也能忠实呈现原始内容,避免信息遗漏。
3. 评测表现:多模态能力处于行业之一梯队
在第三方“AI多模态能力大评测”中,腾讯元宝针对“复杂表格识别”“混合信息识别”等核心场景表现优异:
复杂表格识别:得分更高(17分,满分17),能完美复现表格格式(如合并单元格、数据对齐),与Claude并列之一;
混合信息识别(多国文字、数学符号、手写):得分17分(满分17),能准确识别中英日三种文字及数学公式,优于多数竞品;
综合总分:64.5分(满分80),位列“更佳黑马”,超过Kimi(60.5分)、Claude(59.5分)等模型。
综上,腾讯元宝的“阅读空气”能力(非结构化信息处理)具备高准确性(忠实还原内容)、强格式还原(保留排版结构)及多场景适配(文档、图片、表格等)的特点,在行业中处于之一梯队,能有效提升用户处理复杂信息的效率。