关闭广告

10倍压缩率,97%解码精度!DeepSeek开源新模型,为何赢得海内外关注

澎湃新闻4630人阅读

DeepSeek开源新模型:用视觉模式实现上下文压缩。

10月20日,DeepSeek宣布开源最新大模型DeepSeek-OCR。所谓的OCR,据DeepSeek在论文中解释称,是通过光学2D映射压缩长上下文可行性的初步研究。DeepSeek-OCR由两部分组成:DeepEncoder和作为解码器的DeepSeek3B-MoE-A570M。DeepEncoder作为核心引擎,设计为在高分辨率输入下保持低激活,同时实现高压缩比,以确保视觉tokens数量优化且可管理。

通俗而言,这是一种视觉-文本压缩范式,通过用少量的视觉token来表示原本需要大量文本token的内容,以此降低大模型的计算开销。

据公布的论文名单显示,该项目由DeepSeek三位研究员Haoran Wei、Yaofeng Sun、Yukun Li共同完成,但这三位核心作者都颇为低调,其中一作作者Haoran Wei曾在阶跃星辰工作过,曾主导开发旨在实现“第二代 OCR”的GOT-OCR2.0系统。


DeepSeek-OCR的架构分为两部分。一是DeepEnco

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

76岁“欢喜哥”许绍雄病危,tvb多名艺人紧急探望,众人神情严肃

不八卦会死星人 浏览 4206

限时售9.29万起 第五代瑞虎8正式上市

网易汽车 浏览 4098

"太子集团"头目被指曾遭手下"黑吃黑" 后者已申请破产

红星新闻 浏览 9413

俄称控制乌居民点 乌称击落米-8直升机

环球网资讯 浏览 4084

每3辆出口摩托就有1辆“重庆造”:“摩都”走向世界了!丨这座城市有点东西

国是直通车 浏览 5001

集微咨询发布《2025中国电源管理芯片行业上市公司研究报告》

爱集微 浏览 3665

TII发布Falcon-H1R:7B小模型推理能力超越32B大模型

科技行者 浏览 3380

美国脱口秀主持人讽刺特朗普:他演都不演了

环球网资讯 浏览 9532

CES 2026成为“中国科技秀”,AI硬件场景化提速

上游新闻 浏览 3531

擅自使用军机形象进行宣传 理想汽车回应

澎湃新闻 浏览 5029

中山大学等九校联手突破:AI实现软件bug自动侦测与修复

科技行者 浏览 3328

特朗普调侃让委内瑞拉成第53个州

红星新闻 浏览 3076

今年靴子怎么穿?这个思路可以解决一半冬日搭配

黎贝卡的异想世界 浏览 3776

实弹射击 禁止驶入 山东潍坊发布警告

极目新闻 浏览 4263

舒默公开指责特朗普:总统无权独自将国家带向战争

看看新闻Knews 浏览 60105

50+女性秋季穿搭新思路:告别卫衣,这4类上衣让你显嫩又有质感

静儿时尚达人 浏览 4245

香港火灾初步调查结果:贴在窗户上的发泡胶板高度易燃

南方都市报 浏览 18585

一句话,干掉586亿

深蓝财经 浏览 5212

4大城市群的机场扩建潮背后:不止争人气,还要争“世界级枢纽”

时代周报 浏览 3641

XbotGo丨懂球帝3-1逆转北建工建学FC,斩获新年两连胜

懂球帝 浏览 3384

长城魏牌9年8换CEO,哈弗总经理赵永坡接任冯复之

红星资本局 浏览 3739
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1