关闭广告

10倍压缩率,97%解码精度!DeepSeek开源新模型,为何赢得海内外关注

澎湃新闻4780人阅读

DeepSeek开源新模型:用视觉模式实现上下文压缩。

10月20日,DeepSeek宣布开源最新大模型DeepSeek-OCR。所谓的OCR,据DeepSeek在论文中解释称,是通过光学2D映射压缩长上下文可行性的初步研究。DeepSeek-OCR由两部分组成:DeepEncoder和作为解码器的DeepSeek3B-MoE-A570M。DeepEncoder作为核心引擎,设计为在高分辨率输入下保持低激活,同时实现高压缩比,以确保视觉tokens数量优化且可管理。

通俗而言,这是一种视觉-文本压缩范式,通过用少量的视觉token来表示原本需要大量文本token的内容,以此降低大模型的计算开销。

据公布的论文名单显示,该项目由DeepSeek三位研究员Haoran Wei、Yaofeng Sun、Yukun Li共同完成,但这三位核心作者都颇为低调,其中一作作者Haoran Wei曾在阶跃星辰工作过,曾主导开发旨在实现“第二代 OCR”的GOT-OCR2.0系统。


DeepSeek-OCR的架构分为两部分。一是DeepEnco

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

狂欢置换价7.99万 第三代豪越L欢乐PLUS大7座版上市

网易汽车 浏览 101

芯片圈“大佬”IPO梦碎,牵出千万受贿案!

野马财经 浏览 4581

瞄准2028年重要选举 郑丽文最新表态

新京报政事儿 浏览 9388

以色列移交又一批巴勒斯坦被扣押人员遗体

环球网资讯 浏览 4648

微信不敢加的功能,腾讯把它塞进了这个新App里。

差评XPIN 浏览 3415

石破天惊,日本电影新浪潮的开山大师名作!

幕味儿 浏览 4600

美军参联会主席警告:对伊朗动武可能带来重大风险

央视新闻客户端 浏览 2953

徐静蕾美国超市现身,黄立行白发相伴

墨语家 浏览 3516

美国将打造全球首座可移动核反应堆工厂,落户“曼哈顿计划”旧址

IT之家 浏览 4658

美国再退66个"群" 外交部回应

界面新闻 浏览 13916

2026巴黎高定时装周|全世界最美的衣服都在这了

LinkFashion 浏览 3346

以军空袭黎巴嫩南部轰炸真主党重型机械 画面披露

环球网资讯 浏览 4628

加沙停火协议生效后的48小时:人质释放、民众返乡

澎湃新闻 浏览 4672

传奇数学家放弃美国高校终身教职 为00后中国女孩打工

新民周刊 浏览 18862

“超级周”来袭!美联储,降息稳了?

券商中国 浏览 4584

美国发射洲际弹道导弹 俄方回应

央视新闻客户端 浏览 4297

徐艺洋机场被偶遇,生图五官优越有星味

往史过眼云烟 浏览 3410

苹果天气App昨晚出现宕机,目前异常已修复

三言科技 浏览 1556

普京:美版和平方案与普特会讨论一致

新华社 浏览 4168

新年第一顶帽子,就要不基础

时尚COSMO 浏览 2883

闻泰科技回应:个别外籍高管试图颠覆公司治理结构

澎湃新闻 浏览 8279
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1