当前位置: 首页 > news >正文

DeepSeek正在探索一种可能显著提升AI“记忆力”的新方法:用图像而非传统的文本token来存储信息

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

上周发布的一款光学字符识别(OCR)模型,是该公司这一创新方向的试验平台。该模型通过图像提取文字内容,并将其转化为机器可读的文本,这项技术已经广泛应用于扫描软件、图像翻译及无障碍辅助工具等领域。尽管OCR已是一个相对成熟的研究领域,DeepSeek的新模型在多个关键指标上与顶尖系统表现相当。但研究人员指出,这一模型的真正突破在于其处理信息的方式,尤其是对记忆的存储与调用方式的革新。

目前主流的大型语言模型依赖将文本拆分为成千上万的“token”来进行处理,这些token使AI能够理解语言内容。然而,随着用户与AI交互的时间延长,token的数量迅速膨胀,不仅消耗大量计算资源,也使得AI容易遗忘用户先前提供的信息,甚至出现“语境腐蚀(context rot)”的现象。

DeepSeek在最新研究论文中提出了替代方案:该系统不再以token的形式存储信息,而是将文字内容封装成图像,就像拍摄一本书的页面一样。研究人员发现,这种方法在保留关键信息的同时,大大减少了token的使用量,从而提升了处理效率。

此外,该模型采用一种分层压缩策略,模拟人类记忆随时间渐渐模糊的特征。对于较久远或不重要的内容,系统会以较模糊的图像形式进行存储,从而节省空间。然而,研究人员强调,这些被压缩的信息依然可以在后台被调用,同时维持系统整体效率。

长期以来,文本token一直是AI模型的标准构件,而DeepSeek首次大规模使用图像token,引发了业界广泛关注。前特斯拉AI负责人、OpenAI创始成员安德烈·卡尔帕西(Andrej Karpathy)在社交平台X上称赞这篇论文,表示图像或许比文本更适合作为大型语言模型(LLM)的输入方式,并批评文本token“浪费且效率低”。

美国西北大学计算机科学助理教授李曼玲(Manling Li)指出,这项研究为AI记忆问题提供了全新的解决框架。尽管用图像来存储语境并非全新概念,但这是首次有研究将其推进到如此深入的层面,并展现其实际可行性。

西北大学博士生王子涵(Zihan Wang)也表示,这项方法或将开启AI研究和应用的新方向,尤其有助于打造更具持续交互能力的AI代理。他指出,AI与用户的对话本质上是连续性的,因此该方法能帮助AI更好地“记住”用户需求,提高服务效能。

该技术还可应用于大规模训练数据的生成。目前AI开发者面临高质量文本数据短缺的困境,而根据DeepSeek的研究,其OCR系统可在单块GPU上每天生成超过20万页的训练数据,为模型训练提供可观支持。

不过,研究作者也承认,目前这项技术仍处于初期探索阶段。李曼玲表示,未来的研究应推动图像token不仅应用于记忆存储,还能参与复杂推理过程。她进一步指出,AI的记忆机制还过于线性,当前即便使用了DeepSeek的方法,AI仍然倾向于记住最近发生的事情,而不是最重要的信息。她希望未来能像人类一样让AI的记忆“动态淡出”,即便遗忘了上周的午餐内容,也能记得数年前的重要时刻。

尽管一直保持低调,总部位于中国杭州的DeepSeek已逐步建立起在AI领域的前沿声誉。今年初,该公司推出开源推理模型DeepSeek-R1,以远低于主流西方系统的计算资源,在性能上实现了相当水平,震撼业界。这一新模型则进一步展现了该公司在AI记忆机制上的探索野心。

ChatGPT can make mistakes. Check important info.

http://www.dtcms.com/a/546503.html

相关文章:

  • 网站数据库怎么备份网站跟换域名
  • 深入理解 Rust 的 VecDeque:环形缓冲区的高效设计与实践
  • wordpress只能本地访问网站优化公司多少钱
  • 网站二级域名周村区建设网站
  • 广告设计公司网站源码登陆网站空间
  • 网站开发用什么编程网站建设吸引人的话语
  • 郑州网站搜索排名网站怎么做悬浮图片放大
  • 仓颉言 Stack 栈的实现细节:从底层设计到性能优化
  • 黑五手表网站东莞网络推广网站
  • 杭州公积金网站查询系统网站建设用什么软件
  • 人人设计网官方网站来一个地址你们知道的
  • 迪杰斯特拉(dijkstra)算法
  • 交三百能在网站上找兼职做的it运维工作总结
  • 建设行业公司网站wordpress 浏览量
  • 机器学习03——matplotlib
  • 2.5 大模型硬件
  • Sierra wordpress济南百度整站seo推广
  • 高端大气的网站首页天津市网站建设天津商城建设
  • 常德建设企业网站怎么搭建Wordpress博客
  • 灰系网站电商营销推广有哪些?
  • 微信H5开发,提示redirect_uri参数错误
  • 成都企业网站怎么做即墨网站建设电话
  • 自动对焦技术:TGV视觉检测方案中的关键
  • 网站建设企业网银e路通wordpress插件cdn
  • 网站域名注销备案专题网站建设的请示
  • 一个网站备案号是冒用其它公司的wordpress acf使用
  • Rust 日志级别与结构化日志:构建可观测的生产级应用
  • 响应式网站什么用抓取网站访客qq号码
  • 零基础如何入门AI?
  • 爱站网关键词长尾挖掘工具长春建站推荐