当前位置：首页 > news >正文

DeepSeek正在探索一种可能显著提升AI“记忆力”的新方法：用图像而非传统的文本token来存储信息

news 2025/10/30 14:51:57

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/

上周发布的一款光学字符识别（OCR）模型，是该公司这一创新方向的试验平台。该模型通过图像提取文字内容，并将其转化为机器可读的文本，这项技术已经广泛应用于扫描软件、图像翻译及无障碍辅助工具等领域。尽管OCR已是一个相对成熟的研究领域，DeepSeek的新模型在多个关键指标上与顶尖系统表现相当。但研究人员指出，这一模型的真正突破在于其处理信息的方式，尤其是对记忆的存储与调用方式的革新。

目前主流的大型语言模型依赖将文本拆分为成千上万的“token”来进行处理，这些token使AI能够理解语言内容。然而，随着用户与AI交互的时间延长，token的数量迅速膨胀，不仅消耗大量计算资源，也使得AI容易遗忘用户先前提供的信息，甚至出现“语境腐蚀（context rot）”的现象。

DeepSeek在最新研究论文中提出了替代方案：该系统不再以token的形式存储信息，而是将文字内容封装成图像，就像拍摄一本书的页面一样。研究人员发现，这种方法在保留关键信息的同时，大大减少了token的使用量，从而提升了处理效率。

此外，该模型采用一种分层压缩策略，模拟人类记忆随时间渐渐模糊的特征。对于较久远或不重要的内容，系统会以较模糊的图像形式进行存储，从而节省空间。然而，研究人员强调，这些被压缩的信息依然可以在后台被调用，同时维持系统整体效率。

长期以来，文本token一直是AI模型的标准构件，而DeepSeek首次大规模使用图像token，引发了业界广泛关注。前特斯拉AI负责人、OpenAI创始成员安德烈·卡尔帕西（Andrej Karpathy）在社交平台X上称赞这篇论文，表示图像或许比文本更适合作为大型语言模型（LLM）的输入方式，并批评文本token“浪费且效率低”。

美国西北大学计算机科学助理教授李曼玲（Manling Li）指出，这项研究为AI记忆问题提供了全新的解决框架。尽管用图像来存储语境并非全新概念，但这是首次有研究将其推进到如此深入的层面，并展现其实际可行性。

西北大学博士生王子涵（Zihan Wang）也表示，这项方法或将开启AI研究和应用的新方向，尤其有助于打造更具持续交互能力的AI代理。他指出，AI与用户的对话本质上是连续性的，因此该方法能帮助AI更好地“记住”用户需求，提高服务效能。

该技术还可应用于大规模训练数据的生成。目前AI开发者面临高质量文本数据短缺的困境，而根据DeepSeek的研究，其OCR系统可在单块GPU上每天生成超过20万页的训练数据，为模型训练提供可观支持。

不过，研究作者也承认，目前这项技术仍处于初期探索阶段。李曼玲表示，未来的研究应推动图像token不仅应用于记忆存储，还能参与复杂推理过程。她进一步指出，AI的记忆机制还过于线性，当前即便使用了DeepSeek的方法，AI仍然倾向于记住最近发生的事情，而不是最重要的信息。她希望未来能像人类一样让AI的记忆“动态淡出”，即便遗忘了上周的午餐内容，也能记得数年前的重要时刻。

尽管一直保持低调，总部位于中国杭州的DeepSeek已逐步建立起在AI领域的前沿声誉。今年初，该公司推出开源推理模型DeepSeek-R1，以远低于主流西方系统的计算资源，在性能上实现了相当水平，震撼业界。这一新模型则进一步展现了该公司在AI记忆机制上的探索野心。

ChatGPT can make mistakes. Check important info.

查看全文

http://www.dtcms.com/a/546503.html