DeepSeek正在探索一种可能显著提升AI“记忆力”的新方法:用图像而非传统的文本token来存储信息
每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/
上周发布的一款光学字符识别(OCR)模型,是该公司这一创新方向的试验平台。该模型通过图像提取文字内容,并将其转化为机器可读的文本,这项技术已经广泛应用于扫描软件、图像翻译及无障碍辅助工具等领域。尽管OCR已是一个相对成熟的研究领域,DeepSeek的新模型在多个关键指标上与顶尖系统表现相当。但研究人员指出,这一模型的真正突破在于其处理信息的方式,尤其是对记忆的存储与调用方式的革新。
目前主流的大型语言模型依赖将文本拆分为成千上万的“token”来进行处理,这些token使AI能够理解语言内容。然而,随着用户与AI交互的时间延长,token的数量迅速膨胀,不仅消耗大量计算资源,也使得AI容易遗忘用户先前提供的信息,甚至出现“语境腐蚀(context rot)”的现象。
DeepSeek在最新研究论文中提出了替代方案:该系统不再以token的形式存储信息,而是将文字内容封装成图像,就像拍摄一本书的页面一样。研究人员发现,这种方法在保留关键信息的同时,大大减少了token的使用量,从而提升了处理效率。
此外,该模型采用一种分层压缩策略,模拟人类记忆随时间渐渐模糊的特征。对于较久远或不重要的内容,系统会以较模糊的图像形式进行存储,从而节省空间。然而,研究人员强调,这些被压缩的信息依然可以在后台被调用,同时维持系统整体效率。
长期以来,文本token一直是AI模型的标准构件,而DeepSeek首次大规模使用图像token,引发了业界广泛关注。前特斯拉AI负责人、OpenAI创始成员安德烈·卡尔帕西(Andrej Karpathy)在社交平台X上称赞这篇论文,表示图像或许比文本更适合作为大型语言模型(LLM)的输入方式,并批评文本token“浪费且效率低”。
美国西北大学计算机科学助理教授李曼玲(Manling Li)指出,这项研究为AI记忆问题提供了全新的解决框架。尽管用图像来存储语境并非全新概念,但这是首次有研究将其推进到如此深入的层面,并展现其实际可行性。
西北大学博士生王子涵(Zihan Wang)也表示,这项方法或将开启AI研究和应用的新方向,尤其有助于打造更具持续交互能力的AI代理。他指出,AI与用户的对话本质上是连续性的,因此该方法能帮助AI更好地“记住”用户需求,提高服务效能。
该技术还可应用于大规模训练数据的生成。目前AI开发者面临高质量文本数据短缺的困境,而根据DeepSeek的研究,其OCR系统可在单块GPU上每天生成超过20万页的训练数据,为模型训练提供可观支持。
不过,研究作者也承认,目前这项技术仍处于初期探索阶段。李曼玲表示,未来的研究应推动图像token不仅应用于记忆存储,还能参与复杂推理过程。她进一步指出,AI的记忆机制还过于线性,当前即便使用了DeepSeek的方法,AI仍然倾向于记住最近发生的事情,而不是最重要的信息。她希望未来能像人类一样让AI的记忆“动态淡出”,即便遗忘了上周的午餐内容,也能记得数年前的重要时刻。
尽管一直保持低调,总部位于中国杭州的DeepSeek已逐步建立起在AI领域的前沿声誉。今年初,该公司推出开源推理模型DeepSeek-R1,以远低于主流西方系统的计算资源,在性能上实现了相当水平,震撼业界。这一新模型则进一步展现了该公司在AI记忆机制上的探索野心。
ChatGPT can make mistakes. Check important info.
