2025年10月27日 AI大事件
美团视频生成模型来了!一出手就是开源 SOTA
美团开源13.6B参数的SOTA视频生成模型LongCat-Video,支持文生/图生/长视频生成,具备物理世界理解能力,采用MIT协议允许商用,部分性能可媲美谷歌闭源模型Veo3。
大家都来卷一卷视频生成大模型还是蛮好的,把价格打下来!不过美团做这个,从一系列行为来看,是为了机器人理解物理世界准备的。中文名字是龙猫,对,不是长猫,但是如果叫长猫也挺好玩的😄
原文链接
为了解决AI大模型用不好GUI的问题,中科院团队'LLM 友好'计算机使用接口来了
中科院团队提出声明式接口GOI,提出一个新的假设,GUI是面向人类的,需要大量视觉信息作为输入,但是AI与人的结构差异很大,所以应该重新设计面向大模型的交互语言,GOI就是一种尝试。
为了验证GOI的真实能力,研究团队在包含Word、Excel和PowerPoint的OSWorld-W基准测试集上进行了全面评估。结果显示,GOI带来了压倒性的性能提升。在使用GPT-5推理模型的核心设置下,成功率从44%飙升至74%。
这个观点有点类似上次deepseek团队做的deepseek-OCR的观点,大模型并不是人类,对于已有的技术也需要从更底层的层面思考,或许会有意想不到的巨大进展。
原文链接
亚马逊推出物流智能眼镜Amelia,应用在了外卖快递场景
亚马逊推出物流智能眼镜Amelia,集成扫描、导航、信息显示等功能,提升配送效率与安全性。计划2026年量产并推出消费级产品Jayhawk,进军C端市场。当前智能眼镜市场火热,AI技术推动行业爆发,价格控制在2000元内有助普及。
这个眼镜的显示效果跟今年WAIC展会上我体验到rokid的眼镜很相似,都是通过单色的方式解决实际的导航、信息展示的问题,今年开始AI眼镜,不再是极客的玩具,有点产业化、产品化落地的那味儿了。
原文链接
推理效率狂飙 60 倍:DiDi-Instruct 让扩散大模型 16 步超越千步 GPT
DiDi-Instruct 是针对离散扩散大语言模型的后训练方法,通过概率分布匹配策略将推理步数从数百压缩至 8-16 步,实现 60 倍加速,超越千步 GPT-2 性能,且成功应用于蛋白质序列生成。
原文链接
LangChain v1:引入革命性标准内容块,提升模型互操作性
LangChain v1 引入‘标准内容块’,作为革命性互操作层,解决不同AI模型提供商切换难题,提升应用灵活性和开发效率。该功能被创始人Harrison Chase称为‘悄然颠覆性的’,旨在降低多模型集成门槛。
在 v1.0 之前,处理不同模型(如 OpenAI、Anthropic)返回的复杂内容(如思维链、工具调用、引用)需要编写大量适配代码,因为它们的输出结构差异很大。
content_blocks旨在解决这一问题,它将所有大型语言模型的输出统一抽象为一系列类型化的内容块。无论底层模型返回的是文本、工具调用、引用还是图像,在 LangChain 层面都会被标准化为一致的ContentBlock对象。主要的块类型包括:
TextBlock: 用于封装纯文本内容。ToolCallBlock: 用于封装对工具的调用请求,包含工具名和参数。CitationBlock: 用于标注引用的来源信息。ImageBlock: 用于处理图像数据。
原文链接
Tesla 训练 AI 世界模拟器,助力自动驾驶汽车学习
Tesla开发AI世界模拟器,通过合成视频环境训练自动驾驶系统,降低真实数据依赖,并可能拓展至人形机器人应用。
世界模型和世界模拟器的概念,从两年前春节的时候sora概念的提出,就一直持续到今天。贴几张原文中的视频图片,缩小到这个程度来看,写实程度和画面连贯度还是很棒的,只是不能交互的话,机器人真的可以学会吗?
原文链接
刚完成亿元级融资,他要如何挑战 AI 硬件的‘不可能三角’|对谈马啸:未来智能创始人/CEO
未来智能CEO马啸解析AI硬件创业,通过聚焦办公场景、优化续航至9-10小时、攻克蓝牙语音实时转写技术,平衡‘不可能三角’打造AI耳机。强调硬件需先满足基础功能,再叠加AI能力,并指出AI硬件将成为大模型的‘耳朵和眼睛’,推动人机协同。
这也是一个有趣的想法,AI时代的入口会是什么呢?现在很多人赌的是AI眼镜,只是眼镜这个外设,是一个用户习惯养成的问题,很多人是不带眼镜的,而且目前眼镜的续航也不太能达到10h+,所以AI耳机或许也是一个值得探索的方向。只是,AI耳机如何看见物理世界呢?让我想到苹果airpod添加摄像头的那个专利…难道,是真的?
原文链接

