【2025年Q3】AI生产力再探再报:社恐专用写作、动嘴剪视频、AI点外卖?这波AI工具太野了!
前言
2025年8-9月的个人学习笔记。
一、工具尝鲜快报:好玩的,初探感觉不错,但还未十分深入的工具。
二、生产力军火库:好用的,开箱即用的神器,或一些隐藏的技巧。
三、前沿动态回顾:好看的,个人感兴趣的新工具、动态信息,或一些优质资料。
一、工具尝鲜快报
1.Langchain
之前笔者在开发 RAG 应用时体验了 Dify ,感觉用其中预设的模式自由度还不够高,便想尝试一下纯编码方案,Langchain 是个不错的选择,主要尝试了以下十个方面:
-
- TextLoader
用途:在构建知识库或问答系统时,需要将文本数据加载到系统中,对文本文件进行分词、清洗等预处理操作。
from langchain_community.document_loaders import TextLoader
- TextLoader
-
- RecursiveCharacterTextSplitter
用途:将长文档分割成适合模型处理的短文本块。
from langchain.text_splitter import RecursiveCharacterTextSplitter
- RecursiveCharacterTextSplitter
-
- Document
用途:表示一个文档对象,包含文本内容和元数据,在知识库中存储和管理文档,在不同的处理步骤之间传递文档数据。
from langchain.docstore.document import Document
- Document
-
- Chroma
用途:使用Chroma作为向量数据库,用于存储和检索向量化的文本。
from langchain.vectorstores import Chroma
- Chroma
-
- GPT4AllEmbeddings
用途:使用 GPT4All 模型生成文本嵌入,将文本转换为向量表示,以便进行语义分析。
from langchain.embeddings import GPT4AllEmbeddings
- GPT4AllEmbeddings
-
- Ollama
用途:使用 Ollama 提供本地 LLM 服务。
from langchain.llms import Ollama
- Ollama
-
- CallbackManager
用途:管理回调函数,用于处理模型输出和事件,实时监控模型处理进度和状态。
from langchain.callbacks.manager import CallbackManager
- CallbackManager
-
- StreamingStdOutCallbackHandler
用途:将模型输出实时流式传输到标准输出,在调试过程中实时查看模型输出。
from langchain.callbacks.streaming_stdout import StreamingStdOutCallbackHandler
- StreamingStdOutCallbackHandler
-
- RetrievalQA
用途:构建检索增强的问答系统,在知识库中检索相关信息并生成回答。
from langchain.chains import RetrievalQA
- RetrievalQA
-
- PromptTemplate
用途:定义和使用提示模板,在不同任务中复用相同的提示模板,提高开发效率。
from langchain import PromptTemplate
- PromptTemplate
2.CloudBase AI CLI
鹅厂发布的 AI 命令行工具,集成了各家的 AI Code 工具,安装和配置方便,可以自由切换。笔者尝试了一下在 Claude Code 中通过 PlayWright MCP 进行浏览器自动化,还是挺好玩的,有空再单独写一篇。相比 AI IDE 可能在某些场景更便利,还有待进一步试验,最大优势应该还是可以和小程序等生态连接的更紧密且便捷。以下为官方介绍:
CloudBase AI CLI 是一个集成多种主流 AI 编程工具的统一命令行工具,支持内置模型和自定义模型
让你能够通过一个简单的命令使用 CodeBuddy Code、Claude Code、OpenAI Codex、aider、Qwen Code 等 AI 编程助手。同时内置CloudBase AI Toolkit,支持从开发到部署的完整流程,支持在任意环境中运行。
官方文档:https://docs.cloudbase.net/cli-v1/ai/introduce
3.Vibe Analyzing
笔者瞎编的词,对应 Vibe Coding 的概念。将豆包的产品更新日志解析后,丢给 AI 分析豆包的发展意图,于是得到了有趣的——
总结:豆包正在复刻微信级别的“超级入口 + 数据飞轮”——
第一步,用无限云盘和全场景入口把“个人/企业全量数据”吸进来;
第二步,用多模态生成能力把数据立刻变现为可交付的图文、音视频、代码、网站;
第三步,让生成结果再沉淀为新的训练语料与 RAG 知识,循环增强;
第四步,通过离线本地、隐私保护、企业版授权把最后一块“不敢上云”的市场也吃掉。
最终目标:用户打开电脑前先开豆包,像呼吸一样自然;离开豆包,工作、学习、娱乐都无法运转。
做竞品分析时,可以将不同厂商的产品更新日志都收集起来,既能快速发现其内部战略思想,也能掌握行业方向。
4.AutoGLM APP
智谱推出的移动端智能体APP,即在手机上装了个可以启动云手机或云PC的虚拟环境,预装了各类常用软件,例如各大外卖、电商APP,手动登录账号后,可通过自然语言命令执行选品、下单等操作,或是在短视频、社区APP中编辑发布内容。
目前来说还是个玩具,执行效率较低,也容易出错,但只用动嘴就能管理生活和工作的贾维斯,终将到来!另外还有阿里的无影AgentBay,也是个云电脑 Agent。
对比维度 | AutoGLM APP | 无影AgentBay |
---|---|---|
产品定位 | 面向个人用户和中小企业用户的智能助理应用 | 企业级AI助手基础设施平台 |
核心功能 | 通过语音或文字指令自主执行复杂任务,如跨应用操作、网页浏览、数据分析等 | 提供强大的任务执行能力,支持跨系统操作和实时并发任务处理 |
技术特点 | 基于GLM系列模型,具备深度学习、自然语言处理和GUI操控能力 | 融合知识图谱和逻辑推理引擎,具备自进化引擎、自定义快照、安全围栏等新能力 |
交互方式 | 主要通过GUI操控,模拟人类在手机和网页上的操作 | 支持多系统操作,能够调用Windows、Linux、Android等多个系统的软件 |
应用场景 | 日常生活和办公场景,如点外卖、订机票、查房源、撰写报告、制作PPT等 | 企业级应用,如智能运维、数据分析、任务调度等 |
用户体验 | 用户只需发出指令,AutoGLM即可在云端执行任务,提供无缝的操作体验 | 提供高度自主和智能的交互方式,用户可以通过简单的指令实现复杂的操作 |
优缺点 | 优点:强大的GUI操控能力,云端执行,不占用本地资源; 缺点:对网络依赖较大,处理高度专业化任务时可能需要优化 | 优点:强大的云端算力支持,多系统操作能力,自进化引擎; 缺点:主要面向企业用户,个人用户可能难以充分利用,成本较高 |
二、生产力军火库
1.社恐专用编辑器
嘛,这个到底算不算生产力呢,如果是在人多的时候不好意思暴露屏幕输入的工作内容,这种场景下就是生产力了!嗯,没错。总之就是再换行后,上一行的输入会逐渐变淡,输入第五行时第一行就看不见啦~
地址:https://write.sonnet.io/
2.napkin
将文本内容智能转化为 PPT 式图形表达,即文档总结+可视化,像是 AI PPT 的模块拆解版,一次生成一页。想不出 PPT 内容要怎么排版或要换换不同的 AI PPT 口味时可以试试。但注册所用邮箱有限制,最简单的方案是用微软的 outlook 邮箱,无需魔法,比 google 邮箱易操作。
3.Zread
强化版的 deepwiki ,用来解析一个项目构成,帮助新加入或打算学习项目的技术人员,但是要排队使用。
开源项目深度学习:输入 GitHub 仓库,Zread 会生成包含架构解析、模块说明、设计模式的向导,同时支持多仓库对比、分层解读与 GitHub Trending 项目逻辑拆解。
快速接手历史代码库:自动梳理项目结构、模块依赖,生成系统性文档,帮助开发者快速进入状态,即便面对文学名著一样的高山代码也能快速上手。.
构建团队知识协作系统:提供贡献者图谱、社区评论聚合、交互式批注与问答,支持上传私有项目,构建团队内部的知识库和技术文档体系。
4.Trae / Qcode / CodeBuddy
再次向大家推荐国产的 AI IDE 御三家:字节的 Trae,阿里的 Qcode,腾讯的 CodeBuddy。套不套壳 VS CODE 无所谓,免费、便捷,它不香吗!开启魔法折腾一堆账号去订阅啥啥的还会被封禁,罢了,复刻魔改国外的先进技术?种花家向来不怕落后,只怕卡脖子。它们还不够好,正因如此,才更需要我们去使用和鞭策。没有枪没有炮敌人给我们造的时代已经过去了,快戳 ↓ ↓ ↓
Trae:https://docs.trae.cn/ide/what-is-trae?_lang=zh
Qcode:https://qoder.com/
CodeBuddy:https://copilot.tencent.com/ide/
5.WPS AI 3.0
笔者在 3 月写《关于AI数据分析可行性的初步评估》(点击直达)这篇时就看好 WPS,这半年来它又进步了不少,可喜可贺。
三、前沿动态回顾
(一)国内动态
1.开源狂魔阿里系
通义的上层产品体验开始有所改善,基座模型则是越战越勇,最近又开源了多少好东西真是数不过来了,版本更新太快了。记录几个笔者个人感兴趣的。
- Qwen 3:全模态的 Omni,万亿参数的 Max,Instruct 与 Thinking 双版本的视觉模型 VL,升级版的 Coder-Plus,安全审核用的 Guard。
- Qwen-Image:图像编辑又出黑马,动嘴 P 图有了更多的选择。
- Wan2.5:9月发布的多模态生成模型,支持文生视频、图生视频、文生图和图像编辑四大功能,核心突破在于首次实现原生音画同步。
- Neovate Code:支付宝体验技术部开源的智能编程助手,目前 CLI 工具形态提供,未来还将支持 IDE 扩展、Web 应用、原生应用等。
- FluidMarkdown:支付宝开源的移动端流式 Markdown 渲染引擎,基于 CommonMark 规范实现,覆盖标题、列表、表格、代码块、数学公式、超链接、图片等完整语法,并支持部分 HTML 标签扩展。
- Nexus-Gen:ModelScope 团队开发的多模态图像处理模型,结合大语言模型的语言推理能力和扩散模型的图像合成能力,支持图像理解、生成与编辑任务。
2.不甘示弱字节系
- Seed LiveInterpret 2.0:端到端同声传译模型,延迟最低至2秒,可在多人会议里实现中英互译,并支持零样本声音复刻。
- 即梦图片4 (Seedream 4.0):之前经常用豆包生图,比通义万相好用,现在两家双双更新,还得好好玩一玩。
3.少不了的腾讯系
HunyuanWorld:腾讯开源的 3D 场景生成模型,支持文生/图生 3D,在连贯性和可交互性上表现不错,堪称世界生成器。
4.来太晚啦百度系
Qianfan-VL:百度开源的视觉理解模型,覆盖 3B、8B 和 70B 三个规模版本,均在自研昆仑芯 P800 芯片集群上完成训练,定位于图文理解、OCR 识别及教育场景优化。
5.随一根吧京东系
京东大模型品牌 JoyAI
- 推出三大用户端产品:智能购物应用「京犀」,提供个性化推荐与全场景生活服务;数字人交互应用「他她它 App」,支持情感交互与 AI 社交圈;JoyInside 2.0 平台,为机器人、AI 玩具等硬件提供「大脑」。
- 三大 AI 深度应用平台:京东数字人平台 4.0,高效推理,直播成本远低于真人主播;JoyAgent 3.0,集成多模态 RAG 与 DataAgent,成为企业「智能决策中枢」;JoyCode 2.0,智能编码助手。
6.异军突起小红书
dots.vlm1:小红书开源的多模态大模型,啊这,啊,好,那么下一个该到拼多多了吧。
7.冒泡了昆仑万维
Matrix-Game2.0:昆仑万维(它家的大模型就是天工 Skywork 啦,之前也发布了通用智能体)发布的交互式世界模型升级版本,主要在通用场景下实现实时长序列交互生成,并成为业内首个在通用场景开源的实时长序列交互式生成模型。
(二)国外动态
1.Google
- Gemma3 270M:超小规模却表现不俗,适合 AI 应用构建的快速验证或低成本微调使用。
- nano-banana:大香蕉~ 大香蕉 ~
- Genie 3:谷歌首个支持“实时交互”的世界模型,可以通过方向键在生成的视频里全景游玩,和腾讯的 3D 世界不同,是“实时”的视觉平面。
2.OpenAI
- GPT-oss:CloseAI 终于开源了,自 2019 年的 GPT-2 后时隔五年,体验下来中规中矩吧。
- Sora2:真丶世界模型降临,爬回跌落的王座?
3.其他
MCP
- Windows MCP:轻量级、开源的Python项目,旨在让大型语言模型能够像人类一样与Windows操作系统进行原生交互。
- Office-PowerPoint-MCP-Server:一个基于 Python 的服务器,允许 AI 模型通过自然语言指令操作 PowerPoint 和 Excel 等 Office 应用。
视频生成 or 编辑
- Aleph:Runway 推出的 AI 视频生成和编辑模型,它并非传统意义上的文生视频工具,而是专注于对现有视频素材进行深度、连贯的编辑,动嘴 P 图后又可以动嘴剪辑啦。
- Lucy Edit:任凭你强,必有开源平替,基于 Wan2.2 5B 架构的开源视频编辑模型。
- Ray3:Luma AI 推出的支持 HDR 与推理能力的视频生成模型。
视觉识别
- DINOv3:Meta AI 推出的通用视觉基础模型,通过大规模自监督学习进行训练,无需依赖海量标注数据即可学习到丰富的图像表示能力。
- LFM2-VL:Liquid AI 推出的新一代视觉-语言基础模型系列,专为智能手机、笔记本电脑、可穿戴设备和嵌入式系统等终端设备设计,具备高效部署、低延迟和高精度等特点。
妙妙屋
- Cluely AI: 一个设计用来帮你在线上面试时作弊的 AI,地址 https://cluely.com
- Beatcluely:五步之内必有解药,生成虚假技术问题帮你防止别人面试作弊的工具,地址 https://beatcluely.com
- LMArena:社区驱动的大语言模型竞技场,用户会同时看到两个匿名模型对同一问题的回答,并投票选出更好的一个。在谷歌大香蕉正式发布之前,大伙儿都会到这里来抽卡体验。
- AI伴侣 EVE:提供超越传统聊天机器人的深度情感连接和长期陪伴,打造“超级对齐”的灵魂伴侣 ,集成了3D角色、剧情互动、游戏化玩法以及先进的AI对话与记忆系统。
- OpenCUA:一个在操作系统通用智能体(Generalist Agent)领域表现出色的模型。规模从30亿到320亿参数不等,在OSWorld-Verified 等基准测试中,其性能超越了 GPT-4o 等顶级模型,展现了强大的泛化能力。
(三)趣文推荐
同样的示例,放在prompt的不同位置,竟会导致模型答案天差地别!
https://mp.weixin.qq.com/s/BZsI1oeYvs-hHm58WMlyYQ
应该怎么跟人解释Vibe Coder这个标签?
https://mp.weixin.qq.com/s/aMqyH-aZ3AACgi7umQpa0A?click_id=16
真开眼了!利用招聘来盗取加密货币?
https://mp.weixin.qq.com/s/qJ5lLTQING_JfiK4Zi93UA
AI 的「成本」,正在把所有人都拖下水
https://mp.weixin.qq.com/s/KQCtSove8NOT36TLWFQDcg
后记
近几天还有 DeepSeek V3.2、 Claude4.5、GLM-4.6…AI 的发展真可谓是字面上的日新月异,之后大概会以季度为周期来更新这个系列吧,然后尽量多发布一下实践性的专题文章(咕咕~)。这里是年假还没开始休的牛马 Seon塞翁,下一篇见!~