当前位置: 首页 > news >正文

【2025年Q3】AI生产力再探再报:社恐专用写作、动嘴剪视频、AI点外卖?这波AI工具太野了!

前言
2025年8-9月的个人学习笔记。

一、工具尝鲜快报:好玩的,初探感觉不错,但还未十分深入的工具。
二、生产力军火库:好用的,开箱即用的神器,或一些隐藏的技巧。
三、前沿动态回顾:好看的,个人感兴趣的新工具、动态信息,或一些优质资料。

一、工具尝鲜快报

1.Langchain

之前笔者在开发 RAG 应用时体验了 Dify ,感觉用其中预设的模式自由度还不够高,便想尝试一下纯编码方案,Langchain 是个不错的选择,主要尝试了以下十个方面:

    1. TextLoader
      用途:在构建知识库或问答系统时,需要将文本数据加载到系统中,对文本文件进行分词、清洗等预处理操作。
      from langchain_community.document_loaders import TextLoader
    1. RecursiveCharacterTextSplitter
      用途:将长文档分割成适合模型处理的短文本块。
      from langchain.text_splitter import RecursiveCharacterTextSplitter
    1. Document
      用途:表示一个文档对象,包含文本内容和元数据,在知识库中存储和管理文档,在不同的处理步骤之间传递文档数据。
      from langchain.docstore.document import Document
    1. Chroma
      用途:使用Chroma作为向量数据库,用于存储和检索向量化的文本。
      from langchain.vectorstores import Chroma
    1. GPT4AllEmbeddings
      用途:使用 GPT4All 模型生成文本嵌入,将文本转换为向量表示,以便进行语义分析。
      from langchain.embeddings import GPT4AllEmbeddings
    1. Ollama
      用途:使用 Ollama 提供本地 LLM 服务。
      from langchain.llms import Ollama
    1. CallbackManager
      用途:管理回调函数,用于处理模型输出和事件,实时监控模型处理进度和状态。
      from langchain.callbacks.manager import CallbackManager
    1. StreamingStdOutCallbackHandler
      用途:将模型输出实时流式传输到标准输出,在调试过程中实时查看模型输出。
      from langchain.callbacks.streaming_stdout import StreamingStdOutCallbackHandler
    1. RetrievalQA
      用途:构建检索增强的问答系统,在知识库中检索相关信息并生成回答。
      from langchain.chains import RetrievalQA
    1. PromptTemplate
      用途:定义和使用提示模板,在不同任务中复用相同的提示模板,提高开发效率。
      from langchain import PromptTemplate

2.CloudBase AI CLI

鹅厂发布的 AI 命令行工具,集成了各家的 AI Code 工具,安装和配置方便,可以自由切换。笔者尝试了一下在 Claude Code 中通过 PlayWright MCP 进行浏览器自动化,还是挺好玩的,有空再单独写一篇。相比 AI IDE 可能在某些场景更便利,还有待进一步试验,最大优势应该还是可以和小程序等生态连接的更紧密且便捷。以下为官方介绍:

CloudBase AI CLI 是一个集成多种主流 AI 编程工具的统一命令行工具,支持内置模型和自定义模型
让你能够通过一个简单的命令使用 CodeBuddy Code、Claude Code、OpenAI Codex、aider、Qwen Code 等 AI 编程助手。同时内置CloudBase AI Toolkit,支持从开发到部署的完整流程,支持在任意环境中运行。

官方文档:https://docs.cloudbase.net/cli-v1/ai/introduce

在这里插入图片描述

3.Vibe Analyzing

笔者瞎编的词,对应 Vibe Coding 的概念。将豆包的产品更新日志解析后,丢给 AI 分析豆包的发展意图,于是得到了有趣的——

总结:豆包正在复刻微信级别的“超级入口 + 数据飞轮”——
第一步,用无限云盘和全场景入口把“个人/企业全量数据”吸进来;
第二步,用多模态生成能力把数据立刻变现为可交付的图文、音视频、代码、网站;
第三步,让生成结果再沉淀为新的训练语料与 RAG 知识,循环增强;
第四步,通过离线本地、隐私保护、企业版授权把最后一块“不敢上云”的市场也吃掉。
最终目标:用户打开电脑前先开豆包,像呼吸一样自然;离开豆包,工作、学习、娱乐都无法运转。

做竞品分析时,可以将不同厂商的产品更新日志都收集起来,既能快速发现其内部战略思想,也能掌握行业方向。
在这里插入图片描述

4.AutoGLM APP

智谱推出的移动端智能体APP,即在手机上装了个可以启动云手机或云PC的虚拟环境,预装了各类常用软件,例如各大外卖、电商APP,手动登录账号后,可通过自然语言命令执行选品、下单等操作,或是在短视频、社区APP中编辑发布内容。

目前来说还是个玩具,执行效率较低,也容易出错,但只用动嘴就能管理生活和工作的贾维斯,终将到来!另外还有阿里的无影AgentBay,也是个云电脑 Agent。

对比维度AutoGLM APP无影AgentBay
产品定位面向个人用户和中小企业用户的智能助理应用企业级AI助手基础设施平台
核心功能通过语音或文字指令自主执行复杂任务,如跨应用操作、网页浏览、数据分析等提供强大的任务执行能力,支持跨系统操作和实时并发任务处理
技术特点基于GLM系列模型,具备深度学习、自然语言处理和GUI操控能力融合知识图谱和逻辑推理引擎,具备自进化引擎、自定义快照、安全围栏等新能力
交互方式主要通过GUI操控,模拟人类在手机和网页上的操作支持多系统操作,能够调用Windows、Linux、Android等多个系统的软件
应用场景日常生活和办公场景,如点外卖、订机票、查房源、撰写报告、制作PPT等企业级应用,如智能运维、数据分析、任务调度等
用户体验用户只需发出指令,AutoGLM即可在云端执行任务,提供无缝的操作体验提供高度自主和智能的交互方式,用户可以通过简单的指令实现复杂的操作
优缺点优点:强大的GUI操控能力,云端执行,不占用本地资源;
缺点:对网络依赖较大,处理高度专业化任务时可能需要优化
优点:强大的云端算力支持,多系统操作能力,自进化引擎;
缺点:主要面向企业用户,个人用户可能难以充分利用,成本较高

二、生产力军火库

1.社恐专用编辑器

嘛,这个到底算不算生产力呢,如果是在人多的时候不好意思暴露屏幕输入的工作内容,这种场景下就是生产力了!嗯,没错。总之就是再换行后,上一行的输入会逐渐变淡,输入第五行时第一行就看不见啦~
地址:https://write.sonnet.io/
在这里插入图片描述

2.napkin

将文本内容智能转化为 PPT 式图形表达,即文档总结+可视化,像是 AI PPT 的模块拆解版,一次生成一页。想不出 PPT 内容要怎么排版或要换换不同的 AI PPT 口味时可以试试。但注册所用邮箱有限制,最简单的方案是用微软的 outlook 邮箱,无需魔法,比 google 邮箱易操作。
在这里插入图片描述

3.Zread

强化版的 deepwiki ,用来解析一个项目构成,帮助新加入或打算学习项目的技术人员,但是要排队使用。

开源项目深度学习:输入 GitHub 仓库,Zread 会生成包含架构解析、模块说明、设计模式的向导,同时支持多仓库对比、分层解读与 GitHub Trending 项目逻辑拆解。
快速接手历史代码库:自动梳理项目结构、模块依赖,生成系统性文档,帮助开发者快速进入状态,即便面对文学名著一样的高山代码也能快速上手。.
构建团队知识协作系统:提供贡献者图谱、社区评论聚合、交互式批注与问答,支持上传私有项目,构建团队内部的知识库和技术文档体系。

4.Trae / Qcode / CodeBuddy

再次向大家推荐国产的 AI IDE 御三家:字节的 Trae,阿里的 Qcode,腾讯的 CodeBuddy。套不套壳 VS CODE 无所谓,免费、便捷,它不香吗!开启魔法折腾一堆账号去订阅啥啥的还会被封禁,罢了,复刻魔改国外的先进技术?种花家向来不怕落后,只怕卡脖子。它们还不够好,正因如此,才更需要我们去使用和鞭策。没有枪没有炮敌人给我们造的时代已经过去了,快戳 ↓ ↓ ↓

Trae:https://docs.trae.cn/ide/what-is-trae?_lang=zh
Qcode:https://qoder.com/
CodeBuddy:https://copilot.tencent.com/ide/

5.WPS AI 3.0

笔者在 3 月写《关于AI数据分析可行性的初步评估》(点击直达)这篇时就看好 WPS,这半年来它又进步了不少,可喜可贺。

三、前沿动态回顾

(一)国内动态

1.开源狂魔阿里系

通义的上层产品体验开始有所改善,基座模型则是越战越勇,最近又开源了多少好东西真是数不过来了,版本更新太快了。记录几个笔者个人感兴趣的。

  • Qwen 3:全模态的 Omni,万亿参数的 Max,Instruct 与 Thinking 双版本的视觉模型 VL,升级版的 Coder-Plus,安全审核用的 Guard。
  • Qwen-Image:图像编辑又出黑马,动嘴 P 图有了更多的选择。
  • Wan2.5:9月发布的多模态生成模型,支持文生视频、图生视频、文生图和图像编辑四大功能,核心突破在于首次实现原生音画同步。
  • Neovate Code:支付宝体验技术部开源的智能编程助手,目前 CLI 工具形态提供,未来还将支持 IDE 扩展、Web 应用、原生应用等。
  • FluidMarkdown:支付宝开源的移动端流式 Markdown 渲染引擎,基于 CommonMark 规范实现,覆盖标题、列表、表格、代码块、数学公式、超链接、图片等完整语法,并支持部分 HTML 标签扩展。
  • Nexus-Gen:ModelScope 团队开发的多模态图像处理模型,结合大语言模型的语言推理能力和扩散模型的图像合成能力,支持图像理解、生成与编辑任务。

2.不甘示弱字节系

  • Seed LiveInterpret 2.0:端到端同声传译模型,延迟最低至2秒,可在多人会议里实现中英互译,并支持零样本声音复刻。
  • 即梦图片4 (Seedream 4.0):之前经常用豆包生图,比通义万相好用,现在两家双双更新,还得好好玩一玩。

3.少不了的腾讯系

HunyuanWorld:腾讯开源的 3D 场景生成模型,支持文生/图生 3D,在连贯性和可交互性上表现不错,堪称世界生成器。

4.来太晚啦百度系

Qianfan-VL:百度开源的视觉理解模型,覆盖 3B、8B 和 70B 三个规模版本,均在自研昆仑芯 P800 芯片集群上完成训练,定位于图文理解、OCR 识别及教育场景优化。

5.随一根吧京东系

京东大模型品牌 JoyAI

  • 推出三大用户端产品:智能购物应用「京犀」,提供个性化推荐与全场景生活服务;数字人交互应用「他她它 App」,支持情感交互与 AI 社交圈;JoyInside 2.0 平台,为机器人、AI 玩具等硬件提供「大脑」。
  • 三大 AI 深度应用平台:京东数字人平台 4.0,高效推理,直播成本远低于真人主播;JoyAgent 3.0,集成多模态 RAG 与 DataAgent,成为企业「智能决策中枢」;JoyCode 2.0,智能编码助手。

6.异军突起小红书

dots.vlm1:小红书开源的多模态大模型,啊这,啊,好,那么下一个该到拼多多了吧。

7.冒泡了昆仑万维

Matrix-Game2.0:昆仑万维(它家的大模型就是天工 Skywork 啦,之前也发布了通用智能体)发布的交互式世界模型升级版本,主要在通用场景下实现实时长序列交互生成,并成为业内首个在通用场景开源的实时长序列交互式生成模型。

(二)国外动态

1.Google

  • Gemma3 270M:超小规模却表现不俗,适合 AI 应用构建的快速验证或低成本微调使用。
  • nano-banana:大香蕉~ 大香蕉 ~
  • Genie 3:谷歌首个支持“实时交互”的世界模型,可以通过方向键在生成的视频里全景游玩,和腾讯的 3D 世界不同,是“实时”的视觉平面。

2.OpenAI

  • GPT-oss:CloseAI 终于开源了,自 2019 年的 GPT-2 后时隔五年,体验下来中规中矩吧。
  • Sora2:真丶世界模型降临,爬回跌落的王座?

3.其他

MCP

  • Windows MCP:轻量级、开源的Python项目,旨在让大型语言模型能够像人类一样与Windows操作系统进行原生交互。
  • Office-PowerPoint-MCP-Server:一个基于 Python 的服务器,允许 AI 模型通过自然语言指令操作 PowerPoint 和 Excel 等 Office 应用。

视频生成 or 编辑

  • Aleph:Runway 推出的 AI 视频生成和编辑模型,它并非传统意义上的文生视频工具,而是专注于对现有视频素材进行深度、连贯的编辑,动嘴 P 图后又可以动嘴剪辑啦。
  • Lucy Edit:任凭你强,必有开源平替,基于 Wan2.2 5B 架构的开源视频编辑模型。
  • Ray3:Luma AI 推出的支持 HDR 与推理能力的视频生成模型。

视觉识别

  • DINOv3:Meta AI 推出的通用视觉基础模型,通过大规模自监督学习进行训练,无需依赖海量标注数据即可学习到丰富的图像表示能力。
  • LFM2-VL:Liquid AI 推出的新一代视觉-语言基础模型系列,专为智能手机、笔记本电脑、可穿戴设备和嵌入式系统等终端设备设计,具备高效部署、低延迟和高精度等特点。

妙妙屋

  • Cluely AI: 一个设计用来帮你在线上面试时作弊的 AI,地址 https://cluely.com
  • Beatcluely:五步之内必有解药,生成虚假技术问题帮你防止别人面试作弊的工具,地址 https://beatcluely.com
  • LMArena:社区驱动的大语言模型竞技场,用户会同时看到两个匿名模型对同一问题的回答,并投票选出更好的一个。在谷歌大香蕉正式发布之前,大伙儿都会到这里来抽卡体验。
  • AI伴侣 EVE:提供超越传统聊天机器人的深度情感连接和长期陪伴,打造“超级对齐”的灵魂伴侣 ,集成了3D角色、剧情互动、游戏化玩法以及先进的AI对话与记忆系统。
  • OpenCUA:一个在操作系统通用智能体(Generalist Agent)领域表现出色的模型。规模从30亿到320亿参数不等,在OSWorld-Verified 等基准测试中,其性能超越了 GPT-4o 等顶级模型,展现了强大的泛化能力。

(三)趣文推荐

同样的示例,放在prompt的不同位置,竟会导致模型答案天差地别!
https://mp.weixin.qq.com/s/BZsI1oeYvs-hHm58WMlyYQ
应该怎么跟人解释Vibe Coder这个标签?
https://mp.weixin.qq.com/s/aMqyH-aZ3AACgi7umQpa0A?click_id=16
真开眼了!利用招聘来盗取加密货币?
https://mp.weixin.qq.com/s/qJ5lLTQING_JfiK4Zi93UA
AI 的「成本」,正在把所有人都拖下水
https://mp.weixin.qq.com/s/KQCtSove8NOT36TLWFQDcg

后记

近几天还有 DeepSeek V3.2、 Claude4.5、GLM-4.6…AI 的发展真可谓是字面上的日新月异,之后大概会以季度为周期来更新这个系列吧,然后尽量多发布一下实践性的专题文章(咕咕~)。这里是年假还没开始休的牛马 Seon塞翁,下一篇见!~

http://www.dtcms.com/a/431135.html

相关文章:

  • 安溪网站建设上海营销型网站建设费用
  • Redis线上操作最佳实践有哪些?
  • Springboot调用Ollama本地大模式
  • 珠海图远建设公司网站网站制作课程介绍
  • 【unity实战】实现TPS第三人称射击游戏武器灵动、自然的瞄准效果(IK | Animation Rigging | TPS)
  • Python基础(②⑤Mycat读写分离)
  • 接口自动化测试 - pytest [1]
  • 销售平台网站建设wordpress推广模板
  • C++ 异常处理全解析:从语法到设计哲学
  • 面向开发人员的macOS入门教程
  • 用自己电脑做服务器建网站apache创建WordPress
  • InfiniBand 深度解析
  • springboot websocket 原理
  • UniVTG: Towards Unified Video-Language Temporal Grounding
  • html做网站头部dw网页
  • 一键获取Node.js进程信息:实用工具函数分享
  • ML4T - 第7章第7节 逻辑回归拟合宏观数据Logistic Regression with Macro Data
  • 宿州学校网站建设东营城乡建设局官网
  • 从通用人工智能(AGI)到超级智能(ASI):演化、挑战与启示
  • CycloneDX:全栈软件供应链安全标准解读及优势分析
  • Python 线程同步原语大全:Lock、RLock、Semaphore、Condition、Event实战
  • 青岛网站建设在哪温州高端网站定制
  • keil5添加其他芯片包pack文件的方式
  • 短剧小程序跨端适配实战:UniApp / 原生开发选型与多终端体验一致性保障
  • 第四周作业(包括小组网页设计-对Bootstrap的初步了解)
  • 算法时空博弈:效率与资源的交响诗篇
  • TensorFlow与PyTorch深度对比分析:从基础原理到实战选择的完整指南
  • 图像分类模型 传统训练VS迁移学习训练
  • 专业的东莞网站设计免费制作永久个人网站
  • 【数据结构与算法学习笔记】队列