当前位置：首页 > news >正文

AI 日报：阿里、字节等企业密集发布新技术，覆盖语音、图像与药物研发等领域

news 2025/7/4 16:11:33

2025 年 7 月 1 日，AI 领域迎来多项技术突破与产品更新：阿里巴巴推出方言语音合成模型，字节跳动发布精准图像合成技术，Cursor 扩展至网页与移动端，另有多款 AI 工具在笔记管理、动画可视化、药物研发等场景落地，展现出技术多元化应用的强劲势头。

语音合成新突破：阿里 Qwen-TTS 支持多方言与情感调节

阿里巴巴通义团队发布的 Qwen-TTS 模型，在语音合成领域实现显著突破。该模型支持普通话、粤语、四川话等多种中文方言，提供双语音色选择，能通过流式输出技术实时生成自然语音，并可根据文本内容调节情感基调（如亲切、严肃），真实感媲美真人发音。目前，Qwen-TTS 已通过 API 向开发者开放，适用于智能客服、有声教育、娱乐内容生成等场景，大幅降低语音技术的应用门槛。

编码工具扩容：Cursor 登陆网页与移动端，强化协作能力

AI 编码工具 Cursor 推出 Web 版本，实现浏览器与移动端全覆盖，开发者可随时随地管理 AI 编码代理，灵活处理代码生成、调试等任务。新版本新增 Slack 集成功能，支持团队实时共享代码片段与开发进度；同时上线 “高风险后台代理” 模块，可自动识别并预警代码漏洞，提升项目安全性。Cursor 的跨平台扩展，尤其为中小团队和独立开发者提供了轻量化选择，进一步释放 AI 编程的生产力。

图像合成技术革新：字节 XVerse 实现多主体精准控制

字节跳动发布的 XVerse 图像合成技术，核心在于创新的 DiT 调制方法，能对图像中多个个体的身份特征（如面容、姿态）和语义属性（如服饰、动作）进行独立调控。用户仅需输入文字描述或上传参考图，即可生成高保真图像，并通过 Gradio 交互界面实时调整细节。此外，XVerse 内置 “检测与分割” 功能，可自动识别人脸、物体并生成结构化描述，显著提升个性化创作的准确性，为设计、广告等领域提供高效工具。

🌟 DMXAPI 全维度解决方案，重构 AI 开发体验 🌟