当前位置: 首页 > news >正文

DigitalOcean Gradient™ 平台上线 fal 四款多模态 AI 模型:快速生成图像与音频

DigitalOcean 云平台近期宣布,来自 fal.ai 的四个多模态 AI 模型已在 DigitalOcean Gradient™ AI 平台上架,现在可通过 Serverless Inference 以公开预览版的形式使用。借助这些模型,你可以直接通过 API 生成图像和音频,无需操心基础设施、扩缩容或供应商管理。此次发布后,构建包含视觉与音频内容的 AI 驱动应用变得前所未有的简单。

对于不熟悉 fal.ai 的开发者来说,这里简单介绍一下。它是一家专注于为 生成式媒体(Generative Media) 提供高性能 AI 部署平台的公司。简单来说,fal.ai 致力于解决 AI 模型推理速度慢、部署复杂的问题。他们提供了一个 Serverless 环境,让开发者能够通过简单的 API 快速、高效地运行 文生图、图生视频 等大规模 AI 模型,而无需管理底层 GPU 基础设施。fal.ai 的使命是提供行业领先的推理速度和效率,以加速 AI 驱动的创意应用的开发。

在此次发布中,fal.ai 的角色是高性能服务提供商,将这些强大的模型带到 DigitalOcean 平台上。

探索新模型

以下 fal.ai 的模型已进入公开预览版本,涵盖多种模态,可以帮助你快速实验、原型化并部署多模态 AI 功能:

图像生成的模型有:

  • Stable Diffusion XL fast (fal-ai/fast-sdxl) – 高分辨率图像生成
  • FLUX.1 (schnell) (fal-ai/flux/schnell) – 快速出图,适合快速原型

音频生成的模型有:

  • Stable Audio (fal-ai/stable-audio-25/text-to-audio) – 将文本转换为自然听感的音频
  • ElevenLabs TTS Multilingual v2 9 (fal-ai/elevenlabs/tts/multilingual-v2) – 多语种文本转语音

这些模型均通过 Serverless Inference 提供,你可在 DigitalOcean Gradient AI 平台上沿用已有的简单 API 工作流来生成图像与音频。

如何使用?

你可立即通过 Serverless Inference API(https://inference.do-ai.run)开始使用这些模型。以下是调用示例:

示例 1:生成图像

export MODEL_ACCESS_KEY="YOUR_KEY"
curl -sS -X POST "https://inference.do-ai.run/v1/async-invoke" \-H "Authorization: Bearer $MODEL_ACCESS_KEY" \-H "Content-Type: application/json" \-d '{"model_id": "fal-ai/flux/schnell","input": { "prompt": "A high-quality photo of a futuristic city at sunset" }}'

示例 2:带自定义参数生成图像

curl -sS -X POST 'https://inference.do-ai.run/v1/async-invoke' \-H "Authorization: Bearer $MODEL_ACCESS_KEY" \-H "Content-Type: application/json" \-d '{"model_id": "fal-ai/fast-sdxl","input": {"prompt": "A high-quality photo of a futuristic city at sunset","output_format": "landscape_4_3","num_inference_steps": 4,"guidance_scale": 3.5,"num_images": 1,"enable_safety_checker": true},"tags": [{ "key": "type", "value": "test" }]}'

示例 3:生成声音

curl -sS -X POST 'https://inference.do-ai.run/v1/async-invoke' \-H "Authorization: Bearer $MODEL_ACCESS_KEY" \-H "Content-Type: application/json" \-d '{"model_id": "fal-ai/stable-audio-25/text-to-audio","input": {"prompt": "Futuristic epic song","seconds_total": 60},"tags": [{ "key": "type", "value": "test" }]}'

示例 4:文本转语音(TTS)

curl -sS -X POST 'https://inference.do-ai.run/v1/async-invoke' \-H "Authorization: Bearer $MODEL_ACCESS_KEY" \-H "Content-Type: application/json" \-d '{"model_id": "fal-ai/elevenlabs/tts/multilingual-v2","input": {"text": "Hello, this is a text to speech example using Digital Ocean multilingual voice."},"tags": [{ "key": "type", "value": "test" }]}'

上述调用会启动作业并返回 request_id,可用于查询结果。由于 Serverless Inference 采用异步 API,你需要轮询直到任务完成。

/status 端点非常轻量,可频繁查询。当响应显示以下状态时

{ "status": "COMPLETE" }

这说明已经可通过 /async-invoke/{request_id} 端点获取完整结果:

curl -sS -X GET "https://inference.do-ai.run/v1/async-invoke/{request_id}" \-H "Authorization: Bearer $MODEL_ACCESS_KEY"

用 fal 在 DigitalOcean 实现创意

对于希望快速开发 AI 应用的开发者来说,时间就是金钱。自己部署虽然给予最大控制权,但耗时耗力,成本高昂。而使用 DigitalOcean 上的 fal.ai 服务,就是用一个简单的 API 调用,换取高效率、低成本的自动运维和专业的模型性能优化

随着这四款多模态模型进入公开预览,你现在无需管理任何基础设施,就能构建更丰富的 AI 体验,生成图像与音频。

本次发布标志着 DigitalOcean 与 fal 的合作进一步扩展,通过 Gradient AI 平台为开发者带来高性能的图像与语音生成模型。如果你需要了解更多详情,包括 DigitalOcean Gradient AI 平台上的各种GPU Droplet服务器,比如H200、H100、MI325X、L40S等,你可以咨询 DigitalOcean 中国区独家战略合作伙伴卓普云aidroplet.com。

http://www.dtcms.com/a/523870.html

相关文章:

  • 5、服务器互连技术(小白入门版)
  • 我爱学算法之—— 分治-归并
  • 济南高新区 网站制作wordpress直接购买
  • 织梦网站首页幻灯片不显示新华美玉官方网站在线做
  • 蓝色星球如何打造能与企业共同进化的灵活系统
  • 【问题】在VSCode中设置conda的Python环境
  • NGINX 负载均衡应用实战:从配置到策略的深度解析
  • 关于buildroot文件系统中rootfs的内容,该怎么增删(瑞芯微rv1126b)
  • Qt 入门简洁笔记:信号与槽
  • 算法入门---专题二:滑动窗口2(最大连续1的个数,无重复字符的最长子串 )
  • 手机摄像头如何识别体检的色盲检查图的数字和图案(下)
  • 政务系统信创改造中,金仓日志如何满足等保2.0三级审计要求
  • 记录一个监控网卡某个IP发送流量
  • Python-UnitTest框架
  • 模型-模型压缩:量化、剪枝、蒸馏、二值化
  • UE5 蓝图-12:pawn蓝图,轴映射-鼠标右键,补充轴映射与操作映射的区别。相机的旋转俯仰逻辑,伸缩逻辑,浮点差值函数 FInterpTo;
  • Vcenter7使用主机配置文件重置ESXI主机 root 密码
  • STL 容器:List
  • 做网站销售好累网上开店的货源渠道有哪些
  • 图像,视频Lora模型训练的Timestep Type时间步类型
  • 告别云端依赖!ComfyUI本地化视频生成实战教程+cpolar实战
  • Android16之如何获取APP、Bin进程的UID(二百六十三)
  • 在JavaScript / HTML中,无法通过开发者工具查看DOM元素中input里输入的密码
  • 像素塔防游戏:像素守卫者
  • 什么是栈?深入理解 JVM 中的栈结构
  • Go Web 编程快速入门 07.2 - 模板(2):解析与执行(含Demo)
  • 公司用wordpress建站用花钱大连网站设计开发
  • 建设网站需要下载神呢软件吗重庆企业网站推广公司
  • 常规面光源在工业视觉检测上的应用
  • 数据结构——直接插入排序