当前位置: 首页 > news >正文

Google Gemini 体验

文章中代码仓库

gemini

谷歌推出的 AI 只能模型

  • Gemini官网
  • Gemini Chat
  • Gemini开发者文档
  • Gemini SDK

所有模型

模型变体输入输出优化目标
Gemini 2.5 Pro gemini-2.5-pro音频、图片、视频、文本和 PDF文本增强的思考和推理能力、多模态理解能力、高级编码能力等
Gemini 2.5 Flash gemini-2.5-flash音频、图片、视频和文本文本适应性思维,成本效益
Gemini 2.5 Flash-Lite 预览版 gemini-2.5-flash-lite-preview-06-17文本、图片、视频、音频文本最具成本效益且支持高吞吐量的模型
Gemini 2.5 Flash 原生音频 gemini-2.5-flash-preview-native-audio-dialog & gemini-2.5-flash-exp-native-audio-thinking-dialog音频、视频和文本文本和音频,交错显示高质量、自然的对话式音频输出,无论是否经过思考
Gemini 2.5 Flash 预览版 TTS gemini-2.5-flash-preview-tts文本音频低延迟、可控的单语音和多语音文字转语音音频生成
Gemini 2.5 Pro 预览版 TTS gemini-2.5-pro-preview-tts文本音频低延迟、可控的单语音和多语音文字转语音音频生成
Gemini 2.0 Flash gemini-2.0-flash音频、图片、视频和文本文本新一代功能、速度和实时流式传输。
Gemini 2.0 Flash 预览版图片生成 gemini-2.0-flash-preview-image-generation音频、图片、视频和文本文字、图片对话式图片生成和编辑
Gemini 2.0 Flash-Lite gemini-2.0-flash-lite音频、图片、视频和文本文本成本效益和低延迟
Gemini 1.5 Flash gemini-1.5-flash音频、图片、视频和文本文本在各种任务中提供快速而多样的性能 已弃用
Gemini 1.5 Flash-8B gemini-1.5-flash-8b音频、图片、视频和文本文本量大且智能程度较低的任务 已弃用
Gemini 1.5 Pro gemini-1.5-pro音频、图片、视频和文本文本需要更高智能的复杂推理任务 已弃用
Gemini Embedding gemini-embedding-001文本文本嵌入衡量文本字符串的相关性
Imagen 4 imagen-4.0-generate-preview-06-06 imagen-4.0-ultra-generate-preview-06-06文本图片我们最新的图片生成模型
Imagen 3 imagen-3.0-generate-002文本图片高质量图片生成模型
Veo 3 预览版 veo-3.0-generate-preview文本带音频的视频生成包含音效、环境噪音和对话的高品质视频
Veo 2 veo-2.0-generate-001文字、图片视频高质量视频生成
Gemini 2.5 Flash Live gemini-live-2.5-flash-preview音频、视频和文本文字、音频低延迟的双向语音和视频互动
Gemini 2.0 Flash Live gemini-2.0-flash-live-001音频、视频和文本文字、音频低延迟的双向语音和视频互动

引入SDK

go get google.golang.org/genai

设置GEMINI API KEY 环境变量

export GEMINI_API_KEY="your-api-key"

示例

文本生成

  1. 单个文本输入
  2. 思考功能
  3. 系统指令来引导 Gemini 模型的行为
  4. 借助 GenerateContentConfig 对象, 替换默认生成参数
  5. 多模态输入,将文本与媒体文件组合使用
  6. 流式响应
  7. 多轮对话
  8. 流式响应多轮对话

图片生成

  1. 文本生成图片
  2. 图片编辑
  3. 使用 Imagen 模型生成图片 (需要付费)

生成视频

  1. 使用 Veo 3 生成视频 (要使用此模式,请确保您的帐户具有活动的GCP计费)
  2. 根据图片生成视频 (需要付费)

结构化输出

  1. 结构化输出

文档理解

  1. 传递内嵌 PDF 数据
  2. 使用 File API 上传 PDF

图片理解

  1. 传递内嵌图片数据
  2. 使用 File API 上传图片

视频理解

  1. YouTuBe

代码执行

  1. 生成代码, 并执行代码
  2. 在对话中使用代码执行
func main() {// 文本生成text.TexGen()text.TexGenThinking()text.TexGenCli()text.TexGenDefaultConfig()text.TexGenMultiModal()text.TexGenStream()text.TexMultipleRoundsOfDialogue()text.TexGenStreamMultipleRoundsOfDialogue()// 图片生成photo.PhoGen()photo.PhoEdit()photo.ImaGen40GeneratePreview0606()// 生成视频voe3.VeoGen()voe3.ImageGenVideo()// 结构化输出format.FormatToJson()// 代码执行coding.EnableCodingExec()coding.DialogCodingExec()// 文档理解docs.InnerDoc()docs.UploadFileApi()// 图片理解photo.PhoInnerRead()photo.PhoFileApi()// 视频理解video.YouTuBe()
}
http://www.dtcms.com/a/293342.html

相关文章:

  • 从零开始学CTF(第二十五期)
  • 万界星空科技铜线/漆包线行业智能化MES系统解决方案
  • postgresql导入导出数据;pg_restore: error: did not find magic string in file header
  • 基础算法思想(递归篇)
  • 厚铜板载流革命与精密压合工艺——高可靠性PCB批量制造的新锚点
  • Android AppCompat:实现Material Design向后兼容的终极指南
  • IDEA-通过IDEA导入第三方的依赖包
  • [Semantic Seg][KD]FreeKD: Knowledge Distillation via Semantic Frequency Prompt
  • Bigemap Pro自动获取面要素所属行政区划
  • XSS(跨站脚本)
  • 拓展三字棋
  • NumPy库使用教学,简单详细。
  • 星巴克推出免费自习室,拓展第三空间意欲何为?
  • Python的界面美化库 QDarkStyleSheet
  • 使用 Ansys Fluent 软件参数化工作流程对搅拌罐中的稳态涡流进行仿真
  • 大模型后训练——DPO实践
  • 博途V18软件Automation License Manager中发生了内部错误解决方法
  • Coze扣子文生图
  • 作业管理系统(Java + Swing 实现)项目案例分享
  • kafka4.0集群部署
  • Qt中QObject类的核心作用与使用
  • AG32 mcu+cpld 联合编程(概念及流程)
  • 从“点状用例”到“质量生态”:现代软件测试的演进、困局与破局
  • AUTOSAR进阶图解==>AUTOSAR_SWS_CANTransceiverDriver
  • 新版Qwen3深夜突袭:性能超越Kimi-K2、DeepSeek-V3
  • 自定义HAProxy 错误界面
  • 微调大语言模型(LLM)有多难?
  • 西门子博图FB引脚解析,与FC的区别
  • Zabbix 6.0+ 使用官方模板监控 Redis 数据库的完整配置指南
  • KIMI K2:开放式的智能体(Agentic)人工智能