GoogleAgent-quickstart 学习笔记
谷歌代理开发工具包 (ADK)快速入门
官方文档 : google.github.io/adk-docs/get-started/quickstart/
一、Quickstart
1.配置环境
参照官方文档配置环境、创建项目结构、获取APIkey (注意Google AI Studio的API密钥设置了地理位置限制,仅允许特定国家/地区访问,需要先挂代理)
2.运行项目
运行adk web后打开http://localhost:8000/,经测试对话功能和agent的时间、天气查询功能均能正常使用(demo代码仅支持new york单个城市)
二、Quickstart (streaming)
1.配置环境
和no streaming的流程基本一样,参照官方文档完成。
2.运行项目
通过测试发现这个demo虽然代码简短,且仅调用了 google_serach 这一个tool,却可以很有效地识别图片、语音、视频、通过搜索回答实时问题。
3.demo分析
ADK Streaming和Gemini模型的协同设计实现了这种"简单调用,多模态响应"的效果,核心原因有三:
-
模型多模态原生支持:gemini-2.0-flash-exp本身是多模态模型,内置理解图像/语音/视频的能力。ADK Streaming通过框架层自动将音视频流转换为模型可理解的格式,无需额外工具。
-
实时数据流处理:ADK Streaming架构采用异步双向通信管道,能实时处理流式输入(麦克风/摄像头数据流)并分片传输给模型,同时保持对话上下文连贯。
-
工具链隐式集成:虽然只显式添加google_search,但ADK底层已集成语音识别(STT)、语音合成(TTS)、视频帧分析等基础工具链,通过参数配置自动激活
这种模式特别适用于AI原生应用开发:用大模型的多模态能力作认知引擎,用框架处理传感器级的信号转换,开发者只需聚焦业务逻辑编排。
4.构建自定义流式app
原先使用的是 ADK 自带的默认界面,这一步使用 FastAPI 和 ADK Streaming 构建自定义流式应用,学习如何集成 ADK 的 agent 到 Web 服务中。(官方文档中给出的代码只包含基础的文字聊天界面)