当前位置：首页 > news >正文

GoogleAgent-quickstart 学习笔记

news 2025/10/21 19:28:04

官方文档 : google.github.io/adk-docs/get-started/quickstart/

参照官方文档配置环境、创建项目结构、获取APIkey （注意Google AI Studio的API密钥设置了地理位置限制，仅允许特定国家/地区访问，需要先挂代理）

在这里插入图片描述

运行adk web后打开http://localhost:8000/，经测试对话功能和agent的时间、天气查询功能均能正常使用（demo代码仅支持new york单个城市）
在这里插入图片描述

和no streaming的流程基本一样，参照官方文档完成。
在这里插入图片描述

在这里插入图片描述

通过测试发现这个demo虽然代码简短，且仅调用了 google_serach 这一个tool，却可以很有效地识别图片、语音、视频、通过搜索回答实时问题。

ADK Streaming和Gemini模型的协同设计实现了这种"简单调用，多模态响应"的效果，核心原因有三：

模型多模态原生支持：gemini-2.0-flash-exp本身是多模态模型，内置理解图像/语音/视频的能力。ADK Streaming通过框架层自动将音视频流转换为模型可理解的格式，无需额外工具。
实时数据流处理：ADK Streaming架构采用异步双向通信管道，能实时处理流式输入（麦克风/摄像头数据流）并分片传输给模型，同时保持对话上下文连贯。
工具链隐式集成：虽然只显式添加google_search，但ADK底层已集成语音识别（STT）、语音合成（TTS）、视频帧分析等基础工具链，通过参数配置自动激活

这种模式特别适用于AI原生应用开发：用大模型的多模态能力作认知引擎，用框架处理传感器级的信号转换，开发者只需聚焦业务逻辑编排。