一、免费/有免费额度的API接口(优先推荐)
(一)国内平台(中文友好,无需科学上网)
1. 阿里云百炼(通义千问系列)
支持模型 :Qwen3-8B、Qwen2.5-7B、Qwen Code、Qwen-Math、Qwen-Omni(多模态)免费额度 : 新人注册赠100万Token(有效期90天),覆盖主流模型 Qwen Code:每日2000次免费运行(无Token限制) Qwen-Math/Qwen-Omni:各赠100万Token(有效期90天) 调用限制 :QPS上限5,中国大陆地域可用Python调用示例 :
import dashscope
import os
dashscope. api_key = os. getenv( "DASHSCOPE_API_KEY" )
response = dashscope. TextGeneration. call( model= "qwen3-8b" , prompt= "写一个Python斐波那契数列函数" , parameters= { "max_tokens" : 512 , "temperature" : 0.7 }
)
print ( response. output. choices[ 0 ] . message. content)
response = dashscope. TextGeneration. call( model= "qwen3-coder-plus" , prompt= "实现Flask用户注册接口" , parameters= { "max_tokens" : 1024 }
)
print ( response. output. choices[ 0 ] . message. content)
优势 :兼容OpenAI格式,多模态支持,中文理解能力强
2. 火山方舟(字节跳动)
支持模型 :豆包大模型、DeepSeek-R1/V3免费额度 :个人用户50万Token,企业协作计划500万Token(有效期至2025.12.31)调用限制 :QPS上限20,支持10万Token长文本Python调用示例 (兼容OpenAI):
from openai import OpenAIclient = OpenAI( api_key= os. getenv( "ARK_API_KEY" ) , base_url= "https://ark.cn-beijing.volces.com/api/v3"
)
response = client. chat. completions. create( model= "doubao-pro" , messages= [ { "role" : "user" , "content" : "推荐AI学习路径" } ]
)
print ( response. choices[ 0 ] . message. content)
3. 腾讯混元大模型
支持模型 :混元-7B、混元-13B免费额度 :新用户200万Token(有效期6个月)调用限制 :QPS上限10,支持函数调用优势 :深度整合微信生态
4. 百度千帆大模型平台
支持模型 :ERNIE-Bot 4.0、文心一格(图像生成)免费额度 :个人用户每月30万Token,图像生成免费额度(需单独申请)调用限制 :QPS上限5,支持插件扩展优势 :中文场景优化,智能客服适配性强
(二)国际平台(需科学上网/信用卡)
1. Google Gemini API
支持模型 :Gemini 2.5 Flash(实时)、Gemini 2.5 Pro(长文本)免费额度 : Flash版:每分钟15次请求,每日1.5万Token Pro版:每分钟2次请求,每日50次请求(2M Token上下文) 调用限制 :需绑定信用卡,支持多模态Python调用示例 :
import google. generativeai as genaigenai. configure( api_key= os. getenv( "GEMINI_API_KEY" ) )
model = genai. GenerativeModel( "gemini-2.5-flash" )
response = model. generate_content( "Explain AI in simple terms" )
print ( response. text)
2. OpenAI API
支持模型 :GPT-3.5 Turbo、GPT-4(部分)、DALL·E 3免费额度 :新用户赠5美元(有效期3个月,约5万Token)调用限制 :QPS上限3,需科学上网优势 :生态完善,LangChain深度集成
3. Tavily Search API(AI搜索增强)
核心功能 :专为RAG优化的实时搜索,支持内容提取、问答生成免费额度 :每月1000次API调用(无需信用卡)调用限制 :支持基础/高级搜索深度,失败不扣费Python调用示例 :
from tavily import TavilyClient
import osclient = TavilyClient( api_key= os. getenv( "TAVILY_API_KEY" ) )
response = client. search( "2025 AI发展趋势" , search_depth= "basic" )
print ( "搜索结果:" , [ res[ "title" ] for res in response[ "results" ] ] )
answer = client. qna_search( "谁是当今足球第一人?" )
print ( "问答结果:" , answer)
API Key获取 : 访问Tavily官网注册账户 从用户仪表板复制API Key(格式:tvly-xxxxxx) 优势 :与LangChain/LLM集成度高,搜索结果结构化
二、付费API接口(补充说明)
平台 支持模型 付费模式 适用场景 MidJourney V7 MidJourney V7(图像生成) 基础版10美元/月(200张) 艺术创作、设计 OpenAI API GPT-4 Turbo、DALL·E 3 GPT-4输入0.03美元/千Token 复杂Agent、多模态应用 阿里云百炼 Qwen2.5-72B、Qwen-Max 按量付费0.004元/千Token起 企业级高并发需求 Google Gemini Gemini 2.5 Ultra 输入1.5美元/千Token,输出3美元/千Token 全球化多模态项目
三、本地部署方案(完全免费,隐私优先)
1. Ollama(推荐新手)
支持模型 :Llama 2、Mistral、DeepSeek、Qwen、Phi-3等30+模型硬件要求 : 7B模型:8GB内存(支持NVIDIA/AMD/Apple M系列显卡) 13B模型:16GB内存,建议GPU加速 安装与调用 :
curl -fsSL https://ollama.com/install.sh | sh
ollama run qwen
ollama run mistral
from openai import OpenAI
client = OpenAI( base_url= "http://localhost:11434/v1" , api_key = "ollama" )
response = client.chat.completions.create( model = "qwen" ,messages = [ { "role" : "user" , "content" : "本地部署优势" } ]
)
print( response.choices[ 0 ] .message.content)
优势 :一键部署,无需复杂配置,数据本地化
2. Hugging Face Transformers(灵活定制)
支持模型 :Llama 2、GPT-NeoX、BERT、Qwen等开源模型硬件要求 :7B模型需16GB内存,13B模型需24GB内存(建议GPU)Python调用示例 :
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer. from_pretrained( "Qwen/Qwen-7B-Chat" )
model = AutoModelForCausalLM. from_pretrained( "Qwen/Qwen-7B-Chat" , device_map= "auto" , load_in_8bit= True
)
inputs = tokenizer( "解释量子计算基础" , return_tensors= "pt" ) . to( model. device)
outputs = model. generate( ** inputs, max_new_tokens= 512 )
print ( tokenizer. decode( outputs[ 0 ] , skip_special_tokens= True ) )
3. OpenWebUI(图形化管理)
四、免费资源使用技巧(避免扣费+最大化利用)
1. 额度监控与防扣费
import requests
import osheaders = { "Authorization" : f"Bearer { os. getenv( 'DASHSCOPE_API_KEY' ) } " }
response = requests. get( "https://dashscope.aliyuncs.com/api/v1/account/quota" , headers= headers
)
print ( "剩余免费Token:" , response. json( ) [ "remaining_free_quota" ] )
阿里云/火山方舟控制台开启「用完即停」功能 Tavily在开发者控制台查看剩余调用次数
2. 成本优化技巧
import redis
cache = redis. Redis( host= 'localhost' , port= 6379 , db= 0 ) def get_cached_response ( prompt, model= "qwen3-8b" ) : key = f" { model} : { prompt[ : 128] } " if cache. exists( key) : return cache. get( key) . decode( 'utf-8' ) response = dashscope. TextGeneration. call( model= model, prompt= prompt) result = response. output. choices[ 0 ] . message. contentcache. setex( key, 3600 , result) return result
批量处理 :合并多个短请求为单次调用,减少Token消耗模型选择 :简单任务用7B模型(如Qwen3-8B),复杂任务再用大模型
3. 常见问题解决
权限不足 :高级模型(如Qwen-Max)需在平台提交工单申请并发限制 :免费额度QPS较低,高并发场景用异步队列(如Celery)削峰本地部署OOM :使用4-bit/8-bit量化(load_in_4bit=True),关闭其他占用内存的程序
五、选择建议
用户类型 推荐方案 核心优势 个人开发者/新手 阿里云百炼(免费100万Token)+ Ollama本地部署 免费额度高,操作简单 学生/科研人员 国家超算平台(Qwen3-32B免费)+ Tavily搜索 大模型配额,学术场景适配 企业开发者 火山方舟(企业协作计划)+ 私有化部署Ollama 高并发支持,数据安全 RAG项目开发 Tavily(免费1000次搜索)+ Hugging Face 实时信息增强,模型定制灵活
补充说明
所有免费额度政策截至2025年11月,具体以平台官网为准 本地部署模型可通过「模型量化」「CPU推理」降低硬件门槛 建议先通过免费API验证项目可行性,再根据需求升级付费方案或本地部署