AI 领域热门方向或代表性技术/模型
AI 领域热门方向或代表性技术/模型
✅ 计算机视觉(CV)方向
技术/模型 简介 应用场景
RCNN / Fast RCNN / Faster RCNN 两阶段目标检测,精度高但速度不如 YOLO 工业检测、医学影像
Mask RCNN 在 Faster RCNN 基础上加实例分割 自动驾驶、卫星图像分析
SSD(Single Shot Detector) 单阶段检测器,速度介于 YOLO 和 RCNN 之间 移动端检测
ViT(Vision Transformer) 用 Transformer 做图像分类,颠覆 CNN 思路 图像分类、图文多模态
CLIP OpenAI 出品,图文对齐模型,理解文字和图像关系 图像搜索、零样本分类
SAM(Segment Anything Model) Meta 出品,通用图像分割模型 任意图像分割、标注工具
✅ 自然语言处理(NLP)方向
技术/模型 简介 应用场景
BERT Google 出品,双向编码器,理解上下文 搜索、问答、情感分析
GPT 系列(GPT-3/4) 生成式预训练模型,擅长文本生成 聊天机器人、写作助手、代码生成
T5 所有 NLP 任务统一为“文本到文本” 翻译、摘要、问答
LLaMA / LLaMA2 Meta 出品,开源大模型,社区活跃 本地部署、微调、研究
ChatGLM / Baichuan / Qwen 国产大模型,中文优化好 中文对话、企业知识库
✅ 多模态(图像+文本)方向
技术/模型 简介 应用场景
BLIP / BLIP-2 图像+文本联合理解,支持图像描述、问答 图像搜索、图文对话
Flamingo DeepMind 出品,少样本学习强 图文推理
KOSMOS-1 / KOSMOS-2 微软出品,支持图像+文本输入,具备视觉对话能力 多模态助手
✅ AI 生成内容(AIGC)方向
技术/模型 简介 应用场景
Stable Diffusion 开源文生图模型,社区最活跃 AI 绘画、设计、广告
Midjourney 闭源文生图,艺术感强 插画、概念设计
DALL·E 3 OpenAI 出品,图文对齐极强 商业创意、教育配图
Sora OpenAI 视频生成模型,未完全开放 视频创作、广告、影视
Runway Gen-2 商业视频生成工具 短视频、广告、特效
✅ AI 语音/音乐方向
技术/模型 简介 应用场景
Whisper OpenAI 出品,多语言语音识别 字幕生成、会议记录
Bark / VALL-E AI 语音合成,支持情绪、语气 配音、虚拟人
MusicLM / Suno AI AI 音乐生成 背景音乐、创意作曲
✅ AI 编程/代码方向
技术/模型 简介 应用场景
Codex / GitHub Copilot OpenAI 出品,代码补全 编程助手
CodeT5 / CodeLlama 开源代码模型 本地部署、代码生成
AlphaCode DeepMind 出品,竞赛级编程 算法题自动生成
✅ AI Agent / 自动决策方向
技术/模型 简介 应用场景
AutoGPT / BabyAGI 自主任务分解与执行 自动化办公、研究助手
LangChain / CrewAI 构建 AI 工作流、多 Agent 协作 企业知识库、智能客服
✅ 国产 AI 模型(中文优化强)
模型 公司 特点
Qwen(通义千问) 阿里巴巴 多模态、开源、中文强
Baichuan(百川) 百川智能 开源、中文好、商用友好
ChatGLM(智谱) 清华&智谱 中文对话、开源、轻量
Kimi 月之暗面 长文本强,支持 200 万字上下文
ERNIE(文心一言) 百度 多模态、中文知识增强
