当前位置: 首页 > news >正文

映诗:基于视觉编码与自然语言生成的作诗平台

项目描述

本平台通过识别用户上传的图片匹配关键词,再根据得到的关键词生成诗句。

– 基于CLIP模型对传入图片编码,将图像编码与关键词编码计算余弦相似度,取出相似度前TOP5的关键词。

– 在诗句生成阶段,基于关键词及古诗词重新训练一个T5模型。模型推理阶段,根据上一阶段匹配到的关键词生成诗句。

相关知识点

1. CLIP模型

1.1. 原理

同时处理图像和文本,并将其分别映射到同一个向量空间。让对应的图像和文本在该空间中的向量表示尽可能接近,而 非对应的文本和图像则要尽可能远离。

1.2. 模型架构
  • 图像编码器:VIT 或者 ResNet模型,将输入图像转换成一个高维向量。
  • 文本编码器:Transformer模型,将输入文本转换成另一个高维向量。
1.3. 训练过程
  1. 从一个批次中取出N个(图像,文本)对。
  2. 分别经过图像编码器和文本编码器,得到N个图像向量和N个文本向量。
  3. 计算N✖️N对相似度矩阵。(使用余弦相似度)
  4. 训练目标: 最大化 对角线上的相似度, 最小化 非对角线上的相似度。
1.4. 本项目中的应用

由于CLIP的“零样本”分类能力,可以无需任何特定任务的训练,直接用于将图像和任意文本描述关联起来。

用户上传的图片 + 预先构建的唐诗关键词库 -----> CLIP模型 ----> 选取top5的关键词。

2. T5模型

接收一段文本输入,并生成一段文本输出。将纷繁复杂的NLP任务统一到一个简单的文本到文本框架下。

2.1. 模型架构:编码器-解码器

T5采用了经典的Transformer编码器-解码器架构。

  • 编码器:负责处理和理解输入文本。它双向地查看整个输入序列,生成一个包含上下文信息的表示。
  • 解码器:负责生成输出文本。它自回归地(一个接一个词)生成结果,在生成每个词时,会关注编码器的输出和已经生成的部分。
2.2. 训练过程

预训练:采用BERT式的训练方法,掩盖一部分词,还原被掩盖的词。例如:Thank you<MASK>``<MASK>me to your party<MASK>week|Thank you for inviting me to your party last week.

2.3. 本项目的应用

对T5微调,通过用大量的(关键词, 诗句)配对数据来微调T5,模型学会了将一组看似无关的关键词,组织成一首符合古诗词格律和意境的连贯诗句。

  • 输入文本:匹配到的top5的关键词。["柳树", "春风","别离","月光","剑"]
  • 输出文本:模型需要生成完整的诗句。
http://www.dtcms.com/a/473980.html

相关文章:

  • 《深入理解 SQLAlchemy 引擎与会话:从 Core 到 ORM 的全景解析》
  • Redis渐进式遍历:安全高效的键扫描术
  • Java-集合练习2
  • sql优化之联合索引
  • 基于51单片机无线八路抢答器
  • 网站怎么做白色字阿里巴巴网站官网
  • 2.3进程同步与互斥
  • 计算机组成原理之第一章计算机系统概述
  • 无服务器架构下的ACID特性实现方案
  • 四平方和定理
  • 搜索郑州网站服装网站建设
  • 广西临桂建设局网站如何做家乡网站
  • Leetcode2166-设计位集
  • 三种方法解——力扣206.反转链表
  • 企业网站广告网站响应式是什么意思
  • 湖南省郴州市邮编东莞seo网站建设公司
  • 差分信号可以分解为共模信号与差模信号
  • **标题:发散创新:探索SSR渲染技术的深度实现****摘要**:本文将深入探讨服务端渲染(SSR)技术的原理、优势以及实
  • 计算机视觉(opencv)——MediaPipe 实现手部关键点检测与可视化
  • 贵州省建设学校官方网站昆明网络公司开发
  • 没有版权可以做视频网站吗设计之家素材
  • Tomcat是一个容器
  • Easyx图形库应用(和Server程序进行交互)
  • Python自学25 - Django快速上手
  • 太原云起时网站建设广东知名网站建设
  • AI学习日记——深度学习
  • 如何设置PostgreSQL表字段为自增主键
  • 排版工具:也说Markdown的使用方法
  • 分销网站建站wordpress调用推荐文章代码
  • 数据湖Hudi-读取流程可视化