当前位置：首页 > news >正文

映诗：基于视觉编码与自然语言生成的作诗平台

news 2025/10/13 7:38:59

项目描述

本平台通过识别用户上传的图片匹配关键词，再根据得到的关键词生成诗句。

– 基于CLIP模型对传入图片编码，将图像编码与关键词编码计算余弦相似度，取出相似度前TOP5的关键词。

– 在诗句生成阶段，基于关键词及古诗词重新训练一个T5模型。模型推理阶段，根据上一阶段匹配到的关键词生成诗句。

相关知识点

1. CLIP模型

1.1. 原理

同时处理图像和文本，并将其分别映射到同一个向量空间。让对应的图像和文本在该空间中的向量表示尽可能接近，而非对应的文本和图像则要尽可能远离。

1.2. 模型架构

图像编码器：VIT 或者 ResNet模型，将输入图像转换成一个高维向量。
文本编码器：Transformer模型，将输入文本转换成另一个高维向量。

1.3. 训练过程

从一个批次中取出N个（图像，文本）对。
分别经过图像编码器和文本编码器，得到N个图像向量和N个文本向量。
计算N✖️N对相似度矩阵。（使用余弦相似度）
训练目标：最大化对角线上的相似度，最小化非对角线上的相似度。

1.4. 本项目中的应用

由于CLIP的“零样本”分类能力，可以无需任何特定任务的训练，直接用于将图像和任意文本描述关联起来。

用户上传的图片 + 预先构建的唐诗关键词库 -----> CLIP模型 ----> 选取top5的关键词。

2. T5模型

接收一段文本输入，并生成一段文本输出。将纷繁复杂的NLP任务统一到一个简单的文本到文本框架下。

2.1. 模型架构：编码器-解码器

T5采用了经典的Transformer编码器-解码器架构。

编码器：负责处理和理解输入文本。它双向地查看整个输入序列，生成一个包含上下文信息的表示。
解码器：负责生成输出文本。它自回归地（一个接一个词）生成结果，在生成每个词时，会关注编码器的输出和已经生成的部分。

2.2. 训练过程

预训练：采用BERT式的训练方法，掩盖一部分词，还原被掩盖的词。例如：Thank you<MASK>``<MASK>me to your party<MASK>week|Thank you for inviting me to your party last week.

2.3. 本项目的应用

对T5微调，通过用大量的（关键词，诗句）配对数据来微调T5，模型学会了将一组看似无关的关键词，组织成一首符合古诗词格律和意境的连贯诗句。

输入文本：匹配到的top5的关键词。["柳树", "春风","别离","月光","剑"]
输出文本：模型需要生成完整的诗句。

查看全文

http://www.dtcms.com/a/473980.html

《深入理解 SQLAlchemy 引擎与会话：从 Core 到 ORM 的全景解析》

Redis渐进式遍历：安全高效的键扫描术

Java-集合练习2

sql优化之联合索引

基于51单片机无线八路抢答器

网站怎么做白色字阿里巴巴网站官网

2.3进程同步与互斥

计算机组成原理之第一章计算机系统概述

无服务器架构下的ACID特性实现方案

四平方和定理

搜索郑州网站服装网站建设

广西临桂建设局网站如何做家乡网站

Leetcode2166-设计位集

三种方法解——力扣206.反转链表

企业网站广告网站响应式是什么意思

湖南省郴州市邮编东莞seo网站建设公司

差分信号可以分解为共模信号与差模信号

**标题：发散创新：探索SSR渲染技术的深度实现****摘要**：本文将深入探讨服务端渲染（SSR）技术的原理、优势以及实

计算机视觉（opencv）——MediaPipe 实现手部关键点检测与可视化

贵州省建设学校官方网站昆明网络公司开发

没有版权可以做视频网站吗设计之家素材

Tomcat是一个容器

Easyx图形库应用（和Server程序进行交互）

Python自学25 - Django快速上手

太原云起时网站建设广东知名网站建设

AI学习日记——深度学习

如何设置PostgreSQL表字段为自增主键

排版工具：也说Markdown的使用方法

分销网站建站wordpress调用推荐文章代码

数据湖Hudi-读取流程可视化