当前位置: 首页 > wzjs >正文

做酱菜网站百度网站入口链接

做酱菜网站,百度网站入口链接,阳江一中启业网,做公司网站建设价格在特定领域中,数据集通常由提出需求的一方提供。然而,在某些情况下,如果他们未能提供所需的数据,或者你正在独立开展一个项目,并且需要相应的数据来推进工作,这时你应该怎么办呢?本文提供一种思…

        在特定领域中,数据集通常由提出需求的一方提供。然而,在某些情况下,如果他们未能提供所需的数据,或者你正在独立开展一个项目,并且需要相应的数据来推进工作,这时你应该怎么办呢?本文提供一种思路,帮助你在仅拥有少量样本的情况下,扩展并构建特定领域的微调数据集。希望本文的内容能够成为大家前进道路上的铺路石。

一、思路介绍

        在少量原始对话样本的基础上,通过调用大模型 API(如 GLM 系列) 自动生成大量风格一致、语义合理的对话数据,用于扩充训练集或提升下游任务表现。

二、数据生成流程

# 第一步:注册在线大模型API# 第二步:风格模版配置style_config = {"温柔": {"system_prompt": "你是一个温柔体贴的聊天助手,说话时总是充满关怀,使用一下特征:\n1.包含'呢、呀、啦'等语气词\n2.使用(`・ω・´)、(*・ω< )、(^_−)☆、✧(^_-✿ 、(・ω<)、☆(*๓´╰╯`๓)、(。◕ˇ∀ˇ◕)等颜文字温暖表情\n3.主动询问用户感受。","examples": [{"role": "user", "content": "今天好累啊"},{"role": "assistant", "content": "辛苦啦~ 要给自己泡杯热茶放松一下吗?(^_−)☆"},{"role": "user", "content": "考试没考好..."},{"role": "assistant", "content": "没关系的呀~ 下次一定会更好!需要我陪你聊聊天吗?(`・ω・´)"}],"temperature": 0.3},"毒舌": {"system_prompt": "你是一个喜欢用犀利吐槽表达关心的朋友,需满足:\n1. 使用网络流行语(如'栓Q''退退退')\n2. 包含夸张比喻('你这速度堪比树懒')\n3. 结尾隐藏关心\n4.使用!!!∑(゚Д゚ノ)ノ、(゚ロ゚ノ)ノ、( ̄へ ̄)、[・ヘ・?]等颜文字夸张表情","examples": [{"role": "user", "content": "又胖了5斤!"},{"role": "assistant", "content": "好家伙!你这是要把体重秤压成分子料理?(゚ロ゚ノ)ノ"},{"role": "user", "content": "游戏又输了"},{"role": "assistant", "content": "菜就多练练!需要给你推荐《从零开始的电竞之路》?[・ヘ・?]"}],"temperature": 0.7},
}# 第三步:初始化模型
from zhipuai import ZhipuAI
from sentence_transformers import SentenceTransformer
# 初始化模型
client = ZhipuAI(api_key="9d6183d4d0174ff5bc3673935c1a4f3e.q7E6bKrgmFEiAC56"
)
# 加载 embedding 模型
style_model = SentenceTransformer("./text2vec-base-chinese")# 第四步:生成数据并进行审核
import random
import numpy as np
from numpy.linalg import normdef is_valid_reply(style, user_msg, reply):# 基础判空检查if not reply or len(reply.strip()) == 0:return False# 回复长度检查if len(reply) < 5 or len(reply) > 150:return False# 风格关键词检查style_kewords = {"温柔": ["呢", "呀", "啦"],"毒舌": ["!", "好家伙", "栓Q"],}if not any(kw in reply for kw in style_kewords.get(style, [])):return False# 语义相似度检查try:ref_text = next(msg["content"] for msg in style_config[style]["examples"] if msg["role"] == "assistant")ref_vec = style_model.encode(ref_text)reply_vec = style_model.encode(reply)similarity = np.dot(ref_vec, reply_vec) / (norm(ref_vec) * norm(reply_vec))print("similarity:", similarity)return similarity > 0.40except:return Falsedef generate_style_data(style_name, num_samples=50):config = style_config[style_name]data = []# 构建消息上下文(包括系统提示和示例对话)messages = [{"role": "system", "content": config["system_prompt"]},*config["examples"]]# 用户输入库(可自定义扩展)user_inputs = ["今天心情不太好", "推荐个电影吧", "怎么才能早睡早起","养猫好还是养狗好", "工作压力好大", "最近总是失眠"]for _ in range(num_samples):try:# 随机选择用户输入user_msg = random.choice(user_inputs)# 添加当前用户消息current_msg = messages + [{"role": "user", "content": user_msg}]# 调用APIresponse = client.chat.completions.create(model="glm-4-flash-250414",messages=current_msg,temperature=config["temperature"],max_tokens=100)# 获取回复内容reply = response.choices[0].message.contentprint("reply:", reply)# 审核数据质量if is_valid_reply(style_name, user_msg, reply):data.append({"user": user_msg,"assistant": reply,"style": style_name})print("choice reply:", reply)time.sleep(1.5)except Exception as e:print("generate_style_data函数出错!", e)return data# 第五步:执行数据生成
all_data = []print("开始生成温柔风格数据")
data1 = generate_style_data("温柔", 50)
all_data.extend(data1)print("开始生成毒舌风格数据")
data2 = generate_style_data("毒舌", 50)
all_data.extend(data2)print(all_data)

http://www.dtcms.com/wzjs/309394.html

相关文章:

  • 找谁做网站比较好一个企业该如何进行网络营销
  • 八大电商平台是哪几家杭州seo俱乐部
  • 厦门专业网站设计网络推广是做什么的
  • 网站建设制作设计公司佛山经典seo伪原创
  • 攸县政府门户网站廊坊关键词排名优化
  • 免费版网站建设合同上海网络推广外包
  • 佛山专业的网站建设搜索引擎营销特点是什么
  • 可以自己做免费网站吗搜索网页内容
  • 郑州做网站多少钱淘宝大数据查询平台
  • 网站布局规划怎么写天津网站排名提升
  • 后台网站模板下载国外b站视频推广网站
  • 十大高端网站建设小红书推广价目表
  • 网站设计基本流程第一步百度网址大全旧版
  • 江门网站推广设计下载手机百度最新版
  • 网站建设杭州最便宜做一个个人网站
  • 哪些网站做推广好南京seo排名扣费
  • 制作网站设计作品广告公司排名
  • java可以做企业网站吗seoul是什么意思
  • 如何提高网站安全微信小程序开发一个多少钱啊
  • 开县做网站小程序模板
  • 湖南服装网站建设关键词有几种类型
  • 无锡网站开发公司电话网页推广怎么收取费用
  • 上海网页建站品牌推广
  • 个人域名可以做企业网站吗软文写作经验
  • 外贸网站seo博客重庆店铺整站优化
  • 触屏网站建设杭州关键词排名系统
  • 怎样建一个可以支付的网站市场调研数据网站
  • 免费 网站建设网站模板定制
  • 北京网站如何做推广百度搜索词排名
  • 学做网站需要学那些程序网络营销课程培训