当前位置: 首页 > news >正文

大模型提示词工程实践:大语言模型文本转换实践

大模型文本转换

学习目标

在本课程中,我们将探究如何使用大语言模型来完成文本转换任务,例如语言翻译、拼写和语法检查、语气调整以及格式转换。

相关知识点

大模型文本转换

学习内容

1. 大模型文本转换

文本转换的核心定义与范畴 文本转换 是指通过技术手段对文本的语言、格式、风格、结构等维度进行系统性改造,使其适应不同场景需求的过程。基于大语言模型(LLM)的文本转换,本质是利用模型对自然语言的理解与生成能力,实现语义在不同形式间的精准映射。其核心范畴包括:

  • 语言维度:跨语种翻译(如中英互译、小语种转换)、方言与标准语转换;
  • 格式维度:非结构化文本与结构化数据互转(如JSON转HTML表格)、代码格式转换(Markdown转LaTeX);
  • 风格维度:语气调整(口语→书面语、正式→非正式)、文体转换(新闻稿→诗歌、技术文档→科普文案);
  • 语义维度:语法纠错、拼写修正、语义优化(如增强说服力、简化复杂句式)。
    文本转换的核心应用场景

跨语言沟通与全球化业务

  • 电商客服工单翻译:实时将法语、西班牙语等多语言客户反馈译为中文,辅助客服快速响应;
  • 跨境营销内容本地化:将英文产品描述转为符合日本文化习惯的日语文案(如调整敬语等级、规避敏感词汇)。

内容创作与传播优化

  • 多平台适配:将一篇深度报道转换为短视频脚本(提炼核心观点+口语化表达),或转为微博话题文案(添加话题标签+情绪化表达);
  • 学术成果通俗化:将论文摘要转换为面向公众的科普短文(如将“量子纠缠”解释为“跨越时空的粒子联动”)。

企业级文档处理

  • 格式标准化:将员工提交的非结构化需求文档转换为统一的JSON格式,便于系统解析;
  • 合规性改造:将包含敏感信息的合同文本进行脱敏处理(如隐藏身份证号、银行账号),同时保持语义完整。

教育与语言学习

  • 个性化学习材料生成:将同一篇英文文章转换为不同难度的版本(如基础版简化句式、进阶版增加专业术语);
  • 语言教学辅助:自动批改学生作文,标注语法错误并提供修改建议(如“此处应使用过去完成时”)。
1.1 准备工作

安装依赖
httpx 是一个用于进行 HTTP 请求的库,我们可以使用它来向大模型发送请求并获取响应。
openai 库提供了统一的接口来调用大模型。
redlines 是一个用于文本对比和高亮显示差异的 Python 库,主要功能是将两个文本版本之间的修改以直观的方式呈现出来,类似文档编辑中的 “修订模式” 或代码版本控制中的 diff 功能。

%pip install httpx
%pip install openai
%pip install redlines

初始化参数

import os
import httpx
from openai import OpenAI# 此课程基于DeepSeek-R1运行,学员可自行前往官网进行api申请
client = OpenAI(base_url=<BASE_URL>,api_key=<API_KEY>,http_client=httpx.Client(verify=False),
)
  • 定义 get_completion 函数,用于调用大模型生成文本。
    • 这个函数通过 OpenAI 客户端调用指定模型,根据输入的提示词生成回复,并处理可能存在的思维标记,返回最终的回复内容。
    • get_completion函数用于向模型发送单个用户提示,并获取模型的响应。它将提示封装在 messages列表中,然后调用 client.chat.completions.create方法与模型进行交互,最后调用 extract_after_think函数处理响应。
参数说明
model指定使用的大语言模型,决定生成文本的能力和风格
messages对话历史列表,仅包含用户提示词,引导模型生成回复
stream是否以流式方式返回结果。为 False 时,模型生成完整内容后一次性返回;为 True 时逐字返回
temperature控制输出的随机性和创造性。值接近 0 时输出更具确定性,结果更保守、准确;值接近 1 时输出更随机,可能增加创意但也可能有胡言乱语风险
max_tokens限制生成内容的最大 token 数量(含输入和输出)。超过此限制模型输出会被截断,token 约4个字符或1个汉字,设置过小可能回复不完整
top_p核采样参数,控制词汇选择的概率分布范围。值为 0.95 时模型只考虑累积概率达 95% 的词汇,过滤低概率词汇,减少随机性
#请根据实际替换model_name
def get_completion(prompt, model=<model_name>):mess = [{"role": "user", "content": prompt}]response = client.chat.completions.create(model=model,messages=mess,stream=False,temperature=0.6, # 这就是该模型输出结果的随机程度。 max_tokens=2048,top_p=0.95)return response.choices[0].message.content.split("</think>\n\n")[-1]
1.2 调用大模型
1.2.1 翻译

大模型是通过多种语言的资料进行训练的。这使得模型具备了进行翻译的能力。以下是一些关于如何运用这一能力的示例。

prompt = f"""
将以下英文文本翻译成中文: \ 
```Hi, I would like to order a blender```
"""
response = get_completion(prompt)
print(response)
prompt = f"""
告诉我这是哪种语言: 
```Combien coûte le lampadaire?```
"""
response = get_completion(prompt)
print(response)
prompt = f"""
将以下文本翻译成法语、西班牙语和英式英语海盗风格表达: \
```I want to order a basketball```
"""
response = get_completion(prompt)
print(response)
prompt = f"""
将以下文本分别翻译成中文的正式形式和非正式形式:
'Would you like to order a pillow?'
"""
response = get_completion(prompt)
print(response)
1.2.2 通用翻译器

设想一下,你在一家大型跨国电子商务公司负责信息技术(IT)工作。用户们用他们各自的母语向你反馈信息技术方面的问题。而你的员工来自世界各地,每个人都只会说自己的母语。此时,你就需要一个通用翻译器!

例如下面的各地语言:

  • 法语(系统的性能比平时要慢。)
  • 西班牙语(我的显示器有一些不发光的像素点。)
  • 意大利语(我的鼠标不工作了。)
  • 波兰语(我的 Ctrl 键坏了。)
  • 英语(我的屏幕在闪烁。)
user_messages = ["La performance du système est plus lente que d'habitude.",  "Mi monitor tiene píxeles que no se iluminan.",              "Il mio mouse non funziona",                                 "Mój klawisz Ctrl jest zepsuty",                             "My screen is flickering."                                   
] 
for issue in user_messages:prompt = f"告诉我这是什么语言:```{issue}```"lang = get_completion(prompt)print(f"原始信息: ({lang}): {issue}")prompt = f"""将以下文本翻译成汉语和韩语:```{issue}```"""response = get_completion(prompt)print(response, "\n")
1.2.3 语气转换

写作会因目标受众的不同而有所差异。大模型能够生成不同的语气风格。

prompt = f"""
将以下内容从日常口语转换为商务信函风格:
'各位,这次活动的报名人数比咱们预想的少太多了,得赶紧想想办法推广推广。'
"""
response = get_completion(prompt)
print(response)
1.2.4 格式转换

大模型能够在不同格式之间进行转换。提示语应当对输入格式和输出格式进行描述。

data_json = { "餐厅员工" :[ {"姓名":"杉木", "电子邮箱":"shyamjaiswal@gmail.com"},{"姓名":"薄冰", "电子邮箱":"bob32@gmail.com"},{"姓名":"嘉义", "电子邮箱":"jai87@gmail.com"}]
}
prompt = f"""
将以上Python字典(以JSON格式呈现)转换为带有列标题和标题的HTML表格。仅输出html:{data_json}
"""
response = get_completion(prompt)
print(response)
from IPython.display import display, HTML
display(HTML(response))
1.2.5 拼写及语法语义检查

以下是一些常见的语法和拼写问题的示例,以及大语言模型(LLM)的回复。
要向大语言模型表明你希望它校对文本,你可以指示模型 “进行校对” 或 “进行校对并改正”。

text = [ "The girl with the black and white puppies have a ball.",  # 语法错误,主语 “The girl” 是单数,谓语动词应用 “has” 而非 “have”"Yolanda has her notebook.", # 正确"Its going to be a long day. Does the car need it’s oil changed?",  # 同音异义词错误"This phrase is to cherck Deepseek for speling abilitty"  # 拼写错误
]
for t in text:prompt = f"""校对并改正以下文本,然后重写改正后的版本。\如果你没有发现任何错误,就说“未发现错误”。\不要在文本周围使用任何标点符号:```{t}```"""response = get_completion(prompt)print(response)
text = f"""
这是我给女儿买的生日礼物,因为她老是从我房间里拿走我的东西。\
没错,大人也同样喜欢熊猫。她到哪儿都带着它,而且它超级柔软可爱。\
它的一只耳朵比另一只低一点,我觉得这不是设计成不对称的样子。\
不过就我付的价钱来说,它有点小了。\
我觉得可能还有其他同样价格但更大一些的选择。\
它比预计时间提前一天就到了,所以在我把它送给女儿之前,我自己还玩了一会儿。 
"""
prompt = f"校对并纠正这条评论: ```{text}```"
response1 = get_completion(prompt)
print(response)
from IPython.display import Markdown
from redlines import Redlinesdiff = Redlines(text,response1)
display(Markdown(diff.output_markdown))
prompt = f"""
校对并纠正这条评论,使其更具说服力。
确保遵循APA格式指南,并以资深读者为目标受众。
以Markdown格式输出。
文本:```{text}```
"""
response = get_completion(prompt)
display(Markdown(response))
http://www.dtcms.com/a/325417.html

相关文章:

  • 实战:用 PyTorch 复现一个 3 层全连接网络,训练 MNIST,达到 95%+ 准确率
  • 软考高级资格推荐与选择建议
  • 大语言模型(LLM)核心概念与应用技术全解析:从Prompt设计到向量检索
  • STM32蓝牙模块驱动开发
  • 什么是结构化思维?什么是结构化编程?
  • 获取MaixPy系列开发板机器码——MaixHub 模型下载机器码获取方法
  • 【Python】在rk3588开发板排查内存泄漏问题过程记录
  • 视频前处理技术全解析:从基础到前沿
  • DreaMoving:基于扩散模型的可控视频生成框架
  • 安全合规4--下一代防火墙组网
  • GaussDB 数据库架构师修炼(十三)安全管理(1)-账号的管理
  • vue+flask基于规则的求职推荐系统
  • CentOS7搭建安全FTP服务器指南
  • 【安全发布】微软2025年07月漏洞通告
  • C语言如何安全的进行字符串拷贝
  • MQTT:Vue集成MQTT
  • GaussDB安全配置全景指南:构建企业级数据库防护体系
  • 【vue(一))路由】
  • uncalled4
  • 昆仑万维SkyReels-A3模型发布:照片开口说话,视频创作“一键改台词”
  • 使用行为树控制机器人(二) —— 黑板
  • 哈希、存储、连接:使用 ES|QL LOOKUP JOIN 的日志去重现代解决方案
  • Logistic Loss Function|逻辑回归代价函数
  • 实习学习记录
  • 集成电路学习:什么是URDF Parser统一机器人描述格式解析器
  • ttyd终端工具移植到OpenHarmony
  • 工业相机与智能相机的区别
  • 5G与云计算对代理IP行业的深远影响
  • 用 Python 绘制企业年度财务可视化报告 —— 从 Excel 到 9 种图表全覆盖
  • nvm安装详细教程(卸载旧的nodejs,安装nvm、node、npm、cnpm、yarn及环境变量配置)