当前位置: 首页 > news >正文

网站页面设计策划书阿里云国际站官网

网站页面设计策划书,阿里云国际站官网,西安 网站 公司,商务网站构建与维护安装必要工具 通义千问(Qwen)目前主要通过API或开源模型提供服务,解析PDF需结合第三方工具(如PyPDF2、pdfplumber)提取文本,再调用Qwen API处理。以下是具体方法:方法1:使用PyPDF2提…

安装必要工具

通义千问(Qwen)目前主要通过API或开源模型提供服务,解析PDF需结合第三方工具(如PyPDF2、pdfplumber)提取文本,再调用Qwen API处理。以下是具体方法:


方法1:使用PyPDF2提取文本后调用Qwen API

  1. 安装依赖库

    pip install pypdf2 requests
    
  2. 提取PDF文本

    from PyPDF2 import PdfReaderdef extract_text_from_pdf(file_path):reader = PdfReader(file_path)text = ""for page in reader.pages:text += page.extract_text()return text
    
  3. 调用通义千问API处理文本

    import requestsdef qwen_api_request(text):api_url = "https://dashscope.aliyuncs.com/api/v1/services/aigc/text-generation/generation"headers = {"Authorization": "Bearer YOUR_API_KEY",  # 替换为实际API密钥"Content-Type": "application/json"}data = {"model": "qwen-max","input": {"messages": [{"role": "user", "content": f"将以下文本转换为Markdown格式:\n{text}"}]}}response = requests.post(api_url, json=data, headers=headers)return response.json()["output"]["text"]
    

方法2:结合pdfplumber与Qwen API

  1. 安装依赖库

    pip install pdfplumber 
    
  2. 提取PDF文本(保留表格和格式)

def extract_text_from_pdf(pdf_path):"""使用 pdfplumber 从PDF中提取全部文本"""text = ""try:with pdfplumber.open(pdf_path) as pdf:for i, page in enumerate(pdf.pages):page_text = page.extract_text()if page_text:text += f"\n--- 第 {i + 1} 页 ---\n"text += page_text + "\n"print("✅ PDF 文本提取成功,前300字符预览:")print(text[:300] + "...")return textexcept Exception as e:print(f"❌ PDF提取失败: {str(e)}")return None
  1. 加载Qwen模型转换Markdown
def enhance_text_to_markdown_with_qwen(text_content):"""调用 Qwen-max 将原始文本转换为结构化 Markdown"""if not text_content.strip():return Noneprompt = f"""
你是一个专业的工业设备文档工程师。请将以下从PDF提取的原始文本,转换为结构清晰、格式规范、语义完整的 Markdown 文档。要求:
1. 自动识别并设置合理的标题层级(#、##、###)
2. 列表使用 - 或 1. 2. 3. 格式
3. 表格必须使用标准 Markdown 表格语法对齐(即使原文是文字表格)
4. 保留所有技术细节、参数、步骤说明、安全警告,不得删减
5. 若原文有章节编号(如 1.1, 2.3.1),请保留并转为标题
6. 对于提到的图片(如“见下图”、“结构图如下”),请插入占位符:![描述](image_X.png)
7. 输出纯 Markdown,不要包含任何额外解释原始文本:
---
{text_content}
---
"""try:response = Generation.call(model="qwen-max",  # 使用最强文本模型prompt=prompt,seed=12345,temperature=0.2,  # 低温度,忠实原文top_p=0.85,result_format='message')if response.status_code == 200:markdown_content = response.output.choices[0].message.content.strip()return markdown_contentelse:print(f"❌ Qwen API 调用失败: {response.message}")return Noneexcept Exception as e:print(f"❌ 调用 Qwen 时发生错误: {str(e)}")return None

  1. 输出Markdown文件
    将处理后的结果写入.md文件:
def pdf_to_markdown_via_text(pdf_path, output_md_path="output.md"):"""主流程:PDF → 本地提取文本 → Qwen结构化 → 保存Markdown"""print(f"📄 正在从本地提取 PDF 文件: {pdf_path}")# Step 1: 本地提取文本raw_text = extract_text_from_pdf(pdf_path)if not raw_text:return False# Step 2: 调用 Qwen 优化结构print("🧠 正在调用通义千问 MAX 模型优化文档结构...")enhanced_md = enhance_text_to_markdown_with_qwen(raw_text)if not enhanced_md:return False# Step 3: 保存结果with open(output_md_path, "w", encoding="utf-8") as f:f.write(enhanced_md)print(f"\n🎉 转换成功!已保存至: {output_md_path}")print("\n🔍 生成的 Markdown 前500字符预览:")print("=" * 60)print(enhanced_md[:500] + "..." if len(enhanced_md) > 500 else enhanced_md)print("=" * 60)return True

方法2 ->完整案例代码

import dashscope
from dashscope import Generation
import pdfplumber  # 轻量级PDF文本提取库# 设置API Key
dashscope.api_key = "YOUR_API_KEY"  # ← 替换为你的API Keydef extract_text_from_pdf(pdf_path):"""使用 pdfplumber 从PDF中提取全部文本"""text = ""try:with pdfplumber.open(pdf_path) as pdf:for i, page in enumerate(pdf.pages):page_text = page.extract_text()if page_text:text += f"\n--- 第 {i + 1} 页 ---\n"text += page_text + "\n"print("✅ PDF 文本提取成功,前300字符预览:")print(text[:300] + "...")return textexcept Exception as e:print(f"❌ PDF提取失败: {str(e)}")return Nonedef enhance_text_to_markdown_with_qwen(text_content):"""调用 Qwen-max 将原始文本转换为结构化 Markdown"""if not text_content.strip():return Noneprompt = f"""
你是一个专业的工业设备文档工程师。请将以下从PDF提取的原始文本,转换为结构清晰、格式规范、语义完整的 Markdown 文档。要求:
1. 自动识别并设置合理的标题层级(#、##、###)
2. 列表使用 - 或 1. 2. 3. 格式
3. 表格必须使用标准 Markdown 表格语法对齐(即使原文是文字表格)
4. 保留所有技术细节、参数、步骤说明、安全警告,不得删减
5. 若原文有章节编号(如 1.1, 2.3.1),请保留并转为标题
6. 对于提到的图片(如“见下图”、“结构图如下”),请插入占位符:![描述](image_X.png)
7. 输出纯 Markdown,不要包含任何额外解释原始文本:
---
{text_content}
---
"""try:response = Generation.call(model="qwen-max",  # 使用最强文本模型prompt=prompt,seed=12345,temperature=0.2,  # 低温度,忠实原文top_p=0.85,result_format='message')if response.status_code == 200:markdown_content = response.output.choices[0].message.content.strip()return markdown_contentelse:print(f"❌ Qwen API 调用失败: {response.message}")return Noneexcept Exception as e:print(f"❌ 调用 Qwen 时发生错误: {str(e)}")return Nonedef pdf_to_markdown_via_text(pdf_path, output_md_path="output.md"):"""主流程:PDF → 本地提取文本 → Qwen结构化 → 保存Markdown"""print(f"📄 正在从本地提取 PDF 文件: {pdf_path}")# Step 1: 本地提取文本raw_text = extract_text_from_pdf(pdf_path)if not raw_text:return False# Step 2: 调用 Qwen 优化结构print("🧠 正在调用通义千问 MAX 模型优化文档结构...")enhanced_md = enhance_text_to_markdown_with_qwen(raw_text)if not enhanced_md:return False# Step 3: 保存结果with open(output_md_path, "w", encoding="utf-8") as f:f.write(enhanced_md)print(f"\n🎉 转换成功!已保存至: {output_md_path}")print("\n🔍 生成的 Markdown 前500字符预览:")print("=" * 60)print(enhanced_md[:500] + "..." if len(enhanced_md) > 500 else enhanced_md)print("=" * 60)return True# ====== 执行 ======
if __name__ == "__main__":PDF_FILE = "维护保养.pdf"OUTPUT_FILE = "维护保养.md"# 安装依赖(如未安装):# pip install pdfplumber dashscopesuccess = pdf_to_markdown_via_text(PDF_FILE, OUTPUT_FILE)if success:print("\n✅ 全流程执行完毕!")else:print("\n❌ 处理失败,请检查错误信息。")

注意事项

  • API限制:通义千问API可能有调用频率或字数限制,需参考官方文档。
  • 本地模型:若使用本地Qwen模型,需确保硬件资源足够(如GPU显存)。
  • PDF复杂性:含复杂表格或图片的PDF需额外处理(如OCR或手动调整)。
http://www.dtcms.com/a/405381.html

相关文章:

  • app网站制作多少钱网页制作网站开发的论文
  • 营销型网站建设方法智能建站平台
  • 微信小程序商城制作一个需要多少钱六安短视频优化费用
  • 安阳做网站的公司制作一个自己的网站
  • 商务型网站有哪些大武口网站建设
  • 建站63年来第一次闭站 北京站辟谣i57500网站开发
  • 便捷网站建设报价北京网络营销公司哪家好
  • 用html5做的个人网站外 网站 公司
  • 企业网站有那些做网站能赚钱吗 知乎
  • 七星彩的网站怎么做的为什么建设银行的网站打不开
  • 免费自助设计网站中国企业信用网站官网
  • ui设计较好的网站婚纱网站php
  • 房屋产权地址备案在那个网站做搬瓦工vps wordpress
  • 做一家开发网站的公司手机网站建设设计6
  • 毕业设计做网站seo培训公司
  • 福州网站开发fjfzwl寒亭网站建设
  • 建设主管部门指定网站制作一个网站需要多少小时
  • 网站维护广州建网站比wordpress还好
  • 孝感网站建设专家网站开发 哪些技术
  • 新手怎么搭建网站wordpress影视模板
  • 哪个网站做美食视频网站建设需要做什么准备工作
  • 网站建设 移动端海南创作什么网站
  • 广州网站开发设计智慧团建官方网站登录
  • 手机端网站开发源码南阳锐诚网站建设
  • 20g虚拟主机建设网站免费建设网站c3sales
  • net网站开发找那家博兴建设局网站
  • 做贺卡 网站手机版网站开发教程
  • 网站开发的报告网站怎样被百度收录
  • 郑州展厅设计制作公司seo优化软件免费
  • 福州市城乡建设局网站女孩子做室内设计累吗