当前位置: 首页 > wzjs >正文

设计图纸网站教务管理系统学生登录入口

设计图纸网站,教务管理系统学生登录入口,在线商标设计,网站集群建设价格文本识别,也称为光学字符识别 (OCR),可以将印刷文本或手写文本转换为易于编辑、搜索和分析的数字格式。它涉及分析文本图像并识别其中包含的字符和单词。 深度学习彻底改变了文本识别,显著提升了准确性和性能。目前已有多种基于深度学习的文本…

    文本识别,也称为光学字符识别 (OCR),可以将印刷文本或手写文本转换为易于编辑、搜索和分析的数字格式。它涉及分析文本图像并识别其中包含的字符和单词。

        深度学习彻底改变了文本识别,显著提升了准确性和性能。目前已有多种基于深度学习的文本识别方法。

 使用深度学习进行文本识别

  • 卷积神经网络 (CNN):CNN 通常用于基于图像的文本识别。输入图像由卷积层驱动,提取特征并学习文本表征。然后,CNN 的输出被传递到循环神经网络 (RNN) 进行进一步处理和文本识别。

  • 循环神经网络 (RNN):RNN 广泛应用于基于序列的文本识别,例如手写和语音识别。RNN 使用反馈循环来处理序列数据,从而能够捕捉长期依赖关系和上下文信息。

  • 编码器-解码器网络:编码器-解码器网络用于端到端文本识别。输入图像首先被编码为特征向量,然后解码为字符或单词序列。这些网络可以进行端到端训练,从而提高效率和准确性。

        记得十年前学习google 的tensorflow 神经网络技术的第一个项目就是手写数字的识别。伴随着大模型(LLM) 特别是多模态大模型的出现,基于AI大模型 的OCR 变现出显著的优势。而且使用十分简单。最近我就尝试了基于阿里的qwen-vl 大模型实现OCR 。

输入:

这是一个page 的文档,通过截屏出来的图片。

 代码

import os
from openai import OpenAI
import base64
def encode_image(image_path):with open(image_path, "rb") as image_file:return base64.b64encode(image_file.read()).decode("utf-8")input_image_path = r"./text.png"
base64_image = encode_image(input_image_path)
client = OpenAI(api_key="sk-27c202869xxxxxxa4a9300767e0d",base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
)completion = client.chat.completions.create(model="qwen-vl-ocr-latest",messages=[{"role": "system","content": [{"type": "text", "text": "You are a helpful assistant."}],},{"role": "user","content": [{"type": "image_url","image_url": {"url": f"data:image/jpeg;base64,{base64_image}"},},{"type": "text", "text": "请识别出图片文字"},],},],
)print(completion.choices[0].message.content)

结果

播客电台项目报告
项目简介
项目的目标
本项目标是实现像收听电台一样收听自己喜爱的播客节目。节目单是根据听众的喜好,利用
AI技术的推荐算法自动生成。实现听众完全脱离屏幕操作,可以在多种设备收听播客节目。
本项目的另一个目标是将国外优质的播客节目翻译成中文播客,使国内听众能够收听到国外
生活,教育类的播客节目。倾听世界的声音。
项目的背景
国内播客的现状
国内的播客平台主要包括喜马拉雅和小宇宙。本人收听了一段时间的播客节目,总的感觉有一些高
质量的播客节目,比如我喜欢的播客包括:硅谷101,商业就是这样的。但是高质量的节目比较少,
主要表现在:
• 音频书比较多,访谈类节目比较少。从我个人的体验而言,我更喜欢访谈类节目,感觉有一个人
在讲述。更加亲切。

我尝试使用了两个大模型

  • qwen-vl-max-latest
  • qwen-vl-ocr-latest

 初步测试,感觉两个模型的OCR 识别能力都很棒。

我也尝试过OllamaOCR ,它是基于Llama 3.2-Vision 11B 实现的,感觉对中文的识别效果不行。

结束语

  很感慨,技术进步有时候真的很无情,一些企业做了许多年的OCR , 被大模型超越了,真是被时代淘汰,连招呼都不打。

  无论是语音转码(TTS/STT),还是OCR ,中文还是要依靠国内的力量来开发。也是国内团队具有优势的场景之一。

  


文章转载自:

http://h9K7Cs7D.wtnwf.cn
http://MA8pGCvY.wtnwf.cn
http://OJRehanS.wtnwf.cn
http://KgIUdjWe.wtnwf.cn
http://iyvaVo9w.wtnwf.cn
http://4pYpgMNo.wtnwf.cn
http://uxhRLS2g.wtnwf.cn
http://eCeJ9MrW.wtnwf.cn
http://M2uNHASm.wtnwf.cn
http://SsR1tUNi.wtnwf.cn
http://dxllHQad.wtnwf.cn
http://7qQo6Ba2.wtnwf.cn
http://txqbyizB.wtnwf.cn
http://EgG8DeXc.wtnwf.cn
http://53XR0oVY.wtnwf.cn
http://si1wI8ZO.wtnwf.cn
http://mo4DsMrZ.wtnwf.cn
http://yWMlmYV7.wtnwf.cn
http://WigOp10f.wtnwf.cn
http://pQRQrQLN.wtnwf.cn
http://5JckrUI6.wtnwf.cn
http://Dn7T7fPF.wtnwf.cn
http://mpfrIgfU.wtnwf.cn
http://2qgsHg7a.wtnwf.cn
http://g8jIYYuh.wtnwf.cn
http://3gzmvboF.wtnwf.cn
http://shdiaRBe.wtnwf.cn
http://y0e1mBcE.wtnwf.cn
http://qd3MvA6m.wtnwf.cn
http://ZI6cmEFq.wtnwf.cn
http://www.dtcms.com/wzjs/715040.html

相关文章:

  • 国企网站建设会议纪要企业网站建设学习
  • 淘宝商家网站建设东营建网站
  • 专门做网站建设的游戏租号网站怎么建设
  • ps做的网站怎样在dw里打开定制网站制作公司
  • 装修 设计 网站百度推广要企业自己做网站吗
  • 安徽网站建设 网新网站正能量视频不懂我意思吧
  • 1.电子商务网站建设的核心是( )dw软件官网
  • 建站公司人员配置网站推广方案设计方案
  • 沂南做网站做环保要知道的几个网站
  • 网站建设的电销最专业微网站建设公司
  • 快站优惠券app12380网站建设建议
  • 软件开发包括网站开发吗wordpress的tag转数字链接
  • 主机网站今天大连最新通告
  • 手机网站建好怎么发布wordpress错误代码403
  • 图片站手机网站怎么做的学做网站的书
  • 建材招商网站公司网络营销策划书范文
  • 国内买机票最便宜网站建设贵港网站建设代理
  • 游仙移动网站建设新媒体营销实训报告总结
  • 免费做字体的网站好汕头网站建设
  • 购买的网站平台建设服务计入虚拟主机加wordpress
  • 重庆seo技术博客湖南seo优化排名
  • 如何制作小程序魔贝课凡seo课程好吗
  • 云南网站制作公司联英人才网重庆招聘网
  • 深圳建设网站开发wordpress转发微信
  • 做网站的所有代码湘潭网站建设问下磐石网络
  • 仿一个网站要多少钱西安做seo的公司
  • 友情链接对网站的作用爱站网的关键词是怎么来的
  • jsp网站开发实例与发布滕州网站建设招聘
  • 微商货源类网站源码绍兴网站建设方案报价
  • 长沙网站维护ps怎么制作网页效果图