当前位置：首页 > news >正文

NLP之文本纠错开源大模型：兼看语音大模型总结

news 2025/7/7 9:53:32

今天我们来看开源相关进展，看两个问题。

一个是大模型用于文本纠错开源工具，有一些模型跟数据，可以做个记录。

另外，在语音方面，也有一些语音转写或者对话的大模型，也做个技术汇总，看看有哪些模型，哪些数据，哪些tokenizer。

一、大模型用于文本纠错开源工具

先看NLP进展，中文拼写和语法纠错大模型，https://github.com/TW-NLP/ChineseErrorCorrector，支持中文拼写和语法错误纠正，并开源拼写和语法错误的增强工具。

在具体功能上，支持缺字漏字、错别字错误、缺少标点、错用标点、主语不明、谓语残缺、宾语残缺、其他成分残缺、虚词多余、其他成分多余、主语多余、语序不当、动宾搭配不当、其他搭配不当共 14种错误。

在开放模型上，大模型训练代码，给出了多个模型，有4B、7B和1.5j几个版本，如https://huggingface.co/twnlp/ChineseErrorCorrector3-4B，具体如下：

在训练数据上，使用200万纠错数据进行全量训练，适用于语法纠错和拼写纠错，也开源了数据集，数据集如下：

二、语音大模型的技术总结

语音大模型进展，Awesome-SpeechLM-Survey，涵盖了50多种语音语言模型，提供丰富的模型资源，《Recent Advances in Speech Language Models: A Survey》: https://github.com/dreamtheater123/Awesome-SpeechLM-Survey

其中重点的，可以看：

1、目前有哪些训练数据集：

2、目前对于语音的tokenizer：

3、目前主流的语音大模型：

查看全文

http://www.dtcms.com/a/268155.html

李宏毅genai笔记：推理

Maven引入第三方JAR包实战指南

支持向量机（SVM）在肝脏CT/MRI图像分类（肝癌检测）中的应用及实现

Python11中创建虚拟环境、安装 TensorFlow

AI编程：打造炫酷多语倒计时器

【Elasticsearch】自定义评分检索

评论区实现前端Vue

【openp2p】学习4：纳秒级别的时间同步算法及demo

数学建模的一般步骤

FastAPI+React19开发ERP系统实战第04期

Hadoop YARN 命令行工具完全指南

ProCCD复古相机：捕捉复古瞬间

uniapp的光标跟随和打字机效果

LangChain有中文网可以访问，还有教程可以学

手机FunASR识别SIM卡通话占用内存和运行性能分析

Jailer：一款免费的数据库子集化和数据浏览工具

ragflow本地部署教程linux Ubuntu系统

Android studio在点击运行按钮时执行过程中输出的compileDebugKotlin 这个任务是由gradle执行的吗

《前端路由重构：解锁多语言交互的底层逻辑》

【Linux笔记】Linux的常见命令（部署Java程序）

基于大数据的高效并行推荐系统

VSCode+arm-none-eabi-gcc交叉编译+CMake构建+OpenOCD（基于Raspberry Pico RP2040）

C 语言指针与作用域详解

百度文心大模型 4.5 开源深度测评：技术架构、部署实战与生态协同全解析

Gitee DevOps：全流程自动化的效率革命

DeepSORT算法流程详解

基于Flask+Jinja2的快捷教务系统(后端链接到新版正方教务系统)

k8s-服务发布基础

数据结构实验习题

定时器和守护线程

一、大模型用于文本纠错开源工具

二、语音大模型的技术总结

相关文章：