当前位置: 首页 > news >正文

LLM 多语言数据集

多语言数据感觉主要还是fineweb和fineweb2, 其他数据都是主要针对特定语种比较多

101 Billion Arabic Words Dataset

ClusterlabAi/101_billion_arabic_words_dataset
数据主要从e Common Crawl WET 中提取,并采用了创新的技术来进行去重和筛选,主要解决大部分语料是从英语翻译过来的问题。
数据收集 :

  • 时间 : week 39 of 2021 to week 27 of 2022的时间段内
  • 从3000个网站中,筛选出250个阿拉伯网站,
    数据清洗 :

数据去重 :
基于minihash的方式对 总文本和段落分别进行去重。
使用了一些专门针对阿拉伯语设计的分词和处理的工具 : Camel tools library version 1.5.2, Tnkeeh v0.0.9。
最终数据集的情况:
在这里插入图片描述

缺陷 : 没有对伦理、有害、敏感的数据进行去除,大部分依赖URL进行过滤和进行简单的去重操作。

Chinese Tiny LLM: Pretraining a Chinese-Centric Large Language Model
m-a-p/MAP-CC
数据来源 : 包含CC, 学术论文, 百科全书, 书籍.
数据处理流程 :
在这里插入图片描述
在这里插入图片描述

对于上述的启发式过滤采用了右图办法。附带了一个CHC-Bench,评估在中文上的模型性能。

CroissantLLM: A Truly Bilingual French-English Language Model

(论文提到的Tokenizer也有变化,可以去看一看)
法语数据来源(英语和Code数据来源是公开数据集) :

  • Oscar、mC4等多个网络爬虫项目 + 比利时、瑞士和摩洛哥等非洲国家的主流新闻源

  • 法国法律行政数据,5.3B

  • 文化数据
    • 古登堡计划(Hart, 1971)截至2023年10月的全部法语公版书籍(3.02亿token)
    • 法国国家图书馆(BnF)的手稿与文档:经OCR处理、公版认证且通过质量筛选(保留2700万token,原始语料大部分因质量剔除)
    • 诗歌网站爬取的法语经典诗歌
    • 高质量语音转文字生成的播客文本(规模有限)
    • OpenSubtitles电影字幕(4180万token)

  • 百科全书数据

  • 工业数据
    在对于Web Data做了一些数据清洗的工作,对于其他数据没有进行系统的数据清洗

http://www.dtcms.com/a/301173.html

相关文章:

  • 华为OD机试_2025 B卷_书籍叠放(Python,200分)(附详细解题思路)
  • Coze Studio概览(一)
  • 力扣131:分割回文串
  • 详解赛灵思SRIO IP并提供一种FIFO封装SRIO的收发控制器仿真验证
  • 2025年Agent创业实战指南:从0到1打造高增长AI智能体项目
  • FPGA IP升级
  • input_handler和input_dev详解
  • 【AI阅读】20250717阅读输入
  • 深度学习在计算机视觉中的应用:对象检测
  • C++ auto 类型推导
  • Netty中 ? extends Future<? super V>这种的写法的理解
  • 2025年渗透测试面试题总结-2025年HW(护网面试) 73(题目+回答)
  • PDF文件被加密限制怎么办?专业级解除方案分享
  • mysql 快速上手
  • FFmpeg——参数详解
  • 3.JDK+JRE组件构成与协作
  • LeetCode 923.多重三数之和
  • 【AI论文】WebShaper:通过信息寻求形式化实现主动式数据合成
  • CIFAR100数据集实测-基于 AlexNet模型的压缩/Bagging/Boosting 探索
  • 创建的springboot工程java文件夹下还是文件夹而不是包
  • 大数据之路:阿里巴巴大数据实践——大数据领域建模综述
  • 卷积神经网络研讨
  • haproxy七层代理(知识点+相关实验部署)
  • 【奔跑吧!Linux 内核(第二版)】第5章:内核模块
  • 关系与逻辑运算 —— 寄存器操作的 “入门钥匙”
  • Linux: 调试器gdb/cgdb
  • 第六章 JavaScript 互操(2).NET调用JS
  • K-近邻算法
  • MPLS LDP(概念)
  • 20250707-2-Kubernetes 网络-Ingress暴露应用(http与https)_笔记