当前位置: 首页 > news >正文

中文网站建设公司排名目前很火的网页游戏

中文网站建设公司排名,目前很火的网页游戏,邵东做网站的公司,网站做百度地图定位多语言数据感觉主要还是fineweb和fineweb2, 其他数据都是主要针对特定语种比较多 101 Billion Arabic Words Dataset ClusterlabAi/101_billion_arabic_words_dataset 数据主要从e Common Crawl WET 中提取,并采用了创新的技术来进行去重和筛选,主要解决…

多语言数据感觉主要还是fineweb和fineweb2, 其他数据都是主要针对特定语种比较多

101 Billion Arabic Words Dataset

ClusterlabAi/101_billion_arabic_words_dataset
数据主要从e Common Crawl WET 中提取,并采用了创新的技术来进行去重和筛选,主要解决大部分语料是从英语翻译过来的问题。
数据收集 :

  • 时间 : week 39 of 2021 to week 27 of 2022的时间段内
  • 从3000个网站中,筛选出250个阿拉伯网站,
    数据清洗 :

数据去重 :
基于minihash的方式对 总文本和段落分别进行去重。
使用了一些专门针对阿拉伯语设计的分词和处理的工具 : Camel tools library version 1.5.2, Tnkeeh v0.0.9。
最终数据集的情况:
在这里插入图片描述

缺陷 : 没有对伦理、有害、敏感的数据进行去除,大部分依赖URL进行过滤和进行简单的去重操作。

Chinese Tiny LLM: Pretraining a Chinese-Centric Large Language Model
m-a-p/MAP-CC
数据来源 : 包含CC, 学术论文, 百科全书, 书籍.
数据处理流程 :
在这里插入图片描述
在这里插入图片描述

对于上述的启发式过滤采用了右图办法。附带了一个CHC-Bench,评估在中文上的模型性能。

CroissantLLM: A Truly Bilingual French-English Language Model

(论文提到的Tokenizer也有变化,可以去看一看)
法语数据来源(英语和Code数据来源是公开数据集) :

  • Oscar、mC4等多个网络爬虫项目 + 比利时、瑞士和摩洛哥等非洲国家的主流新闻源

  • 法国法律行政数据,5.3B

  • 文化数据
    • 古登堡计划(Hart, 1971)截至2023年10月的全部法语公版书籍(3.02亿token)
    • 法国国家图书馆(BnF)的手稿与文档:经OCR处理、公版认证且通过质量筛选(保留2700万token,原始语料大部分因质量剔除)
    • 诗歌网站爬取的法语经典诗歌
    • 高质量语音转文字生成的播客文本(规模有限)
    • OpenSubtitles电影字幕(4180万token)

  • 百科全书数据

  • 工业数据
    在对于Web Data做了一些数据清洗的工作,对于其他数据没有进行系统的数据清洗

http://www.dtcms.com/a/404676.html

相关文章:

  • 福建省建设监理公司网站三视觉设计网站
  • 哪个不是网站开发工具wordpress的评论
  • 查钓鱼网站做网站建设的公司有哪些方面
  • 电脑搭建网站推广什么app佣金高
  • 网站用什么语言网创项目平台
  • 手机网站页面如何制作软件抖音推广方式
  • 推荐做网站的话术本地南通网站建设
  • 南宁网站建设找哪家建设网站思路
  • 网站做优化的必要性百度seo优化网站怎么做
  • 宠物出售的网站怎么做网站开发 图片服务器
  • 做任务赚q币的网站深圳企业主页制作
  • 钟表 东莞网站建设脚上起小水泡还很痒是怎么回事
  • CMake学习篇[2]---CMake进阶+非同级目录构建+静态库/动态库链接
  • 手机怎么制作网站教程视频教程网站原图怎么做
  • 天津网站制作报价wordpress get page
  • 网站建设所需的硬软件兰州自媒体公司有哪些
  • 请将已备案网站接入访问主要怎么学的呢
  • 做静态网站有什么建议ui设计的网站
  • 网站开发广告怎么写长春财经学院全国排名
  • 义乌城市建设规划网站合肥网站排名
  • 网站首页策划怎么做明星网页设计范例
  • asp.net mvc 统计网站流量数据jsp做网站组件
  • 泰安百度做网站的wordpress深入浅出
  • 东软实训网站开发学做网站难吗
  • 舆情网站设计wordpress文章阅读数更改
  • 做高考题的网站好看开源企业网站模板
  • 服装网站案例怎么修改网站的源代码
  • wordpress 编辑器引用团购网站seo
  • 做的最好的视频教学网站公司网络推广培训
  • 价格合理的网站建设学生心理健康网站建设论文