当前位置: 首页 > news >正文

有哪些开源大数据处理项目使用了大模型


以下是一些使用了大模型的开源大数据处理项目:

1. **RedPajama**:这是一个开源项目,使用了LLM大语言模型数据处理组件,对GitHub代码数据进行清洗和处理。具体流程包括数据清洗、过滤低质量样本、识别和删除重复样本等步骤。

2. **SWIFT**:阿里开源的大模型微调轻量级框架,用于提高RAG应用的准确度。

3. **Text2SQL**:阿里发布的最新实践开源模型,其准确度超过了GPT4。

4. **AutoLabel**:阿里开发的自动标注工具,比人工快100倍且准确度相当。

5. **DataEase**:阿里提供的无需代码的数据可视化工具。

6. **Colossal-AI**:潞晨科技开发的大模型智算软件栈,基于PyTorch,通过高效多维并行、异构内存等技术,降低AI大模型训练/微调/推理的开发与应用成本。

7. **vLLM**:提供高效推理吞吐量、PagedAttention内存管理、连续批处理和优化的CUDA内核。

8. **OpenLLM**:在生产环境中运行大语言模型的开源平台,支持LLaMA、StableLM等模型。

9. **QLora**:提供高效的LLM预训练微调方法,减少内存占用。

10. **Dify**:一个开源的大模型推理平台,支持多种大模型。

11. **LLM Foundry**:一个开源的大模型推理、服务和微调工具。

12. **Chat2DB**:阿里开源的智能通用数据库SQL客户端和报表工具。

13. **Defog AI SQLCoder**:Defog团队推出的大语言模型,专门用于将自然语言问题转化为SQL查询。

14. **BIRD-SQL**:由多位作者联合创作的大语言模型,用于自然语言到SQL的转换。

15. **PandaGPT**:剑桥华人团队开源的大型基础模型,横扫六模态。

16. **Skywork-13B**:昆仑万维开发的开源大模型,拥有130亿参数和3.2万亿高质量多语言训练数据。

这些项目展示了大模型在开源大数据处理领域的广泛应用,涵盖了从数据清洗、标注、可视化到模型推理和微调等多个方面。通过这些开源项目,开发者可以更高效地利用大模型技术,推动大数据处理和分析的创新和发展。


 

相关文章:

  • vue3父子组件props传值,defineprops怎么用?(组合式)
  • isaac gym使用记录
  • C/C++跳动的爱心
  • [大模型笔记]扣子-知识库搭建,并用Java-SDK调用的笔记
  • centos7的yum出错
  • 大模型在肝硬化风险预测及临床决策中的应用研究
  • 提效10倍:基于Paimon+Dolphin湖仓一体新架构在阿里妈妈品牌业务探索实践
  • Jenkins 自动构建Job
  • idea debug功能演示线程安全问题
  • MATLAB学习之旅:数据建模与仿真应用
  • Autosar Com配置-Timeout配置及实现-基于ETAS工具
  • 解决“error: Tried to call obs_frontend_start_virtualcam with no callbacks!”
  • Tio-Boot 集成 Spring Boot 实现即时通讯功能全解析
  • 运维脚本——9.配置漂移检测
  • 【Linux内核】进程管理(下)
  • directx12 3d开发过程中出现的报错 十三
  • 全链路优化:如何让单点登录认证接口并发性能翻倍?
  • 鸿蒙开发环境搭建-入门篇
  • 网络运维学习笔记 017 HCIA-Datacom综合实验01
  • 区块链相关方法-SWOT分析
  • 异域拾异|大脚怪的形状:一项神秘社会学研究
  • 保证断电、碰撞等事故中车门系统能够开启!汽车车门把手将迎来强制性国家标准
  • 第1现场 | 50多年来首次!印度举行大规模民防演习
  • 民生访谈|今年上海还有哪些重要演出展览?场地配套如何更给力?
  • 上任后首访,德国总理与法国总统举行会晤
  • 公募基金行业迎系统性变革:基金公司业绩差必须少收费