当前位置: 首页 > news >正文

高质量数据集|从武汉光谷《面向科技情报大模型的高质量数据集建设》招标项目谈起

2025 年 7 月 25 日, 武汉光谷数字产业集团有限公司发布《面向科技情报大模型的高质量数据集建设项目》招标公告,预算 6000 万元。

招标内容:高质量数据集建设相关的硬件、软件及数据等内容。

服务期限:2025 年 12 月 31 日前通过项目最终验收。

其他:软硬件免费质保期为最终验收合格后 3 年;免费运维服务期为最终验收合格后 1 年。


从这个招标项目切入,从“政策背景、建设难点、工作模式、现有案例”具象化,详细点击链接,见下文:

一、高质量数据集政策背景

国家数据局:推动高质量数据集建设,加快实施“人工智能+”行动

二、高质量数据集建设难点

高质量数据集|建设难点

三、大模型技术改变数据工程的工作模式

数据集建设已经是AI项目中重要必不可少的关键一环。数据集在项目预算中比重也会越来越重。数据集不单单是数据团队,更需要大模型团队的深入参入。

高质量数据集|大模型技术正从根本上改变传统数据工程的工作模式

四、针对光谷这个项目,国内类似案例

1、在高质量数据集构建方面,国内某研究团队实现了及时性、准确性、专业性高质量数据集可持续化。研发自适应网络爬虫的智能采集、情报源智能发现模块、基于AI敏感信息过滤技术的内容安全辅助审核功能模块,实现持续监测3500多个信源、实时更新科技动态的功能,解决了大模型输出的及时性问题。通过建立基于情报百科数据、科技政策数据、科技动态数据等18个分领域知识库,解决了大模型输出准确性的问题。构建110万条科技情报高质量数据集,并且获得了XX国际大数据交易所数字资产登记证书。面向情报大模型微调构建2.5万条监督式微调数据集,解决了大模型输出的专业性问题。

2、在知识图谱与大模型融合方面,研究团队构建科技情报领域知识图谱,实现了多源异构知识的融合与推理,并通过知识图谱与大模型的融合,促进了大模型输出的准确性和可靠性,便于情报研判和洞察。基于大模型知识图谱自动构建技术,解决非结构化的情报信息结构化处理问题,为后续情报分析奠定基础。基于知识图谱的检索增强技术,为提高大模型输出的准确性提供了可选路径。

3、在大模型微调方面,信息所研究团队创新性提出一种参数高效的大模型多任务学习方法,解决了多任务学习中的跷跷板问题,以及不同任务间知识迁移问题。在不影响模型参数效率的条件下,提升了垂直大模型多任务学习效果。

4、研究团队构建了科技情报专业化知识库,并结合提示词优化,实现了面向科技情报场景的检索增强生成技术,解决了大模型在完成情报任务过程中的准确性和可溯源问题。

研究团队结合现有情报系统,在科技情报领域建成全国首个以科技动态为特点的大模型服务平台,完成基于科技情报大模型的情报智能问答、智能简报、研究报告辅助撰写等智能化情报服务功能,实现对话式情报服务、自动摘要以及情报报告辅助撰写,优化个性化推荐功能,并且实现线上线下情报智能获取与处理,拓展情报获取的渠道与范围,提升现有情报服务平台的感知能力。

http://www.dtcms.com/a/313273.html

相关文章:

  • 实现游戏排行榜
  • SpringBoot项目数据脱敏(自定义注解)
  • 关于corn
  • SpringAI无人机智能灌溉、本地化AI推理、分析气象站、分析球场草皮系统实践
  • Python操作Excel——从入门到精通
  • QML 将一个qml文件定义为公共的全局单例
  • 外设数据到昇腾310推理卡 之五 3403ATU
  • 【分析学】Hilbert 空间
  • python脚本-ATE测试数据stdf文件自动处理之概率分布图、直方图、数据分布图
  • 说说对泛型的理解?
  • 数据资产——解读2025 数据提供合同(示范文本)【附全文阅读】
  • linux扩展磁盘容量到home下
  • Python篇---import
  • 线段树学习笔记 - 区间最值操作
  • 实战案例:容器数据卷四部曲(三)目录数据卷
  • DDR SDRAM中的DQS与DQ信号
  • 【网络安全】日志文件格式
  • 数据结构——单向链表
  • Kali基础知识点【1】
  • Pytorch-04 搭建神经网络架构工作流
  • TikTokShop-美国本土跨境-达人邀约_影刀RPA源码解读
  • 8.1.3 TiDB集群方案雨Replication原理
  • 关于逻辑回归的相关知识大全
  • 如何解决pip安装报错ModuleNotFoundError: No module named ‘scikit-learn’问题
  • 【AI】持久化聊天记忆(隔离对话)
  • ELECTRICAL靶机攻略
  • Linux驱动学习(四)字符设备
  • PyTorch生成式人工智能(24)——使用PyTorch构建Transformer模型
  • HBK公司核心产品和业务简析
  • 架构——异地多活成熟的架构模式