高质量数据集|从武汉光谷《面向科技情报大模型的高质量数据集建设》招标项目谈起
2025 年 7 月 25 日, 武汉光谷数字产业集团有限公司发布《面向科技情报大模型的高质量数据集建设项目》招标公告,预算 6000 万元。
招标内容:高质量数据集建设相关的硬件、软件及数据等内容。
服务期限:2025 年 12 月 31 日前通过项目最终验收。
其他:软硬件免费质保期为最终验收合格后 3 年;免费运维服务期为最终验收合格后 1 年。
从这个招标项目切入,从“政策背景、建设难点、工作模式、现有案例”具象化,详细点击链接,见下文:
一、高质量数据集政策背景
国家数据局:推动高质量数据集建设,加快实施“人工智能+”行动
二、高质量数据集建设难点
高质量数据集|建设难点
三、大模型技术改变数据工程的工作模式
数据集建设已经是AI项目中重要必不可少的关键一环。数据集在项目预算中比重也会越来越重。数据集不单单是数据团队,更需要大模型团队的深入参入。
高质量数据集|大模型技术正从根本上改变传统数据工程的工作模式
四、针对光谷这个项目,国内类似案例
1、在高质量数据集构建方面,国内某研究团队实现了及时性、准确性、专业性高质量数据集可持续化。研发自适应网络爬虫的智能采集、情报源智能发现模块、基于AI敏感信息过滤技术的内容安全辅助审核功能模块,实现持续监测3500多个信源、实时更新科技动态的功能,解决了大模型输出的及时性问题。通过建立基于情报百科数据、科技政策数据、科技动态数据等18个分领域知识库,解决了大模型输出准确性的问题。构建110万条科技情报高质量数据集,并且获得了XX国际大数据交易所数字资产登记证书。面向情报大模型微调构建2.5万条监督式微调数据集,解决了大模型输出的专业性问题。
2、在知识图谱与大模型融合方面,研究团队构建科技情报领域知识图谱,实现了多源异构知识的融合与推理,并通过知识图谱与大模型的融合,促进了大模型输出的准确性和可靠性,便于情报研判和洞察。基于大模型知识图谱自动构建技术,解决非结构化的情报信息结构化处理问题,为后续情报分析奠定基础。基于知识图谱的检索增强技术,为提高大模型输出的准确性提供了可选路径。
3、在大模型微调方面,信息所研究团队创新性提出一种参数高效的大模型多任务学习方法,解决了多任务学习中的跷跷板问题,以及不同任务间知识迁移问题。在不影响模型参数效率的条件下,提升了垂直大模型多任务学习效果。
4、研究团队构建了科技情报专业化知识库,并结合提示词优化,实现了面向科技情报场景的检索增强生成技术,解决了大模型在完成情报任务过程中的准确性和可溯源问题。
研究团队结合现有情报系统,在科技情报领域建成全国首个以科技动态为特点的大模型服务平台,完成基于科技情报大模型的情报智能问答、智能简报、研究报告辅助撰写等智能化情报服务功能,实现对话式情报服务、自动摘要以及情报报告辅助撰写,优化个性化推荐功能,并且实现线上线下情报智能获取与处理,拓展情报获取的渠道与范围,提升现有情报服务平台的感知能力。