【评测】DuReader-Retrieval数据集之初体验
回到目录
【评测】DuReader-Retrieval数据集之初体验
上一篇[《【评测】推理和微调 “GTE文本向量-中文-通用领域-base”模型》 ](https://blog.csdn.net/u010593516/article/details/148312365) 微调不太成功,但是
数据集文件值得研究。
数据集结构
query: 问题
positive_passages: 正面答复(准确)
negative_passages: 负面答复(不准确)
具体案例解释
query:ps如何去掉衣服褶皱
positive_passages: 包括3个doc_id的准确答复,
negative_passages: 包括n个doc_id的不准确答复,答复基本是围绕我们日常穿的衣服的褶皱处理方法
实际文件里面这一个条目的negative_passages有好多好多的doc_id,问题来了,为什么需要在dataset里面标记这么多negative_passages呢?
本文结束
回到目录