当前位置: 首页 > news >正文

中国石油AI中台-昆仑大模型介绍(二)

数据标注

更新时间:2025.03.14 17:40

数据建议:需按照数据集管理提供的数据模板来上传数据并发起标注任务,否则可能导致任务失败。

数据标注功能支持用户进行文本数据标注、图像数据标注、视频数据标注、语音数据标注、时序数据标注、结构化数据解析标注、生成式AI标注、对话式AI标注、排序与打分标注。

标注任务需经过团队建立-任务新建与配置-任务发布-标注员标注-审核员审核-验收员验收-任务结束与数据导出等多个环节。

标注任务中包含多个角色:任务创建人、标注&审核负责人、质检负责人、验收负责人、标注员、审核员、质检员、验收员。项目空间中仅负责人、管理员、算法开发人员有新建标注任务的权限,其他角色无权限。任务创建人可以是多个环节负责人,也可以参与任务,但只能参与标注/审核/质检/验收的一个环节;环节负责人也可以参与任务。

整体流程如下:

用户进入租户空间后,点击侧边栏【数据准备】-【数据标注】,进入数据标注模块,可查看标注任务列表、团队管理、绩效管理三部分功能页签。

1、团队管理

团队管理支持用户新建标注团队、审核团队、验收团队的创建与管理,支持选择租户空间成员进入团队,仅有服务调用角色的成员无法进入团队。【团队管理】页签支持查看当前租户空间中已创建的所有团队或者由当前用户创建的所有团队,展示团队名称、团队类型、团队成员数、团队成员、团队描述、创建人、操作列。仅租户空间的负责人、管理员角色的成员有进入团队管理页签进行查看与操作的权限。

(1)新建团队

点击【新建团队】,跳转至新建团队页面。

填写字段要求:

团队名称:30 个字符内,支持中文、英文大小写、数字、中英文小括号、下划线(_)与短横线(-),同一项目空间内名称唯一

团队类型:必选单选项,枚举值包括标注团队、审核团队、验收团队

团队描述:字数在80字以内

团队成员:点击“选择团队成员”显示抽屉,可选择1个及以上的租户空间成员加入团队,租户空间角色仅含有“服务调用”的用户名置灰不可选,支持批量添加团队

(2)查看团队列表

团队列表页可查看当前项目空间下标注任务的团队名称、团队类型、成员数、成员列表、团队描述、创建人等信息。团队没有关联的标注任务,或者团队有关联的标注任务处于【已完成】的状态时,可以对团队执行删除与编辑;团队有关联的任务处于其他状态下,不可删除与编辑团队。

2、绩效统计

点击【绩效统计】页签,不同角色看到的绩效统计指标不同。

(1)租户空间的管理员、负责人可以查看到团队维度、任务维度、人员维度、明细数据4张统计表,可以切换二级页签查看。

其中:

l 团队维度统计表可以查看当前租户空间中每个团队负责的标注任务总量。该表默认根据团队名称第一排序,团队类型第二排序,成员数第三排序,均为降序。

任务维度统计表可以查看当前租户空间中每个标注任务的明细统计数据。默认根据任务名称第一排序,样本总数第二排序,均为降序。

l 人员维度统计表可以查看当前租户空间中每个参与标注任务的人员明细数据。默认根据参与任务数第一排序,负责总样本数第二排序,均为降序。

l 明细绩效统计表可以查看每个人在每个团队每个标注任务中的具体数据。

(2)租户空间除了管理员、负责人外的其他角色人员,由于可能参与多个标注任务,且在每个任务中角色可能不同,因此进入绩效统计后可以查看自己参与的任务、团队综合表。页面内标题为【我的绩效数据】。

(3)您可以点击【导出】按钮导出绩效统计表至本地。租户空间的不同角色导出操作不同:

l 非管理员&负责人点击【导出】按钮后直接全量导出自己的绩效统计表至本地。

l 管理员&负责人点击【导出】按钮后弹窗选择导出内容,包括导出范围、导出条数两个字段。都是必选项。

导出范围:支持多选,下拉框中包含“团队维度”、“任务维度”、“人员维度”、“明细数据”4个选项。

导出条数:完成导出范围选择后,导出条数部分平铺展开已选择的导出范围,每个导出范围字段后面设置一个输入框,用来填写对应统计表要导出的数据条数;输入框后展示当前统计表的数据总条数。

3、 标注任务新建

标注任务列表点击【新建标注任务】,进入标注任务新建页面,编辑标注任务基本信息、选择待标注数据。租户空间中仅负责人、管理员、算法开发人员有新建标注任务的权限,其他角色提示无权限。

字段要求:

(1)任务类型:单一任务或批量任务
| 选择批量任务 ”标注任务名称“无法选择,任务创建后平台自动以”数据集名称-版本任-标注“统一命名。数据来源只有”数据集管理",支持选择多个数据集。完成任务创建后,标注任务列表页加载新建批量任务,一个数据集对应一个任务。
| 选择单一任务,需要按照下列各字段规则填写或选择。
(2)标注任务名称:30 个字符内,支持中文、英文大小写、数字、中英文小括号、下划线()与短横线(-)
(3)标注任务描述:200个字以内
(4)数据来源:数据集管理或其他
(5)数据来源为数据集管理时,支持数据集分类为文本、多模态、图像,点击“选择数据集”后显示抽屉,可选择单个数据集。列表中仅显示当前数据集分类及数据类型的白定义数据集,所有版本平铺显示,字段包括数据集名称、数据集分类、数据类型、描述、版本、创建时间 ( 支持排序),支持查看已选中的数据集数量

(6)数据来源为其他时,支持用户在任务设置中通过云存储的方式上传用于标注的数据集

4、 标注任务设置

标注任务创建成功后,需进一步进行任务设置,设置项包括:通用设置、流程设置、标注界面、标注设置、审核设置、质检设置、验收设置。通过标注任务列表中操作列的设置按钮进入标注任务的设置页面。
需要任务创建人首先进行任务设置,设置项包括:通用设置、流程设置、标注界面。完成任务各项任务设置后需要点击各配置页面的【保存】按钮暂存配置内容,全部完成后通过任务列表操作列的【发布】按钮发布任务,成功发布后任务状态变更为“进行中"。环节负责人可以在自己的任务列表中查看到对应任务,并进行对应环节设置,包括标注设置、审核设置.质检设置、验收设置。

(1)通用设置

通用设置中可修改标注任务名称、标注任务描述,也可以进行其他配置项的设置。只有任务创建人有权限操作该配置项。
标注任务名称:自动代入创建标注任务时填写的标注任务名称,支持修改标注任务描述:对标注任务进行描述,80字以内。
标注说明:支持对标注任务进行规则说明,设置后参与当前标注任务的成员可查看在标注之前显示标注说明 :开启该项配置标注人员标注可自动弹出标注说明里面设置的内容;
预标注:可选择模型进行预标注
页面复制权限:开启该项配置后支持页面可以复制数据内容;
支持空标注结果:开启该项配置后后标注信息为空也可以提交标注信息。

字段要求:

①标注任务名称:30个字符内,支持中文、英文大小写、数字0-9、中英文小括号、下划线(_)与短横线(-)

②标注任务描述:200个字以内

(2)流程设置

流程设置中可以选择标注流程环节以及各环节负责人。只有任务创建人有权限操作该配置项。
选择流程:可以选择三环节或者四环节。其中三环节包括标注-审核-验收;四环节包括标注-审核-质检-验收。任务发布后不可修改。
选择负责人:可选择环节负责人,三环节包括标注&审核环节、验收环节;四环节包括标注&审核环节、质检环节、验收环节。每个环节负责人只有一个,一个人可以是多个环节负责人。

(3)标注界面

只有任务创建人有权限操作该配置项。可以在标注界面种配置标注模板,有两种配置方式根据预置模板进行参数配置,以及自定义模板。-------------------------------
① 预置模板
目前预置计算机视觉、自然语言处理、音频/语音处理、对话式 A1、排名与评分、结构化数据解析、时间序列分析、视频处理、生成式 A1、多模态十大类标注模板。通过【浏览模板】可以进入预置模板页面,可以选择预置模板,基于预置模板添加或删除标签、配置页面样式及控件等

② 自定义模板
支持自定义模板,“标注界面”设置项中所有代码编辑页面增加数据结构预览框,展示当前任务数据集的数据结构。
自定义模板页面包含【保存】及【保存为模板】两个按钮,【保存】按钮和【保存为模板】按钮互不影响。
【保存为模板】支持保存自定义模板为【我的模板】,当前任务不使用该模板,切换页面后返回,不保存该模板内容。【保存为模板】每个用户自定义标注模板存储上限为 50个
【保存】按钮可保存当前模板内容,并应用于当前任务。每个用户的自定义模板名称不能重复。

(4)标注设置

在标注设置中选择标注团队,进行标注任务分配。字段要求:
标注负责人:显示任务创建者指定的标注负责人用户名
团队选择:支持选择租户空间中已创建的标注团队任务分配:支持自动分配及人工分配两种方式。
自动分配 :将任务全量数据样本随机平均分配给已选团队中所有标注人员,且不支持重复分配。自动分配不支持任务的转交。
人工分配:可灵活分配每个标注人员负责标注的数据样本数。支持分配样本总数低于任务总样本数。任务发布后可以对未标注数据样本进行重新分配,但分配方式无
法更改。工分配选择成员可选择对应已选标注团队中的成员,可为每个已选标注员分配样本数。通过【保存并发布】按钮可以直接发布当前标注设置,已选标注人员可以在标注任务列表中查看到该任务,并可以开始标注工作。注:标注任务设置首次发布前由于每个人还没有实质的任务,所以无法进行转交,转交选择框不可操作。首次任务设置发布后,支持进行任务转交。
转交后发起转交人员的全量分配样本(已操作、未操作的样本)都将转交给指向转交人员。可以选择当前环节已选团队中除了自己的其他成员,支持多选,设置修改完成后通过【保存并发布】按钮后生效。其他环节设置逻辑相同,

(5)审核设置

可以选择审核团队进行任务分配。与标注设置逻辑相似。

字段要求:

①审核负责人:显示任务创建者指定的审核负责人用户名;
②团队选择:可选择团队管理中已创建的、且团队成员中不包括创建人的审核团队,单选。

③任务分配:任务分配方式分为:自动分配、定向分配
自动分配:选定团队后,自动将数据样本随机平均分配给团队内的审核人员。
定向分配:选定团队后,可以给已选团队中的审核员分配审核对象(标注员)一个审核员可以分配多个标注员。

(6)质检设置

若任务创建人在流程设置中选择的是四环节,则存在质检设置。质检设置同验收设置。

(7)验收设置

可以在验收设置中对验收任务进行分配,设置抽样百分比及验收不通过率。字段要求:
1)验收负责人、团队选择、、任务分配与标注设置保持一致;
2)抽样比例:可自定义验收抽样比例。比例范围内的数据会进行验收,抽样原则遵循通用设置中的相关配置。
3)验收不通过率:可自定义验收不通过率。如抽样样本内验收不通过的数据占比超过此阈值,则本次任务验收不通过,反之通过.

5、各环节实际操作

(1)标注

支持标注任务中的标注人员标注、作废、跳过数据。参与任务的标注人员可以在标注任务列表中查看到任务数据。点击任务名称后进入标注任务详情页面,可以看到该标注员在当前任务中负责的全量数据。
标注操作
可通过【标注所有任务】进入标注操作页面,可以逐条标注每一条数据。标注完成后通过【提交】按钮提交标注信息,对应的审核员可以进行实时审核。也可以在标注任务详情页点击某一条指定数据进行标注。标注操作页面左侧为列表字段页可以点击右上角的按钮选择展示的字段,查看每条数据的具体信息 。
跳过操作
支持跳过当前条数据,暂时不做处理,取消跳过后可恢复标注操作。

作废操作
支持标注员作废数据,可以在其负责数据未审核、审核驳回状态时作废数据。
在标注操作页面或审核操作页面通过作废按钮执行作废,已作废数据无操作权限。

(2)审核

审核员负责审核的数据完成标注并提交后审核员可以进行审核。
任务中审核设置选择的审核团队中的人员为当前任务的审核人员。参与任务的审核人员可以在标注任务列表中查看到其负责审核的标注任务。点击任务名称后进入任务详情页面,可以看到该审核员在当前任务中负责的全量数据。
审核操作
通过【审核所有任务】进入审核操作页面,可以逐条审核每一条数据。可以选择【通过】或【不通过】完成当前数据的审核。
标注任务中的审核员在对应环节操作页面点击【不通过】按钮后,可以在弹窗内选择驳回原因,以及自定义驳回原因。当前任务中同一标注任务角色,驳回原因共享。该任务中某一角色成员可以查看、使用、删除当前任务中所有相同角色成员创建的驳回原因。支持查看驳回原因:任务中所有角色成员在操作页面查看审核1质检/验收驳回原因,根据驳回原因进行标注信息修改。
作废操作
支持审核员作废数据,可以在其负责数据未审核、审核驳回状态时作废数据。在标注操作页面或审核操作页面单击作废按钮执行作废,已作废数据无操作权限
发起验收操作
环节中 存在审核通过的数据后 该任务的审核环节负责人可以在标注任务列表页点击【验收】按钮发起验收。验收进行中支持发起新一轮的验收。

(3)质检

四环节中,审核环节负责人发起质检后,该标注任务的任务进度-质检进度旁会显示“质检p”点击任务名称后进入任务详情页面,可以看到该质检员在当前任务中负责质检的数据以及任务当前的全量作废数据。
质检操作
通过【质检所有任务】,可以逐条质检每一条数据。选择【通过】或【不通过】完成当前数据的质检。如果当前批次整体质检不通过,则保留质检通过的数据,其他所有数据打回至标注环节 如果当前批次整体质检通过 则质检不通过的数据打回至标注环节参与下一轮迭代。存在质检通过的数据则支持任务创建者导出,导出数据为当前质检通过的全量数据。当前任务所有数据质检通过后,当前任务的任务状态变更为“已完成”。
取消作废操作
环节中,支持质检员取消作废。任务中的每个质检员都可以查看全量已作废数据,并且可以操作取消作废数据。
进入质检列表页,默认展示当前质检员负责的质检数据列表以及全量已作废数据列表。通过【质检所有任务】后质检数据范围不包含已作废数据,只包括分配给该质检员的待质检数据。进入已作废数据操作页面,通过取消作废按钮后该条数据取消作废,取消作废后该条数据回退至对应标注员进行标注。

(4)验收

三环节中,审核环节负责人发起验收后,该标注任务的任务进度-验收进度旁会显示“验收中”。四环节中,质检完成后自动进入验收环节。点击任务名称后进入任务详情页面,可以看到该验收员在当前任务中负责验收的数据以及任务当前的全量作废数据。
 验收操作
通过【验收所有任务】,可以逐条验收每一条数据。选择【通过】或【不通过】完成当前数据的验收。
三环节中,允许分批次进入验收。如果当前批次整体验收不通过,则保留验收通过的数据其他所有数据打回至标注环节;如果当前批次整体验收通过,则验收不通过的数据打回至标注环节参与下一轮迭代。存在验收通过的数据则支持任务创建者导出,导出数据为当前验收通过的全量数据。当前任务的所有数据都验收通过后任务状态变更为已完成。四环节中,每批次进入质检的数据完成质检后,质检通过的数据自动进入验收环节。如果当前批次整体验收不通过,则保留验收通过的数据,其他所有数据打回至审核环节,由审核员进行重新审核;如果当前批次整体验收通过,则批次内数据中验收状态均为验收通过。直到任务的所有数据都完成验收,任务状态变更为已完成。
 取消作废操作
三环节中,支持验收员取消作废。任务中的每个验收员都可以查看全量已作废数据,,并且可以操作取消作废数据。

进入验收列表页,默认展示当前验收员负责的验收数据列表以及全量已作废数据列表。通过【验收所有任务】后验收数据范围不包含已作废数据 只包括分配给该验收员的待验收数据。进入已作废数据操作页面通过取消作废按钮后该条数据取消作废,取消作废后该条数据回退至对应标注员进行标注

6、标注任务列表与数据导出

(1)任务列表

在标注任务列表页,租户空间空间管理员、负责人、算法开发人员,默认展示【我创建的】标注任务列表,可切换为【分配给我】,查看该用户作为标注/审核/质检/验收员参与的标注任务列表。

除了管理员、负责人、算法开发人员外的项目空间其他角色,进入标注任务列表页,默认展示【分配给我】标注任务列表。

列表中可查看任务名称、任务状态、同步状态、任务进度、任务角色、数据集名称、数据集类型、流模式、创建人、创建时间,支持筛选、排序、搜索、刷新。任务进度中各环节进度展示内容如下
标注进度:展示“当前完成标注数量/任务总量”,均包含已作废数量;
审核进度:展示“当前审核完成的数量/任务总量”,均包含已作废数量,其中“当前审2核完成的数量”为审核通过数量与已作废数量之和;
验收进度:展示“当前验收完成的数量/任务总量”,均包含已作废数量,其中“当前验收完成的数量为验收通过数量与已作废数量之和”
质检进度:如果标注任务是四环节,会展示质检进度,同验收进度。

标注任务可操作项包括:设置、发布、验收、导出、导出记录、详情、删除。

设置:标注任务创建完成后需要先进行任务设置。任务设置中包含多个配置项,需要任务创建人优先进行相应设置;发布后环节负责人可以进行相应设置。具体内容见下方“设置标注任务”。
发布:只有任务创建人有发布按钮操作权限。任务创建人首次完成设置后需要操作发布任务,其他环节负责人才可以进行后续各环节设置。
验收:只有验收环节前一环节的负责人可以操作。
导出:验收进度不为0时,任务创建人可以操作导出标注任务数据

记录:参与该任务的所有成员可以查看该标注任务的导出记录。5)
详情:参与该任务的所有成员可以在详情中查看该任务的基本信息和进度详情。
删除:该任务的创建人可以操作删除任务,删除后无法恢复。
在列表中点击标注任务名称,可进入标注任务详情页,查看标注样本数据明细。页面部分可以查看各角色成员在当前任务中的负责标注/审核1质检/验收的数据、未完成的数量等统计数据。
标注任务中支持选择流式数据,即在同一个数据集中增量新增数据,在标注任务中流模式为开”的任务使用的是流模式数据。可以选择同时满足下列条件的标注任务同步数据:
该用户创建的标注任务;
任务状态为“进行中”、“已完成”
流模式为“开”
同步状态为“未同步”、“同步成功”

(2)数据导出

当前任务验收进度不为0时,支持标注数据导出至数据集管理,对应版本的数据来源会变更为“数据标注”。只有该任务的创建人可以执行导出操作。可以选择导出范围、导出格式:

导出范围可以选择增量数据或全量数据 增量数据的导出数据范围为该任务上一次导出完成之后,到当前这次导出期间,新增的验收完成数据;全量数据的导出范围为该任务发布后,一直到当前时间点,所有已经完成验收的数据,
数据类型为单轮问答对、图文对、图文问答对的标注任务,如果标注场景为改写源数据的答案,在导出时可以选择导出格式,可以使用标注答案替换源数据中的答案,导出格式和导入格式保持一致;也可以导出包含全量标注信息的标注数据。标注数据导出后,可以在标注任务列表的操作列查看导出记录。包括任务名称、导出人导出状态、导出时间、导出范围、导出格式、导出位置。如果导出中断,导出状态为“数据就绪”,可以在对应任务的导出记录行操作继续,只有任务创建人可以操作该按钮。

数据质检

更新时间:2025.03.14 17:43

数据建议 :需按照数据集管理提供的数据模板来上传数据并发起质检任务,否则可能导致任务失败。

数据质检功能支持用户对文本、多模态、图像数据进行质检。质检任务需经过团队建立-任务新建与配置-任务发布-质检员质检-任务结束与数据导出等多个环节。

1.新建质检任务

质检任务列表点击【新建质检任务】,进入质检任务新建页面,编辑质检任务基本信息、选择待质检数据。租户空间中仅负责人、管理员、算法开发人员有新建质检任务的权限,其他角色提示无权限。

质检方式包括人质检、机器质检两种方式

(1)人工质检

支持对纯文本、单轮问答对、问答对、图文对、图文问答对、图像数据类型的数据进行数据质检。

(2)机器质检

支持对单轮问答对、问答对数据类型的数据进行机器质检。字段要求如下:

质检模型:目前支持使用讯飞大模型,
max score:模型打分最大值。预置max score为5,可自定义修改,支持输入0-100之间的数字,支持两位小数。
质检通过阈值:支持输入0-max score之间的数字,支持输入两位小数,不低于该阈值可判断为质检通过。任务成功创建后,将根据填写的质检通过阈值判断任务中每条数据是否通过质检,不低于该阈值可判断为机器质检通过。

Prompt:输入框内预置提示词内容,支持修改。您可以自定义机器质检的 Prompt 内容建议使用{max_score}表示模型打分最大值。

2.设置质检任务

http://www.dtcms.com/a/434757.html

相关文章:

  • RAG核心特性:查询增强和关联
  • Spring 中事务的实现
  • 苏州哪家公司做网站网站布局是什么
  • AI智能体在研究分析中的仿真应用:预测、生存与建构——情绪是基于趋利避害的预测机制吗?
  • 12.排序(上)
  • Java bean 数据校验
  • 级数敛散性判别:泰勒展开与等价无穷小的正确使用
  • gRPC从0到1系列【13】
  • 笔记本 光驱 的内部结构及用法: 应急系统启动 (恢复) 光盘 (DVD+R/RW)
  • DirectX Repair下载安装教程(附安装包)2025最新版(DirectX Repair V4.5增强版+dll修复工具)
  • 26考研 | 王道 | 计算机组成原理 | 二、数据的表示和运算
  • 上海网站推河北关键词排名推广
  • 游戏代练经济矩阵计算器
  • K8s学习笔记(十一) service
  • 【MCU】【STM32】基于STM32CubeMX+CLion的STM32开发环境
  • 十堰市住房和城乡建设厅官方网站王野天天
  • 【机器人】SG-Nav 分层思维链H-CoT | 在线分层3D场景图 | 目标导航
  • 全面保护隐私的开源个人知识管理工具——SiYuan
  • html5网站开发参考文献无锡网站制作哪家值得信赖
  • python简易程序跑NLPIR模型
  • GPIO 子系统和 pinctrl 子系统
  • 站酷网首页wordpress内容页显示tag
  • linux下的进程间和线程间通信
  • 网站小图片素材商务网站大全
  • Java 集合 “Map(1)”面试清单(含超通俗生活案例与深度理解)
  • 哔哩哔哩国际版分享 | 白色版 ,蓝色概念版
  • 《P2758 编辑距离》
  • unserialize反序列化漏洞
  • 美工网站设计收费网站中的动态统计图如何做
  • LabVIEW谐波失真分析