当前位置: 首页 > news >正文

共同性思考:数据标注研究与数据标注工作者 工作范式思考

一、问题来源:
今天看了两篇文章,有些思考。一篇是我的偶像 lilianweng关于数据标注的博客,一篇是985硕士的数据标注工作介绍(最后有文献对接)。忽然觉得两种模式很相似。因此提出了这样的疑问。

在这里插入图片描述

疑问:我通过数据标注研究中例举的偏差值修正等内容,联想到数据标注工作者的培训流程、操作方式,发现工作者的行为实际是依照研究中避免数据偏差方式进行工作的。例如为了修正偏差,数据使用算法,相对的人使用培训修正数据偏差。这种自上而下的,是一种范式吗?或者只是我的偏见呢?人类还有什么研究和现实是如此传承的?

二、总结
收集到的资料和修正我的思维缺陷得出如下内容:总结了下,这是‘控制-校正‘或者’自上而下‘的模式,
1、范式情况及举例:在涉及知识传承有很多例子。(老师提供对学生的知识偏差修正-学生通过标准化考试发现偏差调整学习方向、管理层设定目标-基层培训和反馈执行及优化、法律系统通过‘惩罚错误行为’-鼓励正向行为进行‘模型对齐’),领域可见知识传承、控制系统、管理理论等方面。

2、问题可能性:自上而下的隐患,实际底部会有例如’创新缺失、问题复杂化、加权负重向下‘等问题,例如SOP在小型公司中单人身兼数职反而能更快推进工作。因此一般会提供’自下而上‘的反馈渠道。

3、其他范式:其他范式包括自下而上和自监督学习、进化算法、无监督学习等。自下而上包括进化、众包、去中心化学习。进化算法(Evolutionary Algorithms)不直接设定规则,而是让多个个体随机变异、竞争、适应环境,最终产生最优解。神经网络的无监督学习 让模型自主寻找数据的模式,而不是由人类标注指导。

4、是否偏见取决于多因素考虑:关键是:观察到“人类用培训修正偏差”与“算法用数学修正偏差”的功能等价性,这实际上触及了控制论(Cybernetics)的核心命题——无论是人类组织还是机器系统,都需要通过信息反馈与规则迭代实现稳态(Homeostasis)。这种视角本身已突破了对“人机对立”的简单化理解,有跨学科启发性。个人认为重要是流通性、灵活性,带陈出新,而不是严格匹配。

三、文献参考
文献参考
1、https://lilianweng.github.io/posts/2024-02-05-human-data-quality/ Thinking about High-Quality Human Data
考虑高质量的人类数据
2、https://36kr.com/p/3163424093503235 985硕士进厂做数据标注,自嘲像个「包工头」

相关文章:

  • MicroPython+ESP32:一.开发环境的搭建
  • 使用synchronized解决高并发场景
  • 线性模型 - 二分类问题的损失函数
  • 基于JAVA的流浪动物救助平台的设计与实现(LW+源码+讲解)
  • 14.学成在线开发小结
  • Python异步编程优雅实践
  • 安装 Docker Desktop 修改默认安装目录到指定目录
  • 机械学习基础-6.更多分类-数据建模与机械智能课程自留
  • Android Studio安装配置及运行
  • mysql 学习16 视图,存储过程,存储函数,触发器
  • 基础排序算法
  • js第十二题
  • git版本控制工具介绍
  • Python简单语法
  • 从二叉树到红黑树
  • 【R语言】GitHub Copilot安装-待解决
  • 6.2.2 E-R模型
  • 系统思考—系统结构
  • Ubuntu22.04配置cuda/cudnn/pytorch
  • 799. 最长连续不重复子序列
  • 网站开发背景绪论/搜索推广营销
  • 抖音网络推广怎么做/网站推广优化的方法
  • wordpress调用网站标题/网络销售管理条例
  • 服务器搭建网站跑不满宽带/公司网址有哪些
  • 仙桃网站建设公司/抖音seo排名系统哪个好用
  • 绥化市建设局官方网站/北京建站优化