当前位置: 首页 > news >正文

数据预处理习题

简述常用的文本数据类型。

  • 结构化文本:如数据库中的表格数据、JSON/XML格式数据,具有明确的字段和层级关系。
  • 非结构化文本:如自然语言文本(新闻、社交媒体内容)、长文档(书籍、论文),缺乏固定格式。
  • 半结构化文本:如HTML网页、日志文件,部分内容有标签或固定模式,但整体无严格结构。
  • 序列数据:如时间序列文本(聊天记录)、token化的句子,强调顺序性。

指令数据的常用构造方法有哪几种?

  1. 人工标注:专家编写高质量的指令-回答对,确保准确性和多样性。
  2. 模板生成:基于预定义模板自动生成指令(如“翻译以下句子:{文本}”),适合规模化但可能缺乏灵活性。
  3. 众包平台:通过平台(如Amazon Mechanical Turk)收集多样化的指令数据,成本较低但需质量控制。
  4. 模型生成:用大模型(如GPT)自动生成指令-回答对,再经人工筛选。
  5. 数据增强:对现有指令进行改写、回译或添加噪声,增加数据多样性。

BPE算法存在哪些问题,以及WordPiece算法针对这些问题做了哪些改进?

BPE(Byte Pair Encoding)的问题

  • 贪婪合并:频繁合并字符对可能生成不合理的子词(如合并“ing”导致“playing”被拆为“play+ing”而非更小单元)。
  • 未考虑语义:仅基于频率合并,忽略词汇的语义连贯性。

WordPiece的改进

  • 概率合并:基于语言模型(如最大似然估计)选择合并对,优先合并能提升整体概率的字符对,更贴合语义。
  • 动态调整:通过统计词汇概率动态调整拆分策略,避免BPE的机械性合并。

简述ULM算法的设计思想。

ULM算法的核心思想是:

  1. 概率模型驱动:将子词拆分视为概率问题,通过语言模型计算每个子词的出现概率,选择使句子整体概率最大的分词方式。
  2. 从词汇表反推分词:首先生成一个较大的候选子词库,然后通过EM算法迭代优化子词概率,保留高概率子词。
  3. 多分词可能性:支持对同一文本生成多个分词结果(带概率),增强灵活性。
  4. 与BPE/WordPiece对比:ULM是“自上而下”(先候选再筛选),而BPE/WordPiece是“自下而上”(逐步合并)。

简述高斯双边滤波与高斯滤波的区别。

  • 高斯滤波:仅考虑空间距离权重,对邻域像素进行加权平均,平滑噪声但会模糊边缘。
  • 高斯双边滤波:同时考虑空间距离和像素值差异的权重:
    • 空间权重:与高斯滤波相同,距离越近权重越大。
    • 像素值权重:像素值差异越小权重越大,保护边缘(如锐利颜色变化区域)。
  • 效果:双边滤波在平滑噪声的同时能保留边缘,但计算复杂度更高。

灰度直方图的作用是什么?

灰度直方图是图像中每个灰度级出现频率的统计图,作用包括:

  1. 分析图像特性:判断对比度、亮度分布(如直方图左偏表示图像偏暗)。
  2. 图像增强:指导直方图均衡化,拉伸动态范围。
  3. 阈值选择:用于二值化(如通过双峰直方图确定最佳阈值)。
  4. 检测异常:如过度曝光(直方图集中在右侧)或欠曝光(集中在左侧)。

什么是对比度拉伸?

对比度拉伸是一种线性图像增强技术,通过调整像素灰度范围来提升图像对比度:

  1. 原理:将原始灰度范围 [a,b] 映射到更宽的范围 [c,d](如0~255),公式为:

  1. 效果:低对比度图像(如灰度集中在100~150)被拉伸后,暗部更暗、亮部更亮,细节更突出。
  2. 局限性:若原图灰度范围已覆盖整个动态范围,则拉伸无效;可能放大噪声。

相关文章:

  • EtherCAT转CANopen配置CANopen侧的PDO映射
  • JavaScript性能优化实战手册:从V8引擎到React的毫秒级性能革命
  • 大数据平台各组件功能与协同作用全解析
  • Python Excel表格数据对比工具
  • Spring MVC配置详解:从历史到实战
  • 多路径PKL文件读取与合并
  • 云服务器怎么设置端口禁用呢?
  • Python 迭代器与生成器:深入理解与实践
  • 资源分配图(RAG)检测死锁算法实现
  • 【数据库】sql错题详解
  • Android 16开发实战指南|锁屏交互+Vulkan优化全解析
  • QuectPython 网络协议之TCP/UDP协议最祥解析
  • drizzleDumper:基于内存搜索的Android脱壳工具
  • 计算机视觉算法实战——相机标定技术
  • 無人機高空收集地形之linux server 的應用部署
  • 三相永磁同步电机的控制方法之六步换向控制(Six-Step Commutation)
  • 2、pytest核心功能(进阶用法)
  • CS实现票据样式效果
  • IIS漏洞再现
  • 七、GPIO中断控制器(2)—— pcf8575
  • 空间方法:一周城市生活
  • 空调+零食助顶级赛马备战,上海环球马术冠军赛即将焕新登场
  • 专访 | 杜普兰蒂斯:爱上中国文化,下一步努力提升速度
  • 南京航空航天大学启动扁平化改革:管理岗规模控制在20%,不再统一设科级机构
  • 中国公民在日本被机动车碾压身亡,我使馆发布提醒
  • 上海科创的三种品格