当前位置: 首页 > news >正文

kettle插件-kettle数据挖掘ARFF插件

今天我们一起来学习一款团队自研的数据挖掘插件arff-output,首先先介绍下arff文件的相关知识。

1、什么是ARFF

ARFF(Attribute-Relation File Format)文件是一种专门用于数据挖掘工具Weka的数据格式。

ARFF文件主要由两部分组成:头部(Header)和数据部分(Data)。头部描述了数据集的元信息,包括数据集名称、关系(Relation)、属性(Attribute)和注释(Comment),而数据部分则包含具体的数据实例(Instance)。

@relation data@attribute class {yes,no}
@attribute age numeric
@attribute income numeric@data
yes,30,50000
no,25,30000

在上述ARFF格式的头部信息中,定义了一个名为 data 的数据集,包含三个属性: class (类别,取值为 yes 或 no ), age (年龄,为数值类型)以及 income (收入,为数值类型)。接下来的数据部分则以 @data 标识开始,后面跟着具体的数据实例。

2、kettle 中生成arff文件

1)将自研插件arff-output.zip 解压直接放到kettle的plugins目录下面

2)重启spoon客户端。

3、设计流程

1)生成记录步骤模拟数据

2)arff-output步骤生成arff文件

 4、生成记录步骤设置

设置了三个字段name,age,geyan。限制设置为1,表示只执行一次。

 5、ARFF输出设置

1)设置文件路径和关系名称

 2)设置格式和编码

 3)设置写入字段

 6、保存&允许

程序正常运行,生成文件test.arff,文件内容如下:

done!!!

http://www.dtcms.com/a/295618.html

相关文章:

  • 从手动操作到自动化:火语言 RPA 在多系统协作中的实践
  • GoLand 项目从 0 到 1:第二天 —— 数据库自动化
  • postgresql执行创建和删除时遇到的问题
  • JVM 核心内容
  • k8s之Ingress服务接入控制器
  • 函数耗时情况检测方案
  • LeetCodeOJ题:回文链表
  • HTTP/1.0、HTTP/1.1 和 HTTP/2.0 主要区别
  • Java设计模式之行为型模式(中介者模式)介绍与说明
  • 常用设计模式系列(十一)—外观模式
  • VUE2 学习笔记5 动态绑定class、条件渲染、列表过滤与排序
  • 微服务-springcloud-springboot-Skywalking详解(下载安装)
  • C++中std::list的使用详解和综合实战代码示例
  • Linux进程间通信:管道机制全方位解读
  • uniapp转微信程序点击事件报错Error: Component “xx“ does not have a method “xx“解决方案
  • Linux724 逻辑卷挂载;挂载点扩容;逻辑卷开机自启
  • 【PZ-ZU7EV-KFB】——ZYNQ UltraScale + ZU7EV开发板ARM/FPGA异构计算开发平台,赋能多域智能硬件创新
  • The Missing Semester of Your CS Education 学习笔记以及一些拓展知识(六)
  • 从“类”到“道”——Python 面向对象编程全景解析
  • J2EE模式---组合实体模式
  • 从指标定义到AI执行流:衡石SENSE 6.0的BI PaaS如何重构ISV分析链路
  • 【推荐100个unity插件】Animator 的替代品?—— Animancer Pro插件的使用介绍
  • Mac电脑使用IDEA启动服务后,报service异常
  • 微算法科技(NASDAQ: MLGO)研究量子信息递归优化(QIRO)算法,为组合优化问题拓展解决新思路
  • 橱柜铰链的革命:炬森精密如何以创新科技重塑家居体验
  • 详解力扣高频SQL50题之197. 上升的温度【简单】
  • 重构数据库未来:金仓数据库,抢占 AI 原生时代先机
  • 数据结构系列之红黑树
  • 亚马逊云科技:以云为翼,助你翱翔数字新天空
  • pycharm配conda环境