当前位置: 首页 > news >正文

2025年江西省职业院校技能大赛“大数据应用与服务”竞赛样题

2025年江西省职业院校技能大赛"大数据应用与服务”竞赛样题


🔷博主介绍

致力于网络安全(漏洞挖掘、攻防实战)、Linux 内核系统(底层原理与性能调优)、区块链技术(Web3 安全与智能合约审计)、Python 语言应用(自动化攻防工具开发)、软件开发(全栈安全开发)等新一代信息技术领域的技术研究与干货分享,坚持以极简篇幅承载硬核知识的创作理念,为技术爱好者提供高效、深度、可落地的阅读体验。CSDN认证网络安全领域优质创作者、网络安全博客专家认证、阿里云专家博主

🌐各大技术专栏推荐

专栏名称专栏介绍
网络安全攻防之道为网络安全从业者、白帽黑客与技术爱好者打造的攻防知识阵地。深度剖析漏洞利用与防御的技术细节,实战演练渗透测试全流程,输出可落地的攻防策略,陪你在攻防对抗中持续进阶。
Linux 系统运维:从底层原理到企业级实战这里是 Linux 系统运维的实战修炼场:从系统初始化到高可用架构,从命令行魔术到自动化运维利器,深度拆解 CentOS/Ubuntu 在企业级业务、云原生环境中的运维密码。带你穿透系统底层逻辑,掌握性能调优、故障秒级定位、自动化脚本开发的硬核技能,进阶成为能扛住业务压力的 Linux 运维专家
【VulnHub 靶场攻防】从漏洞复现到实战渗透不管你是刚入门的渗透新人,还是想强化实战能力的安全工程师,都能在这儿找到匹配的靶场练手项目。我们聚焦可复现的漏洞利用技巧,结合 Nmap、Metasploit、BurpSuite 等工具实战演示,帮你把靶场经验转化为真实渗透能力,一步步成长为能在实战中 “打怪升级” 的渗透高手
博主年度总结与收获这里是旺仔 Sec 的创作成长日记!作为 CSDN 认证的网络安全优质创作者,我把每一年的技术深耕、创作思考、成长突破都浓缩在这儿 —— 从漏洞分析的技术沉淀,到内容创作的经验复盘,再到从工程师到博主的身份进阶,每一篇总结都是 “技术探索 + 创作感悟” 的双料干货

文章目录

  • 2025年江西省职业院校技能大赛"大数据应用与服务”竞赛样题
    • 题1 大数据平台搭建与运维
      • 1、大数据平台搭建与运维——Hadoop集群搭建(8分)
      • 2、大数据平台搭建与运维——Hive搭建(6分)
      • 3、大数据平台搭建与运维——Spark安装配置(6分)
    • 题2 数据库配置维护
      • 4、数据库配置维护——数据库配置(3分)
      • 5、数据库配置维护——创建数据库和表(3分)
      • 6、数据库配置维护——维护数据表(4分)
    • 题3 数据获取与清洗
      • 7、数据获取与清洗——数据获取(6分)
      • 8、数据获取与清洗——HDFS文件上传下载(4分)
    • 题4 数据标注
      • 9、使用python进行数据标注(10分)
    • 题5 数据统计与数据清洗
      • 10、数据统计与数据清洗——处理异常数据(6分)
      • 11、数据统计与数据清洗——数据统计(9分)
    • 题6 数据分析与可视化
      • 12、数据分析与可视化——数据分析(5分)
      • 13、数据分析与可视化——数据可视化(15分)
    • 题7 业务分析与方案设计
      • 14、业务分析与方案设计——业务分析(5分)
      • 15、业务分析与方案设计——报表分析(5分)

题1 大数据平台搭建与运维

【主观题开始】

1、大数据平台搭建与运维——Hadoop集群搭建(8分)

在Linux下安装搭建完全分布式Hadoop集群。在Linux终端执行命令“initnetwork”,或双击桌面上名称为“初始化网络”的图标,初始化实训平台网络,启动环境。
(1)创建/opt/module目录,在master主节点将/data目录下的JAVA安装包解压到master节点的/opt/module目录下,并远程拷贝至slave1、slave2相同目录下。在master主节点将/data目录下的Hadoop安装包解压到/opt/module目录下。最后查看master、slave1、slave2节点/opt/module目录下的内容并截图。
(2)在各节点的/etc/profile文件中配置JDK环境变量JAVA_HOME和PATH的值,并让配置文件立即生效,之后分别在master、slave1、slave2节点使用“java -version”查看JAVA版本,检测JAVA是否安装成功,并将结果截图。
(3)根据下表修改core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml、workers、hadoop-env.sh、yarn-env.sh配置文件,以及HDFS与YARN的启动和关闭脚本。最后将各配置文件添加的内容截图。

表1 Hadoop集群配置规划
配置文件配置内容
core-site.xml①设置HDFS的连接地址为master节点,端口为8020 ②设置HDFS的临时路径为/opt/module/hadoop-3.1.4/tmp
hdfs-site.xml①设置Secondary NameNode的HTTP访问地址为slave1,端口号50090 ②设置HDFS文件块的副本数为3。
mapred-site.xml①设置执行MapReduce作业的框架为yarn ②设置MapReduce作业历史服务JobHistoryServer监听的地址为master,端口为10020。 ③设置MapReduce作业历史服务JobHistoryServer的Web 应用程序监听地址为master,端口为19888。
yarn-site.xml①设置yarn资源管理器(ResourceManager)的主机名为master ②设置ResourceManager监听的地址和端口为master:8032 ③设置NodeManager上可以运行的辅助服务(yarn.nodemanager.aux-services),启用MapReduce作业的shuffle服务
workers工作节点为slave1、slave2
hadoop-env.sh配置Hadoop运行环境,添加Java的环境变量
yarn-env.sh配置YARN框架运行环境,添加Java的环境变量
start-dfs.sh stop-dfs.sh指定namenode、datanode、secondarynamenode各个组件的运行用户为root
start-yarn.sh stop-yarn.sh指定resourcemannager、nodemanager组件的运行用户为root

(4)在master节点上使用scp命令将配置完的Hadoop安装目录远程拷贝至slave1和slave2相同目录下,之后查看slave1和slave2的/opt/module目录结构并将查看结果截图。
(5)在3个节点的/etc/profile文件中配置Hadoop环境变量(HADOOP_HOME)和PATH的值,并让配置文件立即生效。将3个节点的/etc/profile文件中添加的内容截图。
(6)在主节点格式化集群,成功格式化之后在主节点依次启动HDFS、YARN服务、JobHistoryServer服务,并查看3个节点的进程,将查看结果截图。
(7)在HDFS上创建/user/input目录,并将master节点/etc/profile文件上传到HDFS的/user/input目录下,最后查看/user/input目录下的文件内容并截图。
(8)将/user/input目录下的hosts文件权限调整为776,最后查看/user/input目录下的文件内容并截图。
【文件获取】
使用wget命令获取数据(在终端中运行引号中的所有代码可将文件上传到实训平台)。
(1)Java安装包:
“wget -P /data http://house.tipdm.com/JS-Competition/software/jdk-8u281-linux-x64.tar.gz”。
(2)Hadoop安装包:
“wget -P /data http://house.tipdm.com/JS-Competition/software/hadoop-3.1.4.tar.gz”。
【说明】
(1)登录平台后需先在Linux终端执行命令“initnetwork”,或双击桌面上名称为“初始化网络”的图标,初始化实训平台网络。
(2)通过wget命令可将安装包下载至“/data”目录下,完整路径为“/data/hadoop-3.1.4.tar.gz”。
(3)若想切换至slave1或slave2节点,可以打开新的Linux终端窗口,然后输入“ssh slave1”或“ssh slave2”即可切换到对应的节点。
【答案提交】
根据赛题提供的“答案报告1.docx”文档,将最终的答案命令与运行结果的截图整理入文档,并由队长以“考生1准考证号-答案报告1.docx”命名提交。答案以【考生1】账号提交的答案为准,若使用其他队员账号提交答案,或是以其他队员准考证号命名提交答案,视为无效提交。
【主观题结束】

【主观题开始】

2、大数据平台搭建与运维——Hive搭建(6分)

在Linux下安装搭建Hive数据仓库。在Linux终端执行命令“initnetwork”,或双击桌面上名称为“初始化网络”的图标,初始化实训平台网络,启动环境。
【注意!!主观题3使用主观题2中提供的实训环境进行操作】
(1)创建/opt/module目录,将/data目录下的Hive安装包解压到/opt/module目录下,查看/opt/module目录下的内容并截图。
(2)进入Hive安装目录的conf目录,使用cp命令拷贝hive-env.sh.template文件并重命名为hive-env.sh,在该文件中配置Hadoop环境变量,并将文件添加的内容截图。
(3)在Hive安装目录的conf目录下新建hive-site.xml配置文件并添加内容,将添加的内容截图。

表2 hive-site.xml部分参数
配置参数描述参数值
hive.metastore.warehouse.dir元数据库位置hdfs://master:8020/user/hive/warehouse
javax.jdo.option.ConnectionURL元数据库的链接信息jdbc:mysql://master:3306/hive?createDatabaseIfNotExist=true
javax.jdo.option.ConnectionDriverName连接数据库驱动com.mysql.cj.jdbc.Driver
javax.jdo.option.ConnectionUserName连接数据库用户名称root
javax.jdo.option.ConnectionPassword连接数据库用户密码123456

(4)将/data目录下的MySQL驱动mysql-connector-java-8.0.30.jar复制到Hive安装目录的lib目录,同时将该lib目录下的jline-2.12.jar复制到各节点的Hadoop安装目录的/share/hadoop/yarn/lib/目录中。
(5)删除Hive安装目录的lib目录下的guava-19.0.jar包,并将Hadoop安装目录的/share/hadoop/common/lib/目录中的guava-27.0-jre.jar复制至Hive安装目录的lib目录下。查看Hive安装目录的lib目录下guava jar包名称并截图。
(6)在master主节点的/etc/profile文件中配置Hive环境变量HIVE_HOME和PATH的值,并让配置文件立即生效,将配置内容截图。
(7)初始化Hive元数据库,之后依次启动Hadoop集群、MySQL服务和Hive元数据服务,在master节点使用jps查看进程,并将结果截图。
(8)进入Hive CLI在Hive中创建一个名为company的数据库,并在该数据库下创建一个名为emp的内表,创建后查看该表的表结构信息并截图。表字段名称及类型设计参考下表。

表3 emp表字段及类型
字段名称字段类型字段说明
empnoint员工编号
enamestring,员工姓名
jobstring职位
mgrint直属领导编号
hiredatestring入职日期
salint工资
commint奖金
deptnoint部门编号

(9)将/data目录下的emp.txt文件内容导入company数据库的emp表中,最后查看emp表的所有数据并截图。
【文件获取】
使用wget命令获取数据(在终端中运行引号中的所有代码可将文件上传到实训平台)。
(1)Hive安装包:
“wget -P /data http://house.tipdm.com/JS-Competition/software/apache-hive-3.1.2-bin.tar.gz”。
(2)mysql连接驱动包:
“wget -P /data http://house.tipdm.com/JS-Competition/software/mysql-connector-java-8.0.30.jar”。
(3)emp.txt数据文件:
“wget -P /data http://house.tipdm.com/JS-Competition/data/JX2024/emp.txt”。
【说明】
(1)登录平台后需先在Linux终端执行命令“initnetwork”,或双击桌面上名称为“初始化网络”的图标,初始化实训平台网络。
(2)通过“JAVAHOME”指令可返回JAVA的安装目录;通过“JAVA_HOME”指令可返回JAVA的安装目录;通过“JAVAHOME指令可返回JAVA的安装目录;通过HADOOP_HOME”指令可返回Hadoop的安装目录。
(3)通过 wget 命令可将安装包下载至“/data”目录下,完整数据路径为“/data/apache-hive-3.1.2-bin.tar.gz”。
【答案提交】
根据赛题提供的“答案报告2.docx”文档,将最终的答案命令与运行结果的截图整理入文档,并由队长以“考生1准考证号-答案报告2.docx”命名提交。答案以【考生1】账号提交的答案为准,若使用其他队员账号提交答案,或是以其他队员准考证号命名提交答案,视为无效提交。
【主观题结束】

【主观题开始】

3、大数据平台搭建与运维——Spark安装配置(6分)

在Linux下安装搭建完全分布式Spark集群。在Linux终端执行命令“initnetwork”,或双击桌面上名称为“初始化网络”的图标,初始化实训平台网络,启动环境。
【注意!!主观题3使用主观题2中提供的实训环境进行操作】
(1)创建/opt/module,在master节点将/data目录下的spark-3.2.1-bin-hadoop3.2.tgz安装包解压到/opt/module目录下,解压后查看/opt/module目录下的内容并将查看结果截图。
(2)切换到/opt/module/spark-3.2.1-bin-hadoop3.2/conf目录下,使用cp命令拷贝spark-env.sh.template文件后更名为spark-env.sh,拷贝workers.template文件后更名为workers,查看/opt/module/spark-3.2.1-bin-hadoop3.2/conf目录下的内容并截图。
(3)在spark-env.sh文件中进行修改,配置JAVA_HOME安装目录及Hadoop的配置文件目录,指定standalone模式运行时的Master进程运行在master节点上,指定Master进程内部通信端口号为7077,SPARK的WEB UI端口为8085。
(4)在workers文件中进行修改,指定standalone模式运行时Worker进程需要分别在master、slave1、slave2节点上运行。
(5)在master节点上将Spark安装目录远程拷贝到slave1、slave2节点的/opt/module路径下,之后查看slave1和slave2的/opt/module目录结构并将查看结果截图。
(6)在master节点修改/etc/profile文件,设置Spark环境变量(SPARK_HOME)和PATH的值,并使环境变量生效。将配置文件添加的内容截图。
(7)启动Spark集群,使用jps查看master节点、slave1节点、slave2节点的进程(启动Spark集群前需先启动Hadoop集群),将3个节点的进程结果截图。
(8)进入spark-shell交互式命令行界面,从整数数据集合Array(1, 2, 3, 4, 5, 6)中创建出RDD,RDD名称为numberRDD,然后对numberRDD中的每个元素进行平方操作,并将结果赋值给squaredRDD,最后输出处理后的squaredRDD所有数据并截图。
【文件获取】
使用wget命令获取数据(在终端中运行引号中的所有代码可将文件上传到实训平台)。
Spark安装包:
“wget -P /data http://house.tipdm.com/JS-Competition/software/spark-3.2.1-bin-hadoop3.2.tgz”。
【说明】
(1)登录平台后需先在Linux终端执行命令“initnetwork”,或双击桌面上名称为“初始化网络”的图标,初始化实训平台网络。
(2)通过“JAVAHOME”指令可返回JAVA的安装目录;通过“JAVA_HOME”指令可返回JAVA的安装目录;通过“JAVAHOME指令可返回JAVA的安装目录;通过HADOOP_HOME”指令可返回Hadoop的安装目录。
(3)通过 wget 命令可将安装包下载至“/data”目录下,完整数据路径为“/data/spark-3.2.1-bin-hadoop3.2.tgz”。
【答案提交】
根据赛题提供的“答案报告3.docx”文档,将最终的答案命令与运行结果的截图整理入文档,并由队长以“考生1准考证号-答案报告3.docx”命名提交。答案以【考生1】账号提交的答案为准,若使用其他队员账号提交答案,或是以其他队员准考证号命名提交答案,视为无效提交。
【主观题结束】

题2 数据库配置维护

【主观题开始】

4、数据库配置维护——数据库配置(3分)

本任务需要在Linux下中完成MySQL数据库配置,请使用root用户完成相关配置,具体要求如下。
注:进入实训平台,初始化网络后,请先复制wget指令在终端运行,以更新系统镜像源文件CentOS-Base.repo,再操作以下题目!
(1)将/data目录下的mysql-community.repo文件复制到YUM仓库的配置文件/etc/yum.repos.d/,查看/etc/yum.repos.d/目录下内容并截图。
(2)加载MySQL镜像源并使用yum命令下载安装mysql-community-server,将安装成功的结果截图。
(3)在/var/log/mysqld.log文件中查询MySQL初始密码,并使用初始密码登录MySQL,将成功登录的界面截图。
(4)使用初始密码登录MySQL后,先将密码修改为符合MySQL8.x密码规则的复杂密码,之后再修改密码规则并将密码改为简单密码123456。
(5)修改密码后退出MySQL,使用修改之后的密码重新登录MySQL,赋予root用户外部连接权限。
【文件获取】
使用wget命令获取数据(在终端中运行引号中的所有代码可将文件上传到实训平台)。
(1)更新系统镜像源文件:
“wget -O /etc/yum.repos.d/CentOS-Base.repo http://house.tipdm.com/JS-Competition/software/CentOS-Base.repo”
(2)MySQL源文件:
“wget -P /data http://house.tipdm.com/JS-Competition/software/mysql-community.repo”
【说明】
(1)登录平台后需先在Linux终端执行命令“initnetwork”,或双击桌面上名称为“初始化网络”的图标,初始化实训平台网络。
(2)通过wget命令可将安装包下载至“/data”目录下,完整路径为“/data/mysql-community.repo”。
【答案提交】
根据赛题提供的“答案报告4.docx”文档,将最终的答案命令与运行结果的截图整理入文档,并由队长以“考生1准考证号-答案报告4.docx”命名提交。答案以【考生1】账号提交的答案为准,若使用其他队员账号提交答案,或是以其他队员准考证号命名提交答案,视为无效提交。
【标签】问答题
【主观题结束】
【主观题开始】

5、数据库配置维护——创建数据库和表(3分)

【注意!!主观题6使用主观题5中提供的实训环境进行操作】
酒店表(hotel_all)字段如下表所示。

字段类型中文含义
idint酒店编号
hotel_namevarchar酒店名称
cityvarchar城市
provincevarchar省份
levelvarchar星级
room_numint房间数
scoredouble评分
shoppingvarchar评论数

评论表(comment_all)字段如下表所示。

字段类型中文含义
idint评论编号
namevarchar酒店名称
commentatorvarchar评论人
scoredouble评分
comment_timedatetime评论时间
contentvarchar评论内容

(1)在数据库中创建“hotel”数据库,并使用该数据库,将操作指令截图。
(2)根据已给到的sql文件comment_all_data.sql和hotel_all_data.sql,执行这两份sql文件,在hotel数据库中创建表并导入数据。分别查看hotel_all表和comment_all表的表结构信息,并截图。
(3)通过select查询语句,查询hotel_all表和comment_all表两张表的数据记录数并截图。
【文件获取】
使用wget命令获取数据(在终端中运行引号中的所有代码可将文件上传到实训平台)。
(1)hotel_all_data.sql:
“wget -P /data http://house.tipdm.com/JS-Competition/data/JX2024/hotel_all_data.sql”
(2)comment_all_data.sql:
“wget -P /data http://house.tipdm.com/JS-Competition/data/JX2024/comment_all_data.sql”
【说明】
(1)登录平台后需先在Linux终端执行命令“initnetwork”,或双击桌面上名称为“初始化网络”的图标,初始化实训平台网络。
(2)通过wget命令可将安装包下载至“/data”目录下,完整路径为“/data/hotel_all_data.sql”。
【答案提交】
根据赛题提供的“答案报告5.docx”文档,将最终的答案命令与运行结果的截图整理入文档,并由队长以“考生1准考证号-答案报告5.docx”命名提交。答案以【考生1】账号提交的答案为准,若使用其他队员账号提交答案,或是以其他队员准考证号命名提交答案,视为无效提交。
【标签】问答题
【主观题结束】

【主观题开始】

6、数据库配置维护——维护数据表(4分)

【注意!!主观题6使用主观题5中提供的实训环境进行操作】
基于第5题中创建的hotel_all表和comment_all表及插入的表数据,对数据表进行维护,具体要求如下。
(1)查询hotel_all表中不同星级的酒店数量,并按照酒店数量降序排序,将查询结果截图。
(2)查询comment_all表中评分小于等于3分的酒店名称及对应的评论数量并截图。
(3)查询hotel_all表中商圈包含“机场”字符串且评分大于等于4.5的酒店名称,并将结果截图。
(4)更新comment_all表,将2022年10月1日之后(包含2022年10月1日)评论并且评分小于2分的评论的评论人名称更改为“匿名用户”,查询评论人名称为“匿名用户”的评论数量进行验证并截图。
(5)删除hotel_all表中星级为高档型,且房间数小于100的酒店信息,删除后查看表的数据记录数并将结果截图。
【文件获取】
使用wget命令获取数据(在终端中运行引号中的所有代码可将文件上传到实训平台)。
(1)hotel_all_data.sql:
“wget -P /data http://house.tipdm.com/JS-Competition/data/JX2024/hotel_all_data.sql”
(2)comment_all_data.sql:
“wget -P /data http://house.tipdm.com/JS-Competition/data/JX2024/comment_all_data.sql”
【说明】
(1)登录平台后需先在Linux终端执行命令“initnetwork”,或双击桌面上名称为“初始化网络”的图标,初始化实训平台网络。
(2)通过wget命令可将安装包下载至“/data”目录下,完整路径为“/data/hotel_all_data.sql”。
【答案提交】
根据赛题提供的“答案报告6.docx”文档,将最终的答案命令与运行结果的截图整理入文档,并由队长以“考生1准考证号-答案报告6.docx”命名提交。答案以【考生1】账号提交的答案为准,若使用其他队员账号提交答案,或是以其他队员准考证号命名提交答案,视为无效提交。
【标签】问答题
【主观题结束】

题3 数据获取与清洗

【主观题开始】

7、数据获取与清洗——数据获取(6分)

基于手机产品评论数据文件(iphone15_jd_comments.csv),按照题目要求使用Python技术完成下列任务。
(1)读取iphone15_jd_comments.csv,打印查看数据的记录数并截图。
(2)统计每一列的缺失值情况,输出统计结果并截图;针对数据的缺失值,删除缺失值所在的行,打印查看缺失值处理后的数据记录数并截图。
(3)针对数据的重复值,根据“content”列进行去重,保留最后一次出现的重复值,打印查看重复值处理后的数据记录数并截图。
(4)将“creationTime”、“referenceTime”两列转成日期时间格式类型,并打印查看data所有列的数据类型并截图。
(5)从“referenceTime”列中提取出日期,如“2024-01-01”,存储于“referenceDate”列,打印查看“referenceDate”列的最早购买日期和最晚购买日期并截图。
【文件获取】
使用wget命令获取文件(运行引号中的所有代码可将文件上传到实训平台)。
(1)iphone15_jd_comments.csv:
“wget -P /data http://house.tipdm.com/JS-Competition/data/JX2024/iphone15_jd_comments.csv”
【说明】
通过wget命令可将文件下载至“/data”目录下,如iphone15_jd_comments.csv完整路径为“/data/iphone15_jd_comments.csv”。
【答案提交】
根据赛题提供的“答案报告7.docx”文档,将最终的答案命令与运行结果的截图整理入文档,并由队长以“考生1准考证号-答案报告7.docx”命名提交。答案以【考生1】账号提交的答案为准,若使用其他队员账号提交答案,或是以其他队员准考证号命名提交答案,视为无效提交。
【标签】问答题
【主观题结束】

【主观题开始】

8、数据获取与清洗——HDFS文件上传下载(4分)

在当今激烈的商业竞争环境中,企业的成功往往取决于其人力资源管理的效能。了解员工的工作状态、表现和需求,才能制定更有效的人力资源管理策略。HR_data1.csv和HR_data2.csv数据中包含了员工的满意度、项目数量、月均工作时长、工龄、有否有工伤、是否离职、过去5年内是否晋升、工作部门和工资等级的数据字段,请根据提供的人力资源信息,使用Hadoop HDFS文件系统操作指令完成下列任务(实现本任务前需要先启动Hadoop集群)。
(1)在HDFS中创建/HR/analysis目录和/HR/employee目录,查看/HR目录下的内容并截图。
(2)将/data目录下的“HR_data1.csv”和“HR_data2.csv”文件内容合并上传至/HR/analysis目录的HR_data.csv文件中(数据文件需要先上传到平台的/data目录下),查看/HR/analysis目录下的内容并截图。
(3)将HDFS的/HR/analysis/HR_data.csv文件复制到/HR/employee目录下,以备份原始数据文件,复制后查看/HR/employee目录下的内容并截图。
(4)将HDFS的/HR/employee/HR_data.csv文件下载至Linux本地的/data目录下,并查看Linux本地/data目录下的内容。
(5)删除HDFS的/HR/analysis目录,删除后查看/HR目录下的内容并截图。
【文件获取】
使用wget命令获取数据(在终端中运行引号中的所有代码可将文件上传到实训平台)。
(1)HR_data1.csv文件
“wget -P /data http://house.tipdm.com/JS-Competition/data/JX2024/HR_data1.csv”
(2)HR_data2.csv文件
“wget -P /data http://house.tipdm.com/JS-Competition/data/JX2024/HR_data2.csv”
【说明】
(1)登录平台后需先在Linux终端执行命令“initnetwork”,或双击桌面上名称为“初始化网络”的图标,初始化实训平台网络。
(2)通过“JAVAHOME”指令可返回JAVA的安装目录;通过“JAVA_HOME”指令可返回JAVA的安装目录;通过“JAVAHOME指令可返回JAVA的安装目录;通过HADOOP_HOME”指令可返回Hadoop的安装目录。
(3)通过 wget 命令可将安装包下载至“/data”目录下,如完整数据路径为“/data/HR_data1.csv”。
【答案提交】
根据赛题提供的“答案报告8.docx”文档,将最终的答案命令与运行结果的截图整理入文档,并由队长以“考生1准考证号-答案报告8.docx”命名提交。答案以【考生1】账号提交的答案为准,若使用其他队员账号提交答案,或是以其他队员准考证号命名提交答案,视为无效提交。
【标签】问答题
【主观题结束】

题4 数据标注

【主观题开始】

9、使用python进行数据标注(10分)

在数据科学和机器学习领域,数据标注是一个至关重要的步骤。数据标注是指为数据集中的每个样本添加正确的标签或注释,以便训练机器学习模型或进行其他类型的分析。在情感分析和时间序列分析等任务中,数据标注通常涉及为文本数据添加情感标签或时间标签,了解客户的情感倾向和评论的季节性特征,可以更好地了解客户需求,改善服务质量,并制定更有效的营销策略。
(1)基于python技术,根据标注规则对“hotel_comment.csv”数据中的“评论信息”列进行情感标注,并将标注结果存储于数据的“情感”列中,在确认每条评论文本均已完成情感标注后,统计不同情感的评论数量并输出统计结果。
具体的标注规则如下。
①“分数”值大于等于0.6,则评论数据“情感”列的值标注为【积极】。
②“分数”值大于0.4小于0.6,则评论数据“情感”列的值标注为【中性】。
③“分数”值小于等于0.4,则评论数据“情感”列的值标注为【消极】。
(2)基于python技术,新建“季度”列,根据“评论日期”进行数据标注,确保对每条评论文本都进行数据标注后,统计不同季度的评论数量并打印输出。
具体标注规则如下。
①评论日期在1~3月,则评论数据“季度”列的值标注为【第一季度】。
②评论日期在4~6月,则评论数据“季度”列的值标注为【第二季度】。
③评论日期在7~9月,则评论数据“季度”列的值标注为【第三季度】。
④评论日期在10~12月,则评论数据“季度”列的值标注为【第四季度】。
【数据获取】
使用wget命令获取数据(在终端中运行引号中的所有代码可将数据上传到实训平台)。
hotel_comment.csv:
“wget -P /data http://house.tipdm.com/JS-Competition/data/hotel_comment.csv”。
【说明】
通过wget命令可将数据文件下载至“/data”目录下,完整数据路径为“/data/hotel_comment.csv”。
【答案提交】
根据赛题提供的“答案报告9.docx”文档,将最终的答案命令与运行结果的截图整理入文档,并由队长以“考生1准考证号-答案报告9.docx”命名提交。答案以【考生1】账号提交的答案为准,若使用其他队员账号提交答案,或是以其他队员准考证号命名提交答案,视为无效提交。
【标签】问答题
【主观题结束】

题5 数据统计与数据清洗

【主观题开始】

10、数据统计与数据清洗——处理异常数据(6分)

【注意!!主观题10使用主观题8中提供的实训环境进行操作】
hotel_data.csv存储了不同酒店商家的信息,文件中的表字段如下表所示。

字段类型中文含义
idint酒店编号
hotel_namevarchar酒店名称
cityvarchar城市
provincevarchar省份
levelvarchar星级
room_numint房间数
scoredouble评分
shoppingvarchar评论数

将hotel_data.csv文件上传至HDFS文件系统的/opt目录下(若没有该目录,则自行创建)。编写MapReduce程序,实现以下功能:过滤首行标题行,删除酒店星级(level)为空的数据并对数据记录进行去重,将清洗后的数据输出到HDFS中/output1目录下,最后使用hdfs命令结合wc指令,查看HDFS文件系统中/opt/hotel_data.csv文件的行数,以及清洗后的/output1/part-r-00000文件的行数,将查看结果截图。
【文件获取】
使用wget命令获取数据(在终端中运行引号中的所有代码可将文件上传到实训平台)。
hotel_data.csv文件
“wget -P /data http://house.tipdm.com/JS-Competition/data/JX2024/hotel_data.csv”
【说明】
(1)登录平台后需先在Linux终端执行命令“initnetwork”,或双击桌面上名称为“初始化网络”的图标,初始化实训平台网络。
(2)通过“JAVAHOME”指令可返回JAVA的安装目录;通过“JAVA_HOME”指令可返回JAVA的安装目录;通过“JAVAHOME指令可返回JAVA的安装目录;通过HADOOP_HOME”指令可返回Hadoop的安装目录。
(3)通过 wget 命令可将安装包下载至“/data”目录下,如完整数据路径为“/data/hotel_data.csv”。
【答案提交】
根据赛题提供的“答案报告10.docx”文档,将最终的答案命令与运行结果的截图整理入文档,并由队长以“考生1准考证号-答案报告10.docx”命名提交。答案以【考生1】账号提交的答案为准,若使用其他队员账号提交答案,或是以其他队员准考证号命名提交答案,视为无效提交。
【标签】问答题
【主观题结束】

【主观题开始】

11、数据统计与数据清洗——数据统计(9分)

【注意!!主观题11使用主观题8中提供的实训环境进行操作】
基于处理后的hotel_newdata.csv文件,将其上传至HDFS文件系统的/opt目录下。编写一个或多个MapReduce程序,实现以下功能:
过滤首行标题行,统计每种星级不同商圈的的酒店平均评分,并将结果保存到HDFS中/output2_1目录中,将/output2_1目录下的输出文件按照平均评分进行降序排序,最后将结果保存到HDFS中/output2_2目录下,并在控制台同步打印输出结果并截图,打印输出结果如“星级名称_商圈名称的平均评分为:XX”。
【文件获取】
使用wget命令获取数据(在终端中运行引号中的所有代码可将文件上传到实训平台)。
hotel_newdata.csv文件
“wget -P /data http://house.tipdm.com/JS-Competition/data/JX2024/hotel_newdata.csv”
【说明】
(1)登录平台后需先在Linux终端执行命令“initnetwork”,或双击桌面上名称为“初始化网络”的图标,初始化实训平台网络。
(2)通过“JAVAHOME”指令可返回JAVA的安装目录;通过“JAVA_HOME”指令可返回JAVA的安装目录;通过“JAVAHOME指令可返回JAVA的安装目录;通过HADOOP_HOME”指令可返回Hadoop的安装目录。
(3)通过 wget 命令可将安装包下载至“/data”目录下,如完整数据路径为“/data/hotel_newdata.csv”。
【答案提交】
根据赛题提供的“答案报告11.docx”文档,将最终的答案命令与运行结果的截图整理入文档,并由队长以“考生1准考证号-答案报告11.docx”命名提交。答案以【考生1】账号提交的答案为准,若使用其他队员账号提交答案,或是以其他队员准考证号命名提交答案,视为无效提交。
【标签】问答题
【主观题结束】

题6 数据分析与可视化

【主观题开始】

12、数据分析与可视化——数据分析(5分)

招聘信息数据可以揭示不同企业的招聘渠道和招聘方式。求职者可以通过分析招聘信息数据,选择合适的招聘平台、企业官网或招聘会等渠道进行求职,提高找到理想工作的机会。通过研究招聘信息数据,求职者可以了解企业对候选人的面试流程、评价标准和重点关注的技能。这有助于求职者针对性地准备面试内容,展现自己的优势和匹配度,提升在面试中的表现和竞争力。请根据提供的招聘信息,编写相关Python代码完成下列任务。
(1)导入相关库,读取“new_job_info.csv”数据,展示前3行招聘数据信息。
(2)根据“公司行业”进行分组,分别对“岗位名”列进行计数,对“工资水平”列计算平均值,以统计每个行业的岗位需求数量和平均工资水平。根据需求数量进行降序排序,并输出需求量排名前5的行业及平均工资水平。
(3)根据“公司人数”进行分组,分别对“工资水平”列计算平均值,对“公司名”列进行计数,以展示不同体量企业的薪资水平和用人需求。
(4)统计出每个工作地点中工资水平最高的岗位名(即每个工作地点都对应一个岗位,该岗位是这个工作地点工资水平最高的),以了解不同工作地点高薪资岗位所需的专业技能。按照工资水平进行降序排序后,查看前10条数据并截图。
【数据获取】
使用wget命令获取数据(在终端中运行引号中的所有代码可将数据上传到实训平台)。
new_job_info.csv:
“wget -P /data http://house.tipdm.com/JS-Competition/data/JX2024/new_job_info.csv”。
【说明】
通过wget命令可将数据文件下载至“/data”目录下,完整数据路径为“/data/new_job_info.csv”。
【答案提交】
根据赛题提供的“答案报告12.docx”文档,将最终的答案命令与运行结果的截图整理入文档,并由队长以“考生1准考证号-答案报告12.docx”命名提交。答案以【考生1】账号提交的答案为准,若使用其他队员账号提交答案,或是以其他队员准考证号命名提交答案,视为无效提交。
【标签】问答题
【主观题结束】

【主观题开始】

13、数据分析与可视化——数据可视化(15分)

【注意!!主观题13使用主观题12中提供的实训环境进行操作】
现有产品评论数据文件(comment_topic.xlsx),文件中的数据字段说明如下表所示。

content评论内容nickname用户昵称
creationTime评论时间location所在地区
score评分days从购买到评论的间隔天数
userClient用户使用的客户端referenceDate购买日期
productColor产品颜色content_words评论词语列表
productSize产品内存大小topic_label主题类别
referenceTime购买时间

根据产品评论数据,按照题目要求使用Python技术完成下列任务。
(1)读取comment_topic.xlsx文件,对“userClient”列的数据进行处理,处理规则如下,最后统计不同客户端类型的使用数量并输出结果。
①若userClient等于2,则userClient值修改为“来自京东iPhone客户端”;
②若userClient等于4,则userClient值修改为“来自京东Android客户端”;
③若userClient等于21,则userClient值修改为“来自微信购物”;
④若userClient等于0,则userClient值修改为“来自京东PC客户端”;
⑤若userClient等于29,则userClient值修改为“来自京东iPad客户端”;
⑥若userClient等于28,则userClient值修改为“来自手机QQ购物”。
(2)根据不同客户端类型的使用数量结果,绘制柱状图进行可视化展示。
参数设置要求:
①标题设置为“不同客户端类型的使用数量情况”;
②x轴标签设置为“客户端类型”,y轴标签设置为“使用数量”;
③x轴上的标签旋转90度。
在这里插入图片描述
(3)从评论时间“creationTime”列中提取出日期作为新的一列“creationDate”,统计不同评论日期的评论数量,统计结果按照评论日期进行升序排序,最后绘制折线图进行可视化展示。
参数设置要求:
①标题设置为“不同评论日期的评论数据趋势图”;
②x轴标签设置为“评论日期”,y轴标签设置为“评论数量”;
③背景显示网格线。
在这里插入图片描述
(4)统计不同产品颜色的评论数量,使用pyecharts库绘制南丁格尔玫瑰图进行可视化展示。
参数设置要求:
①设置饼图的半径范围,内半径为30%,外半径60%;
②南丁格尔玫瑰图展示类型为:使用半径大小来表示数据的大小;
③饼图的标题设置为“不同产品颜色的评论数量”;
④饼图的标签数值显示为“产品颜色:评论数量”;
⑤将图表渲染保存为成一个html文件,文件路径设置为“/root/jupyter_notbook/pie.html”。
在这里插入图片描述
(5)新增“评价属性”列,score分数为1,则评价属性值为“差评”;score分数为2或3,则评价属性值为“中评”;score分数为4或5,则评价属性值为“好评”。根据“评价属性”列进行分组,统计不同评价属性的评论数量并输出结果。
(6)仅筛选出好评的评论数据,基于“content_words”列统计出每个评论词语的词频,最后使用词云图进行好评词频的可视化展示。
参数设置要求:
①词云图的背景图片设置为“/data/aixin.jpg”;
②字体路径设置为“/data/msyh.ttc”;
③背景颜色设置为白色。
在这里插入图片描述
【数据获取】
使用wget命令获取文件(运行引号中的所有代码可将安装包上传到实训平台)。
(1)comment_topic.xlsx:
“wget -P /data http://house.tipdm.com/JS-Competition/data/JX2024/comment_topic.xlsx”。
(2)aixin.jpg:
“wget -P /data http://house.tipdm.com/JS-Competition/data/JX2024/aixin.jpg”。
(3)msyh.ttc:
“wget -P /data http://house.tipdm.com/JS-Competition/data/JX2024/msyh.ttc”。
【说明】
(1)通过wget命令可将文件下载至“/data”目录下,如comment_topic.xlsx完整路径为“/data/comment_topic.xlsx”。
(2)在可视化图表中,中文字体可设置为“WenQuanYi Zen Hei”。
【答案提交】
根据赛题提供的“答案报告13.docx”文档,将最终的答案命令与运行结果的截图整理入文档,并由队长以“考生1准考证号-答案报告13.docx”命名提交。答案以【考生1】账号提交的答案为准,若使用其他队员账号提交答案,或是以其他队员准考证号命名提交答案,视为无效提交。
【标签】问答题
【主观题结束】

题7 业务分析与方案设计

【主观题开始】

14、业务分析与方案设计——业务分析(5分)

【注意!!主观题14使用主观题12中提供的实训环境进行操作】
某金融APP通过分析客户的行为数据,希望了解不同客户群体的使用习惯和偏好,以便制定更有针对性的营销策略。user.csv文件是五个不同客户群体(客户群1至客户群5)在四个维度上的行为特征数据:最近一次登录天数(R)、消费金额(M)、登录次数(F)和注册会员天数(L)。
(1)请使用python读取user.csv文件,将第一列设为索引,并使用matplotlib库绘制客户群体雷达图,参考图如下。
在这里插入图片描述
请根据图表和数据,分析并回答以下问题。
(2)阐述哪个客户群体的平均入会时长最久?
(3)根据图表,描述客户群4的行为特征表现,并提出针对该群体的营销策略,提升该客户群体的满意度,促进该客户群体的消费。
【数据获取】
使用wget命令获取文件(运行引号中的所有代码可将安装包上传到实训平台)。
user.csv:
“wget -P /data http://house.tipdm.com/JS-Competition/data/JX2024/user.csv”。
【说明】
(1)通过wget命令可将文件下载至“/data”目录下,如user.csv完整路径为“/data/user.csv”。
(2)使用matplotlib绘制可视化图表时,中文字体参数“font.sans-serif”需设置为“WenQuanYi Zen Hei”。
【答案提交】
根据赛题提供的“答案报告14.docx”文档,将最终的答案命令与运行结果的截图整理入文档,并由队长以“考生1准考证号-答案报告14.docx”命名提交。答案以【考生1】账号提交的答案为准,若使用其他队员账号提交答案,或是以其他队员准考证号命名提交答案,视为无效提交。
【标签】问答题
【主观题结束】

【主观题开始】

15、业务分析与方案设计——报表分析(5分)

请基于本地电脑的电子表格软件WPS Excel对相关数据进行统计分析、可视化分析等操作。
(1)请基于数据“短视频平台达人信息数据.xlsx”在新的工作表创建数据透视表,以查看不同性别对于不同类型的视频发布数量(行为类型,列为性别),工作表重命名为“数据透视表”;并在新的工作表使用数据透视图中的堆叠条形图展示统计结果,要求对图形设置合适的标题、坐标轴标题和图例,工作表重命名为“数据透视图”。将结果文件另存为“15-1结果.xlsx”。
(2)员工考核的目的是发掘与有效利用员工的能力,通过考核对员工给予公正的评价与待遇,如奖惩、升迁。企业部门管理中,销售经理的综合评分是由五个能力评分构成的,其中销售能力占整体的35%,沟通能力占20%,服务能力占15%,协作能力占10%,组织能力占20%。请基于公式或函数计算数据“销售经理能力考核表.xlsx”中每一位销售经理的综合评分(结果保留两位小数),并划分其评分等级。
具体的等级划分依据以下标准:[90,100]为优秀,[80,90)为良好,[0,80)为一般。最后在同一画布绘制所有销售经理各个能力评分的雷达图,要求对雷达图设置合适的标题、坐标轴和图例,坐标轴范围为[50,100]。最后将结果文件另存为“15-2结果.xlsx”。
【数据获取】
下载附件中的数据并解压。
【答案提交】
将完成的两个结果文件放在文件夹中,文件夹以“准考证号-答案报告15”命名,并将文件夹压缩成ZIP压缩包,压缩包以“考生1准考证号-答案报告15”命名,如“XXX答案报告15.zip”。答案以【考生1】账号提交的答案为准,若使用其他队员账号提交答案,或是以其他队员准考证号命名提交答案,视为无效提交。
【标签】问答题
【主观题结束】

🤵‍♂️ 个人博客主页: @旺仔Sec的博客主页
 
WeChat公众号:鹏璃安全
 
✍🏻 博主身份:网络安全兼技能大赛工程师(NISP、CISP、华为IE、IP、redhat、软考等职业证书报考可找我报考!)
 
🐋 希望大家多多支持,我们一起进步!😄
 
如果文章对你有帮助的话, 欢迎评论 💬点赞👍🏻 收藏 📂加关注(各大技能大赛参考答案链接如下)
 
🖥️:软件测试技能大赛参考答案
 
🙌:软件测试—单元自动化接口测试参考答案
 
👻:区块链技术应用技能大赛参考答案
 
🚀:大数据应用开发职业院校竞赛答案参阅
 
🔎:GZ100移动应用设计与开发参考答案
 
✍:GZ031应用软件系统开发参考答案
 
☠:网络安全职业技能大赛任务解析

http://www.dtcms.com/a/529557.html

相关文章:

  • 排名好的手机网站建设电商软件平台开发
  • 万网网站建设万网网站建设建设银行钓鱼网站
  • 晨光文具网站建设策划书网站实时显示
  • 【Java高级编程】集合框架和泛型
  • 雅菲奥朗人工智能知识墙分享(二):『AI数据:人工智能时代的“数字燃料”——数据是AI的“第一生产力”』
  • 智能电网建设对就业市场有何影响?
  • 【08】C语言数据类型--字符类型
  • 张家界公司网站建设wordpress 新浪图片
  • 枣庄高端品牌网站建设案例微信上修改wordpress
  • 第十八讲(一) 三重积分
  • 怎么建设一个营销型网站博罗营销网站制作
  • 网站开发完整视频合肥网络推广有限公司
  • 第7章树和二叉树:二叉树遍历算法的应用
  • Marvell TX9190 Liquid-Cooled CPO Switch
  • 怎样做后端数据传输前端的网站asp汽车销售公司网站源码 4s店网站源码 汽车网站建设 完整无
  • oa网站建设推广吉林网站建设电话
  • 网站推广双鼎微信小程序可以做音乐网站吗
  • AI决策vs人工决策:效率的底层逻辑与选择边界
  • 合肥网站建设方案优化wordpress页面样板
  • 开展网站建设服务wordpress导航菜单均报404
  • 电视网站免费大全网站建设维护百家号
  • 人工智能与虚拟现实技术
  • Atlas 200I AI加速模块-修改和打包文件系统
  • Linux中ping时网络不可达
  • 公司做网站 微信平台急招程序员
  • 广安住房和城乡建设厅网站企业文化墙设计图效果图
  • 2025年9月电子学会全国青少年软件编程等级考试(Python二级)真题及答案
  • 20.管理存储堆栈
  • 深圳网站建设黄浦网络-技术差专业3合1网站建设
  • 成都建设招标网站首页一份完整的网站策划方案