当前位置：首页 > news >正文

2025年江西省职业院校技能大赛“大数据应用与服务”竞赛样题

news 2025/10/26 12:55:34

2025年江西省职业院校技能大赛"大数据应用与服务”竞赛样题

🔷博主介绍

致力于网络安全（漏洞挖掘、攻防实战）、Linux 内核系统（底层原理与性能调优）、区块链技术（Web3 安全与智能合约审计）、Python 语言应用（自动化攻防工具开发）、软件开发（全栈安全开发）等新一代信息技术领域的技术研究与干货分享，坚持以极简篇幅承载硬核知识的创作理念，为技术爱好者提供高效、深度、可落地的阅读体验。CSDN认证网络安全领域优质创作者、网络安全博客专家认证、阿里云专家博主。

🌐各大技术专栏推荐

专栏名称	专栏介绍
网络安全攻防之道	为网络安全从业者、白帽黑客与技术爱好者打造的攻防知识阵地。深度剖析漏洞利用与防御的技术细节，实战演练渗透测试全流程，输出可落地的攻防策略，陪你在攻防对抗中持续进阶。
Linux 系统运维：从底层原理到企业级实战	这里是 Linux 系统运维的实战修炼场：从系统初始化到高可用架构，从命令行魔术到自动化运维利器，深度拆解 CentOS/Ubuntu 在企业级业务、云原生环境中的运维密码。带你穿透系统底层逻辑，掌握性能调优、故障秒级定位、自动化脚本开发的硬核技能，进阶成为能扛住业务压力的 Linux 运维专家
【VulnHub 靶场攻防】从漏洞复现到实战渗透	不管你是刚入门的渗透新人，还是想强化实战能力的安全工程师，都能在这儿找到匹配的靶场练手项目。我们聚焦可复现的漏洞利用技巧，结合 Nmap、Metasploit、BurpSuite 等工具实战演示，帮你把靶场经验转化为真实渗透能力，一步步成长为能在实战中 “打怪升级” 的渗透高手
博主年度总结与收获	这里是旺仔 Sec 的创作成长日记！作为 CSDN 认证的网络安全优质创作者，我把每一年的技术深耕、创作思考、成长突破都浓缩在这儿 —— 从漏洞分析的技术沉淀，到内容创作的经验复盘，再到从工程师到博主的身份进阶，每一篇总结都是 “技术探索 + 创作感悟” 的双料干货

文章目录

2025年江西省职业院校技能大赛"大数据应用与服务”竞赛样题
- 题1 大数据平台搭建与运维
- - 1、大数据平台搭建与运维——Hadoop集群搭建（8分）
  - 2、大数据平台搭建与运维——Hive搭建（6分）
  - 3、大数据平台搭建与运维——Spark安装配置（6分）
- 题2 数据库配置维护
- - 4、数据库配置维护——数据库配置（3分）
  - 5、数据库配置维护——创建数据库和表（3分）
  - 6、数据库配置维护——维护数据表（4分）
- 题3 数据获取与清洗
- - 7、数据获取与清洗——数据获取（6分）
  - 8、数据获取与清洗——HDFS文件上传下载（4分）
- 题4 数据标注
- - 9、使用python进行数据标注（10分）
- 题5 数据统计与数据清洗
- - 10、数据统计与数据清洗——处理异常数据（6分）
  - 11、数据统计与数据清洗——数据统计（9分）
- 题6 数据分析与可视化
- - 12、数据分析与可视化——数据分析（5分）
  - 13、数据分析与可视化——数据可视化（15分）
- 题7 业务分析与方案设计
- - 14、业务分析与方案设计——业务分析（5分）
  - 15、业务分析与方案设计——报表分析（5分）

题1 大数据平台搭建与运维

【主观题开始】

1、大数据平台搭建与运维——Hadoop集群搭建（8分）

在Linux下安装搭建完全分布式Hadoop集群。在Linux终端执行命令“initnetwork”，或双击桌面上名称为“初始化网络”的图标，初始化实训平台网络，启动环境。
（1）创建/opt/module目录，在master主节点将/data目录下的JAVA安装包解压到master节点的/opt/module目录下，并远程拷贝至slave1、slave2相同目录下。在master主节点将/data目录下的Hadoop安装包解压到/opt/module目录下。最后查看master、slave1、slave2节点/opt/module目录下的内容并截图。
（2）在各节点的/etc/profile文件中配置JDK环境变量JAVA_HOME和PATH的值，并让配置文件立即生效，之后分别在master、slave1、slave2节点使用“java -version”查看JAVA版本，检测JAVA是否安装成功，并将结果截图。
（3）根据下表修改core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml、workers、hadoop-env.sh、yarn-env.sh配置文件，以及HDFS与YARN的启动和关闭脚本。最后将各配置文件添加的内容截图。

表1 Hadoop集群配置规划

配置文件	配置内容
core-site.xml	①设置HDFS的连接地址为master节点，端口为8020 ②设置HDFS的临时路径为/opt/module/hadoop-3.1.4/tmp
hdfs-site.xml	①设置Secondary NameNode的HTTP访问地址为slave1，端口号50090 ②设置HDFS文件块的副本数为3。
mapred-site.xml	①设置执行MapReduce作业的框架为yarn ②设置MapReduce作业历史服务JobHistoryServer监听的地址为master，端口为10020。 ③设置MapReduce作业历史服务JobHistoryServer的Web 应用程序监听地址为master，端口为19888。
yarn-site.xml	①设置yarn资源管理器（ResourceManager）的主机名为master ②设置ResourceManager监听的地址和端口为master:8032 ③设置NodeManager上可以运行的辅助服务（yarn.nodemanager.aux-services），启用MapReduce作业的shuffle服务
workers	工作节点为slave1、slave2
hadoop-env.sh	配置Hadoop运行环境，添加Java的环境变量
yarn-env.sh	配置YARN框架运行环境，添加Java的环境变量
start-dfs.sh stop-dfs.sh	指定namenode、datanode、secondarynamenode各个组件的运行用户为root
start-yarn.sh stop-yarn.sh	指定resourcemannager、nodemanager组件的运行用户为root

（4）在master节点上使用scp命令将配置完的Hadoop安装目录远程拷贝至slave1和slave2相同目录下，之后查看slave1和slave2的/opt/module目录结构并将查看结果截图。
（5）在3个节点的/etc/profile文件中配置Hadoop环境变量（HADOOP_HOME）和PATH的值，并让配置文件立即生效。将3个节点的/etc/profile文件中添加的内容截图。
（6）在主节点格式化集群，成功格式化之后在主节点依次启动HDFS、YARN服务、JobHistoryServer服务，并查看3个节点的进程，将查看结果截图。
（7）在HDFS上创建/user/input目录，并将master节点/etc/profile文件上传到HDFS的/user/input目录下，最后查看/user/input目录下的文件内容并截图。
（8）将/user/input目录下的hosts文件权限调整为776，最后查看/user/input目录下的文件内容并截图。
【文件获取】
使用wget命令获取数据（在终端中运行引号中的所有代码可将文件上传到实训平台）。
（1）Java安装包：
“wget -P /data http://house.tipdm.com/JS-Competition/software/jdk-8u281-linux-x64.tar.gz”。
（2）Hadoop安装包：
“wget -P /data http://house.tipdm.com/JS-Competition/software/hadoop-3.1.4.tar.gz”。
【说明】
（1）登录平台后需先在Linux终端执行命令“initnetwork”，或双击桌面上名称为“初始化网络”的图标，初始化实训平台网络。
（2）通过wget命令可将安装包下载至“/data”目录下，完整路径为“/data/hadoop-3.1.4.tar.gz”。
（3）若想切换至slave1或slave2节点，可以打开新的Linux终端窗口，然后输入“ssh slave1”或“ssh slave2”即可切换到对应的节点。
【答案提交】
根据赛题提供的“答案报告1.docx”文档，将最终的答案命令与运行结果的截图整理入文档，并由队长以“考生1准考证号-答案报告1.docx”命名提交。答案以【考生1】账号提交的答案为准，若使用其他队员账号提交答案，或是以其他队员准考证号命名提交答案，视为无效提交。
【主观题结束】

【主观题开始】

2、大数据平台搭建与运维——Hive搭建（6分）

在Linux下安装搭建Hive数据仓库。在Linux终端执行命令“initnetwork”，或双击桌面上名称为“初始化网络”的图标，初始化实训平台网络，启动环境。
【注意！！主观题3使用主观题2中提供的实训环境进行操作】
（1）创建/opt/module目录，将/data目录下的Hive安装包解压到/opt/module目录下，查看/opt/module目录下的内容并截图。
（2）进入Hive安装目录的conf目录，使用cp命令拷贝hive-env.sh.template文件并重命名为hive-env.sh，在该文件中配置Hadoop环境变量，并将文件添加的内容截图。
（3）在Hive安装目录的conf目录下新建hive-site.xml配置文件并添加内容，将添加的内容截图。

表2 hive-site.xml部分参数

配置参数	描述	参数值
hive.metastore.warehouse.dir	元数据库位置	hdfs://master:8020/user/hive/warehouse
javax.jdo.option.ConnectionURL	元数据库的链接信息	jdbc:mysql://master:3306/hive?createDatabaseIfNotExist=true
javax.jdo.option.ConnectionDriverName	连接数据库驱动	com.mysql.cj.jdbc.Driver
javax.jdo.option.ConnectionUserName	连接数据库用户名称	root
javax.jdo.option.ConnectionPassword	连接数据库用户密码	123456

（4）将/data目录下的MySQL驱动mysql-connector-java-8.0.30.jar复制到Hive安装目录的lib目录，同时将该lib目录下的jline-2.12.jar复制到各节点的Hadoop安装目录的/share/hadoop/yarn/lib/目录中。
（5）删除Hive安装目录的lib目录下的guava-19.0.jar包，并将Hadoop安装目录的/share/hadoop/common/lib/目录中的guava-27.0-jre.jar复制至Hive安装目录的lib目录下。查看Hive安装目录的lib目录下guava jar包名称并截图。
（6）在master主节点的/etc/profile文件中配置Hive环境变量HIVE_HOME和PATH的值，并让配置文件立即生效，将配置内容截图。
（7）初始化Hive元数据库，之后依次启动Hadoop集群、MySQL服务和Hive元数据服务，在master节点使用jps查看进程，并将结果截图。
（8）进入Hive CLI在Hive中创建一个名为company的数据库，并在该数据库下创建一个名为emp的内表，创建后查看该表的表结构信息并截图。表字段名称及类型设计参考下表。

表3 emp表字段及类型

字段名称	字段类型	字段说明
empno	int	员工编号
ename	string,	员工姓名
job	string	职位
mgr	int	直属领导编号
hiredate	string	入职日期
sal	int	工资
comm	int	奖金
deptno	int	部门编号

（9）将/data目录下的emp.txt文件内容导入company数据库的emp表中，最后查看emp表的所有数据并截图。
【文件获取】
使用wget命令获取数据（在终端中运行引号中的所有代码可将文件上传到实训平台）。
（1）Hive安装包：
“wget -P /data http://house.tipdm.com/JS-Competition/software/apache-hive-3.1.2-bin.tar.gz”。
（2）mysql连接驱动包：
“wget -P /data http://house.tipdm.com/JS-Competition/software/mysql-connector-java-8.0.30.jar”。
（3）emp.txt数据文件：
“wget -P /data http://house.tipdm.com/JS-Competition/data/JX2024/emp.txt”。
【说明】
（1）登录平台后需先在Linux终端执行命令“initnetwork”，或双击桌面上名称为“初始化网络”的图标，初始化实训平台网络。
（2）通过“ $JAVA_HOME”指令可返回JAVA的安装目录；通过“$ HADOOP_HOME”指令可返回Hadoop的安装目录。
（3）通过 wget 命令可将安装包下载至“/data”目录下，完整数据路径为“/data/apache-hive-3.1.2-bin.tar.gz”。
【答案提交】
根据赛题提供的“答案报告2.docx”文档，将最终的答案命令与运行结果的截图整理入文档，并由队长以“考生1准考证号-答案报告2.docx”命名提交。答案以【考生1】账号提交的答案为准，若使用其他队员账号提交答案，或是以其他队员准考证号命名提交答案，视为无效提交。
【主观题结束】

【主观题开始】

3、大数据平台搭建与运维——Spark安装配置（6分）

在Linux下安装搭建完全分布式Spark集群。在Linux终端执行命令“initnetwork”，或双击桌面上名称为“初始化网络”的图标，初始化实训平台网络，启动环境。
【注意！！主观题3使用主观题2中提供的实训环境进行操作】
（1）创建/opt/module，在master节点将/data目录下的spark-3.2.1-bin-hadoop3.2.tgz安装包解压到/opt/module目录下，解压后查看/opt/module目录下的内容并将查看结果截图。
（2）切换到/opt/module/spark-3.2.1-bin-hadoop3.2/conf目录下，使用cp命令拷贝spark-env.sh.template文件后更名为spark-env.sh，拷贝workers.template文件后更名为workers，查看/opt/module/spark-3.2.1-bin-hadoop3.2/conf目录下的内容并截图。
（3）在spark-env.sh文件中进行修改，配置JAVA_HOME安装目录及Hadoop的配置文件目录，指定standalone模式运行时的Master进程运行在master节点上，指定Master进程内部通信端口号为7077，SPARK的WEB UI端口为8085。
（4）在workers文件中进行修改，指定standalone模式运行时Worker进程需要分别在master、slave1、slave2节点上运行。
（5）在master节点上将Spark安装目录远程拷贝到slave1、slave2节点的/opt/module路径下，之后查看slave1和slave2的/opt/module目录结构并将查看结果截图。
（6）在master节点修改/etc/profile文件，设置Spark环境变量（SPARK_HOME）和PATH的值，并使环境变量生效。将配置文件添加的内容截图。
（7）启动Spark集群，使用jps查看master节点、slave1节点、slave2节点的进程（启动Spark集群前需先启动Hadoop集群），将3个节点的进程结果截图。
（8）进入spark-shell交互式命令行界面，从整数数据集合Array(1, 2, 3, 4, 5, 6)中创建出RDD，RDD名称为numberRDD，然后对numberRDD中的每个元素进行平方操作，并将结果赋值给squaredRDD，最后输出处理后的squaredRDD所有数据并截图。
【文件获取】
使用wget命令获取数据（在终端中运行引号中的所有代码可将文件上传到实训平台）。
Spark安装包：
“wget -P /data http://house.tipdm.com/JS-Competition/software/spark-3.2.1-bin-hadoop3.2.tgz”。
【说明】
（1）登录平台后需先在Linux终端执行命令“initnetwork”，或双击桌面上名称为“初始化网络”的图标，初始化实训平台网络。
（2）通过“ $JAVA_HOME”指令可返回JAVA的安装目录；通过“$ HADOOP_HOME”指令可返回Hadoop的安装目录。
（3）通过 wget 命令可将安装包下载至“/data”目录下，完整数据路径为“/data/spark-3.2.1-bin-hadoop3.2.tgz”。
【答案提交】
根据赛题提供的“答案报告3.docx”文档，将最终的答案命令与运行结果的截图整理入文档，并由队长以“考生1准考证号-答案报告3.docx”命名提交。答案以【考生1】账号提交的答案为准，若使用其他队员账号提交答案，或是以其他队员准考证号命名提交答案，视为无效提交。
【主观题结束】

题2 数据库配置维护

【主观题开始】

4、数据库配置维护——数据库配置（3分）

本任务需要在Linux下中完成MySQL数据库配置，请使用root用户完成相关配置，具体要求如下。
注：进入实训平台，初始化网络后，请先复制wget指令在终端运行，以更新系统镜像源文件CentOS-Base.repo，再操作以下题目！
（1）将/data目录下的mysql-community.repo文件复制到YUM仓库的配置文件/etc/yum.repos.d/，查看/etc/yum.repos.d/目录下内容并截图。
（2）加载MySQL镜像源并使用yum命令下载安装mysql-community-server，将安装成功的结果截图。
（3）在/var/log/mysqld.log文件中查询MySQL初始密码，并使用初始密码登录MySQL，将成功登录的界面截图。
（4）使用初始密码登录MySQL后，先将密码修改为符合MySQL8.x密码规则的复杂密码，之后再修改密码规则并将密码改为简单密码123456。
（5）修改密码后退出MySQL，使用修改之后的密码重新登录MySQL，赋予root用户外部连接权限。
【文件获取】
使用wget命令获取数据（在终端中运行引号中的所有代码可将文件上传到实训平台）。
（1）更新系统镜像源文件：
“wget -O /etc/yum.repos.d/CentOS-Base.repo http://house.tipdm.com/JS-Competition/software/CentOS-Base.repo”
（2）MySQL源文件：
“wget -P /data http://house.tipdm.com/JS-Competition/software/mysql-community.repo”
【说明】
（1）登录平台后需先在Linux终端执行命令“initnetwork”，或双击桌面上名称为“初始化网络”的图标，初始化实训平台网络。
（2）通过wget命令可将安装包下载至“/data”目录下，完整路径为“/data/mysql-community.repo”。
【答案提交】
根据赛题提供的“答案报告4.docx”文档，将最终的答案命令与运行结果的截图整理入文档，并由队长以“考生1准考证号-答案报告4.docx”命名提交。答案以【考生1】账号提交的答案为准，若使用其他队员账号提交答案，或是以其他队员准考证号命名提交答案，视为无效提交。
【标签】问答题
【主观题结束】
【主观题开始】

5、数据库配置维护——创建数据库和表（3分）

【注意！！主观题6使用主观题5中提供的实训环境进行操作】
酒店表（hotel_all）字段如下表所示。

字段	类型	中文含义
id	int	酒店编号
hotel_name	varchar	酒店名称
city	varchar	城市
province	varchar	省份
level	varchar	星级
room_num	int	房间数
score	double	评分
shopping	varchar	评论数

评论表（comment_all）字段如下表所示。

字段	类型	中文含义
id	int	评论编号
name	varchar	酒店名称
commentator	varchar	评论人
score	double	评分
comment_time	datetime	评论时间
content	varchar	评论内容

（1）在数据库中创建“hotel”数据库，并使用该数据库，将操作指令截图。
（2）根据已给到的sql文件comment_all_data.sql和hotel_all_data.sql，执行这两份sql文件，在hotel数据库中创建表并导入数据。分别查看hotel_all表和comment_all表的表结构信息，并截图。
（3）通过select查询语句，查询hotel_all表和comment_all表两张表的数据记录数并截图。
【文件获取】
使用wget命令获取数据（在终端中运行引号中的所有代码可将文件上传到实训平台）。
（1）hotel_all_data.sql：
“wget -P /data http://house.tipdm.com/JS-Competition/data/JX2024/hotel_all_data.sql”
（2）comment_all_data.sql：
“wget -P /data http://house.tipdm.com/JS-Competition/data/JX2024/comment_all_data.sql”
【说明】
（1）登录平台后需先在Linux终端执行命令“initnetwork”，或双击桌面上名称为“初始化网络”的图标，初始化实训平台网络。
（2）通过wget命令可将安装包下载至“/data”目录下，完整路径为“/data/hotel_all_data.sql”。
【答案提交】
根据赛题提供的“答案报告5.docx”文档，将最终的答案命令与运行结果的截图整理入文档，并由队长以“考生1准考证号-答案报告5.docx”命名提交。答案以【考生1】账号提交的答案为准，若使用其他队员账号提交答案，或是以其他队员准考证号命名提交答案，视为无效提交。
【标签】问答题
【主观题结束】

【主观题开始】

6、数据库配置维护——维护数据表（4分）

【注意！！主观题6使用主观题5中提供的实训环境进行操作】
基于第5题中创建的hotel_all表和comment_all表及插入的表数据，对数据表进行维护，具体要求如下。
（1）查询hotel_all表中不同星级的酒店数量，并按照酒店数量降序排序，将查询结果截图。
（2）查询comment_all表中评分小于等于3分的酒店名称及对应的评论数量并截图。
（3）查询hotel_all表中商圈包含“机场”字符串且评分大于等于4.5的酒店名称，并将结果截图。
（4）更新comment_all表，将2022年10月1日之后（包含2022年10月1日）评论并且评分小于2分的评论的评论人名称更改为“匿名用户”，查询评论人名称为“匿名用户”的评论数量进行验证并截图。
（5）删除hotel_all表中星级为高档型，且房间数小于100的酒店信息，删除后查看表的数据记录数并将结果截图。
【文件获取】
使用wget命令获取数据（在终端中运行引号中的所有代码可将文件上传到实训平台）。
（1）hotel_all_data.sql：
“wget -P /data http://house.tipdm.com/JS-Competition/data/JX2024/hotel_all_data.sql”
（2）comment_all_data.sql：
“wget -P /data http://house.tipdm.com/JS-Competition/data/JX2024/comment_all_data.sql”
【说明】
（1）登录平台后需先在Linux终端执行命令“initnetwork”，或双击桌面上名称为“初始化网络”的图标，初始化实训平台网络。
（2）通过wget命令可将安装包下载至“/data”目录下，完整路径为“/data/hotel_all_data.sql”。
【答案提交】
根据赛题提供的“答案报告6.docx”文档，将最终的答案命令与运行结果的截图整理入文档，并由队长以“考生1准考证号-答案报告6.docx”命名提交。答案以【考生1】账号提交的答案为准，若使用其他队员账号提交答案，或是以其他队员准考证号命名提交答案，视为无效提交。
【标签】问答题
【主观题结束】

题3 数据获取与清洗

【主观题开始】

7、数据获取与清洗——数据获取（6分）

基于手机产品评论数据文件（iphone15_jd_comments.csv），按照题目要求使用Python技术完成下列任务。
（1）读取iphone15_jd_comments.csv，打印查看数据的记录数并截图。
（2）统计每一列的缺失值情况，输出统计结果并截图；针对数据的缺失值，删除缺失值所在的行，打印查看缺失值处理后的数据记录数并截图。
（3）针对数据的重复值，根据“content”列进行去重，保留最后一次出现的重复值，打印查看重复值处理后的数据记录数并截图。
（4）将“creationTime”、“referenceTime”两列转成日期时间格式类型，并打印查看data所有列的数据类型并截图。
（5）从“referenceTime”列中提取出日期，如“2024-01-01”，存储于“referenceDate”列，打印查看“referenceDate”列的最早购买日期和最晚购买日期并截图。
【文件获取】
使用wget命令获取文件（运行引号中的所有代码可将文件上传到实训平台）。
（1）iphone15_jd_comments.csv：
“wget -P /data http://house.tipdm.com/JS-Competition/data/JX2024/iphone15_jd_comments.csv”
【说明】
通过wget命令可将文件下载至“/data”目录下，如iphone15_jd_comments.csv完整路径为“/data/iphone15_jd_comments.csv”。
【答案提交】
根据赛题提供的“答案报告7.docx”文档，将最终的答案命令与运行结果的截图整理入文档，并由队长以“考生1准考证号-答案报告7.docx”命名提交。答案以【考生1】账号提交的答案为准，若使用其他队员账号提交答案，或是以其他队员准考证号命名提交答案，视为无效提交。
【标签】问答题
【主观题结束】

【主观题开始】

8、数据获取与清洗——HDFS文件上传下载（4分）

在当今激烈的商业竞争环境中，企业的成功往往取决于其人力资源管理的效能。了解员工的工作状态、表现和需求，才能制定更有效的人力资源管理策略。HR_data1.csv和HR_data2.csv数据中包含了员工的满意度、项目数量、月均工作时长、工龄、有否有工伤、是否离职、过去5年内是否晋升、工作部门和工资等级的数据字段，请根据提供的人力资源信息，使用Hadoop HDFS文件系统操作指令完成下列任务（实现本任务前需要先启动Hadoop集群）。
（1）在HDFS中创建/HR/analysis目录和/HR/employee目录，查看/HR目录下的内容并截图。
（2）将/data目录下的“HR_data1.csv”和“HR_data2.csv”文件内容合并上传至/HR/analysis目录的HR_data.csv文件中（数据文件需要先上传到平台的/data目录下），查看/HR/analysis目录下的内容并截图。
（3）将HDFS的/HR/analysis/HR_data.csv文件复制到/HR/employee目录下，以备份原始数据文件，复制后查看/HR/employee目录下的内容并截图。
（4）将HDFS的/HR/employee/HR_data.csv文件下载至Linux本地的/data目录下，并查看Linux本地/data目录下的内容。
（5）删除HDFS的/HR/analysis目录，删除后查看/HR目录下的内容并截图。
【文件获取】
使用wget命令获取数据（在终端中运行引号中的所有代码可将文件上传到实训平台）。
（1）HR_data1.csv文件
“wget -P /data http://house.tipdm.com/JS-Competition/data/JX2024/HR_data1.csv”
（2）HR_data2.csv文件
“wget -P /data http://house.tipdm.com/JS-Competition/data/JX2024/HR_data2.csv”
【说明】
（1）登录平台后需先在Linux终端执行命令“initnetwork”，或双击桌面上名称为“初始化网络”的图标，初始化实训平台网络。
（2）通过“ $JAVA_HOME”指令可返回JAVA的安装目录；通过“$ HADOOP_HOME”指令可返回Hadoop的安装目录。
（3）通过 wget 命令可将安装包下载至“/data”目录下，如完整数据路径为“/data/HR_data1.csv”。
【答案提交】
根据赛题提供的“答案报告8.docx”文档，将最终的答案命令与运行结果的截图整理入文档，并由队长以“考生1准考证号-答案报告8.docx”命名提交。答案以【考生1】账号提交的答案为准，若使用其他队员账号提交答案，或是以其他队员准考证号命名提交答案，视为无效提交。
【标签】问答题
【主观题结束】

题4 数据标注

【主观题开始】

9、使用python进行数据标注（10分）

在数据科学和机器学习领域，数据标注是一个至关重要的步骤。数据标注是指为数据集中的每个样本添加正确的标签或注释，以便训练机器学习模型或进行其他类型的分析。在情感分析和时间序列分析等任务中，数据标注通常涉及为文本数据添加情感标签或时间标签，了解客户的情感倾向和评论的季节性特征，可以更好地了解客户需求，改善服务质量，并制定更有效的营销策略。
（1）基于python技术，根据标注规则对“hotel_comment.csv”数据中的“评论信息”列进行情感标注，并将标注结果存储于数据的“情感”列中，在确认每条评论文本均已完成情感标注后，统计不同情感的评论数量并输出统计结果。
具体的标注规则如下。
①“分数”值大于等于0.6，则评论数据“情感”列的值标注为【积极】。
②“分数”值大于0.4小于0.6，则评论数据“情感”列的值标注为【中性】。
③“分数”值小于等于0.4，则评论数据“情感”列的值标注为【消极】。
（2）基于python技术，新建“季度”列，根据“评论日期”进行数据标注，确保对每条评论文本都进行数据标注后，统计不同季度的评论数量并打印输出。
具体标注规则如下。
①评论日期在1~3月，则评论数据“季度”列的值标注为【第一季度】。
②评论日期在4~6月，则评论数据“季度”列的值标注为【第二季度】。
③评论日期在7~9月，则评论数据“季度”列的值标注为【第三季度】。
④评论日期在10~12月，则评论数据“季度”列的值标注为【第四季度】。
【数据获取】
使用wget命令获取数据（在终端中运行引号中的所有代码可将数据上传到实训平台）。
hotel_comment.csv：
“wget -P /data http://house.tipdm.com/JS-Competition/data/hotel_comment.csv”。
【说明】
通过wget命令可将数据文件下载至“/data”目录下，完整数据路径为“/data/hotel_comment.csv”。
【答案提交】
根据赛题提供的“答案报告9.docx”文档，将最终的答案命令与运行结果的截图整理入文档，并由队长以“考生1准考证号-答案报告9.docx”命名提交。答案以【考生1】账号提交的答案为准，若使用其他队员账号提交答案，或是以其他队员准考证号命名提交答案，视为无效提交。
【标签】问答题
【主观题结束】

题5 数据统计与数据清洗

【主观题开始】

10、数据统计与数据清洗——处理异常数据（6分）

【注意！！主观题10使用主观题8中提供的实训环境进行操作】
hotel_data.csv存储了不同酒店商家的信息，文件中的表字段如下表所示。

字段	类型	中文含义
id	int	酒店编号
hotel_name	varchar	酒店名称
city	varchar	城市
province	varchar	省份
level	varchar	星级
room_num	int	房间数
score	double	评分
shopping	varchar	评论数

将hotel_data.csv文件上传至HDFS文件系统的/opt目录下（若没有该目录，则自行创建）。编写MapReduce程序，实现以下功能：过滤首行标题行，删除酒店星级（level）为空的数据并对数据记录进行去重，将清洗后的数据输出到HDFS中/output1目录下，最后使用hdfs命令结合wc指令，查看HDFS文件系统中/opt/hotel_data.csv文件的行数，以及清洗后的/output1/part-r-00000文件的行数，将查看结果截图。
【文件获取】
使用wget命令获取数据（在终端中运行引号中的所有代码可将文件上传到实训平台）。
hotel_data.csv文件
“wget -P /data http://house.tipdm.com/JS-Competition/data/JX2024/hotel_data.csv”
【说明】
（1）登录平台后需先在Linux终端执行命令“initnetwork”，或双击桌面上名称为“初始化网络”的图标，初始化实训平台网络。
（2）通过“ $JAVA_HOME”指令可返回JAVA的安装目录；通过“$ HADOOP_HOME”指令可返回Hadoop的安装目录。
（3）通过 wget 命令可将安装包下载至“/data”目录下，如完整数据路径为“/data/hotel_data.csv”。
【答案提交】
根据赛题提供的“答案报告10.docx”文档，将最终的答案命令与运行结果的截图整理入文档，并由队长以“考生1准考证号-答案报告10.docx”命名提交。答案以【考生1】账号提交的答案为准，若使用其他队员账号提交答案，或是以其他队员准考证号命名提交答案，视为无效提交。
【标签】问答题
【主观题结束】

【主观题开始】

11、数据统计与数据清洗——数据统计（9分）

【注意！！主观题11使用主观题8中提供的实训环境进行操作】
基于处理后的hotel_newdata.csv文件，将其上传至HDFS文件系统的/opt目录下。编写一个或多个MapReduce程序，实现以下功能：
过滤首行标题行，统计每种星级不同商圈的的酒店平均评分，并将结果保存到HDFS中/output2_1目录中，将/output2_1目录下的输出文件按照平均评分进行降序排序，最后将结果保存到HDFS中/output2_2目录下，并在控制台同步打印输出结果并截图，打印输出结果如“星级名称_商圈名称的平均评分为：XX”。
【文件获取】
使用wget命令获取数据（在终端中运行引号中的所有代码可将文件上传到实训平台）。
hotel_newdata.csv文件
“wget -P /data http://house.tipdm.com/JS-Competition/data/JX2024/hotel_newdata.csv”
【说明】
（1）登录平台后需先在Linux终端执行命令“initnetwork”，或双击桌面上名称为“初始化网络”的图标，初始化实训平台网络。
（2）通过“ $JAVA_HOME”指令可返回JAVA的安装目录；通过“$ HADOOP_HOME”指令可返回Hadoop的安装目录。
（3）通过 wget 命令可将安装包下载至“/data”目录下，如完整数据路径为“/data/hotel_newdata.csv”。
【答案提交】
根据赛题提供的“答案报告11.docx”文档，将最终的答案命令与运行结果的截图整理入文档，并由队长以“考生1准考证号-答案报告11.docx”命名提交。答案以【考生1】账号提交的答案为准，若使用其他队员账号提交答案，或是以其他队员准考证号命名提交答案，视为无效提交。
【标签】问答题
【主观题结束】

题6 数据分析与可视化

【主观题开始】

12、数据分析与可视化——数据分析（5分）

招聘信息数据可以揭示不同企业的招聘渠道和招聘方式。求职者可以通过分析招聘信息数据，选择合适的招聘平台、企业官网或招聘会等渠道进行求职，提高找到理想工作的机会。通过研究招聘信息数据，求职者可以了解企业对候选人的面试流程、评价标准和重点关注的技能。这有助于求职者针对性地准备面试内容，展现自己的优势和匹配度，提升在面试中的表现和竞争力。请根据提供的招聘信息，编写相关Python代码完成下列任务。
（1）导入相关库，读取“new_job_info.csv”数据，展示前3行招聘数据信息。
（2）根据“公司行业”进行分组，分别对“岗位名”列进行计数，对“工资水平”列计算平均值，以统计每个行业的岗位需求数量和平均工资水平。根据需求数量进行降序排序，并输出需求量排名前5的行业及平均工资水平。
（3）根据“公司人数”进行分组，分别对“工资水平”列计算平均值，对“公司名”列进行计数，以展示不同体量企业的薪资水平和用人需求。
（4）统计出每个工作地点中工资水平最高的岗位名（即每个工作地点都对应一个岗位，该岗位是这个工作地点工资水平最高的），以了解不同工作地点高薪资岗位所需的专业技能。按照工资水平进行降序排序后，查看前10条数据并截图。
【数据获取】
使用wget命令获取数据（在终端中运行引号中的所有代码可将数据上传到实训平台）。
new_job_info.csv：
“wget -P /data http://house.tipdm.com/JS-Competition/data/JX2024/new_job_info.csv”。
【说明】
通过wget命令可将数据文件下载至“/data”目录下，完整数据路径为“/data/new_job_info.csv”。
【答案提交】
根据赛题提供的“答案报告12.docx”文档，将最终的答案命令与运行结果的截图整理入文档，并由队长以“考生1准考证号-答案报告12.docx”命名提交。答案以【考生1】账号提交的答案为准，若使用其他队员账号提交答案，或是以其他队员准考证号命名提交答案，视为无效提交。
【标签】问答题
【主观题结束】

【主观题开始】

13、数据分析与可视化——数据可视化（15分）

【注意！！主观题13使用主观题12中提供的实训环境进行操作】
现有产品评论数据文件（comment_topic.xlsx），文件中的数据字段说明如下表所示。

content	评论内容	nickname	用户昵称
creationTime	评论时间	location	所在地区
score	评分	days	从购买到评论的间隔天数
userClient	用户使用的客户端	referenceDate	购买日期
productColor	产品颜色	content_words	评论词语列表
productSize	产品内存大小	topic_label	主题类别
referenceTime	购买时间

根据产品评论数据，按照题目要求使用Python技术完成下列任务。
（1）读取comment_topic.xlsx文件，对“userClient”列的数据进行处理，处理规则如下，最后统计不同客户端类型的使用数量并输出结果。
①若userClient等于2，则userClient值修改为“来自京东iPhone客户端”；
②若userClient等于4，则userClient值修改为“来自京东Android客户端”；
③若userClient等于21，则userClient值修改为“来自微信购物”；
④若userClient等于0，则userClient值修改为“来自京东PC客户端”；
⑤若userClient等于29，则userClient值修改为“来自京东iPad客户端”；
⑥若userClient等于28，则userClient值修改为“来自手机QQ购物”。
（2）根据不同客户端类型的使用数量结果，绘制柱状图进行可视化展示。
参数设置要求：
①标题设置为“不同客户端类型的使用数量情况”；
②x轴标签设置为“客户端类型”，y轴标签设置为“使用数量”；
③x轴上的标签旋转90度。
在这里插入图片描述
（3）从评论时间“creationTime”列中提取出日期作为新的一列“creationDate”，统计不同评论日期的评论数量，统计结果按照评论日期进行升序排序，最后绘制折线图进行可视化展示。
参数设置要求：
①标题设置为“不同评论日期的评论数据趋势图”；
②x轴标签设置为“评论日期”，y轴标签设置为“评论数量”；
③背景显示网格线。
在这里插入图片描述
（4）统计不同产品颜色的评论数量，使用pyecharts库绘制南丁格尔玫瑰图进行可视化展示。
参数设置要求：
①设置饼图的半径范围，内半径为30%，外半径60%；
②南丁格尔玫瑰图展示类型为：使用半径大小来表示数据的大小；
③饼图的标题设置为“不同产品颜色的评论数量”；
④饼图的标签数值显示为“产品颜色:评论数量”；
⑤将图表渲染保存为成一个html文件，文件路径设置为“/root/jupyter_notbook/pie.html”。
在这里插入图片描述
（5）新增“评价属性”列，score分数为1，则评价属性值为“差评”；score分数为2或3，则评价属性值为“中评”；score分数为4或5，则评价属性值为“好评”。根据“评价属性”列进行分组，统计不同评价属性的评论数量并输出结果。
（6）仅筛选出好评的评论数据，基于“content_words”列统计出每个评论词语的词频，最后使用词云图进行好评词频的可视化展示。
参数设置要求：
①词云图的背景图片设置为“/data/aixin.jpg”；
②字体路径设置为“/data/msyh.ttc”；
③背景颜色设置为白色。
在这里插入图片描述
【数据获取】
使用wget命令获取文件（运行引号中的所有代码可将安装包上传到实训平台）。
（1）comment_topic.xlsx：
“wget -P /data http://house.tipdm.com/JS-Competition/data/JX2024/comment_topic.xlsx”。
（2）aixin.jpg：
“wget -P /data http://house.tipdm.com/JS-Competition/data/JX2024/aixin.jpg”。
（3）msyh.ttc：
“wget -P /data http://house.tipdm.com/JS-Competition/data/JX2024/msyh.ttc”。
【说明】
（1）通过wget命令可将文件下载至“/data”目录下，如comment_topic.xlsx完整路径为“/data/comment_topic.xlsx”。
（2）在可视化图表中，中文字体可设置为“WenQuanYi Zen Hei”。
【答案提交】
根据赛题提供的“答案报告13.docx”文档，将最终的答案命令与运行结果的截图整理入文档，并由队长以“考生1准考证号-答案报告13.docx”命名提交。答案以【考生1】账号提交的答案为准，若使用其他队员账号提交答案，或是以其他队员准考证号命名提交答案，视为无效提交。
【标签】问答题
【主观题结束】

题7 业务分析与方案设计

【主观题开始】

14、业务分析与方案设计——业务分析（5分）

【注意！！主观题14使用主观题12中提供的实训环境进行操作】
某金融APP通过分析客户的行为数据，希望了解不同客户群体的使用习惯和偏好，以便制定更有针对性的营销策略。user.csv文件是五个不同客户群体（客户群1至客户群5）在四个维度上的行为特征数据：最近一次登录天数（R）、消费金额（M）、登录次数（F）和注册会员天数（L）。
（1）请使用python读取user.csv文件，将第一列设为索引，并使用matplotlib库绘制客户群体雷达图，参考图如下。
在这里插入图片描述
请根据图表和数据，分析并回答以下问题。
（2）阐述哪个客户群体的平均入会时长最久？
（3）根据图表，描述客户群4的行为特征表现，并提出针对该群体的营销策略，提升该客户群体的满意度，促进该客户群体的消费。
【数据获取】
使用wget命令获取文件（运行引号中的所有代码可将安装包上传到实训平台）。
user.csv：
“wget -P /data http://house.tipdm.com/JS-Competition/data/JX2024/user.csv”。
【说明】
（1）通过wget命令可将文件下载至“/data”目录下，如user.csv完整路径为“/data/user.csv”。
（2）使用matplotlib绘制可视化图表时，中文字体参数“font.sans-serif”需设置为“WenQuanYi Zen Hei”。
【答案提交】
根据赛题提供的“答案报告14.docx”文档，将最终的答案命令与运行结果的截图整理入文档，并由队长以“考生1准考证号-答案报告14.docx”命名提交。答案以【考生1】账号提交的答案为准，若使用其他队员账号提交答案，或是以其他队员准考证号命名提交答案，视为无效提交。
【标签】问答题
【主观题结束】

【主观题开始】

15、业务分析与方案设计——报表分析（5分）

请基于本地电脑的电子表格软件WPS Excel对相关数据进行统计分析、可视化分析等操作。
（1）请基于数据“短视频平台达人信息数据.xlsx”在新的工作表创建数据透视表，以查看不同性别对于不同类型的视频发布数量（行为类型，列为性别），工作表重命名为“数据透视表”；并在新的工作表使用数据透视图中的堆叠条形图展示统计结果，要求对图形设置合适的标题、坐标轴标题和图例，工作表重命名为“数据透视图”。将结果文件另存为“15-1结果.xlsx”。
（2）员工考核的目的是发掘与有效利用员工的能力，通过考核对员工给予公正的评价与待遇，如奖惩、升迁。企业部门管理中，销售经理的综合评分是由五个能力评分构成的，其中销售能力占整体的35%，沟通能力占20%，服务能力占15%，协作能力占10%，组织能力占20%。请基于公式或函数计算数据“销售经理能力考核表.xlsx”中每一位销售经理的综合评分（结果保留两位小数），并划分其评分等级。
具体的等级划分依据以下标准：[90,100]为优秀，[80,90)为良好，[0,80)为一般。最后在同一画布绘制所有销售经理各个能力评分的雷达图，要求对雷达图设置合适的标题、坐标轴和图例，坐标轴范围为[50,100]。最后将结果文件另存为“15-2结果.xlsx”。
【数据获取】
下载附件中的数据并解压。
【答案提交】
将完成的两个结果文件放在文件夹中，文件夹以“准考证号-答案报告15”命名，并将文件夹压缩成ZIP压缩包，压缩包以“考生1准考证号-答案报告15”命名，如“XXX答案报告15.zip”。答案以【考生1】账号提交的答案为准，若使用其他队员账号提交答案，或是以其他队员准考证号命名提交答案，视为无效提交。
【标签】问答题
【主观题结束】

🤵‍♂️ 个人博客主页： @旺仔Sec的博客主页

WeChat公众号：鹏璃安全

✍🏻 博主身份：网络安全兼技能大赛工程师（NISP、CISP、华为IE、IP、redhat、软考等职业证书报考可找我报考！）

🐋 希望大家多多支持，我们一起进步！😄

如果文章对你有帮助的话，欢迎评论 💬点赞👍🏻 收藏 📂加关注（各大技能大赛参考答案链接如下）

🖥️：软件测试技能大赛参考答案

🙌：软件测试—单元自动化接口测试参考答案

👻：区块链技术应用技能大赛参考答案

🚀：大数据应用开发职业院校竞赛答案参阅

🔎：GZ100移动应用设计与开发参考答案

✍：GZ031应用软件系统开发参考答案

☠：网络安全职业技能大赛任务解析