当前位置：首页 > news >正文

IDEA 中 Scala 项目远程连接虚拟机 Spark 环境

news 2025/10/15 1:05:10

IDEA 中 Scala 项目远程连接虚拟机 Spark 环境

1. 环境准备

确保虚拟机 Spark 环境正常运行
- 虚拟机中已安装并启动 Spark
- 记录虚拟机的 IP 地址和 Spark 端口（默认 7077）
- 确保虚拟机防火墙允许相关端口访问
本地 IDEA 环境配置
- 安装 Scala 插件
- 安装 Spark 相关依赖

2. 项目配置

创建 Scala 项目
- 打开 IDEA，选择 File → New → Project
- 选择 Scala → sbt project
- 设置项目名称和位置

配置 build.sbt 文件

name := "SparkRemoteProject"
version := "0.1"
scalaVersion := "2.12.15"  // 使用与虚拟机 Spark 兼容的 Scala 版本libraryDependencies ++= Seq("org.apache.spark" %% "spark-sql" % "3.3.0" % "provided","org.apache.spark" %% "spark-core" % "3.3.0" % "provided"
)

创建 Spark 连接配置类

import org.apache.spark.sql.SparkSessionobject SparkConfig {def createSparkSession(appName: String): SparkSession = {SparkSession.builder().appName(appName).master("spark://虚拟机IP:7077")  // 替换为虚拟机 IP.config("spark.driver.host", "本地IP")  // 替换为本地 IP.config("spark.driver.bindAddress", "本地IP")  // 替换为本地 IP.config("spark.executor.memory", "1g").config("spark.executor.cores", "2").getOrCreate()}
}

3. 复制配置文件

从虚拟机复制配置文件
- 复制虚拟机的 $SPARK_HOME/conf/spark-defaults.conf 到本地项目
- 复制虚拟机的 $HADOOP_HOME/etc/hadoop/core-site.xml 和 hdfs-site.xml（如果使用 HDFS）
配置本地环境变量
- 设置 SPARK_HOME 指向本地 Spark 目录
- 设置 HADOOP_HOME 指向本地 Hadoop 目录（如果使用 HDFS）

4. 编写测试代码

import org.apache.spark.sql.SparkSessionobject SparkRemoteTest {def main(args: Array[String]): Unit = {// 创建 SparkSessionval spark = SparkConfig.createSparkSession("RemoteSparkTest")// 测试连接val testData = spark.sparkContext.parallelize(1 to 100)val sum = testData.sum()println(s"Sum of numbers from 1 to 100: $sum")// 如果使用 HDFS，测试 HDFS 连接val hdfsPath = "hdfs://虚拟机IP:9000/path/to/file"try {val fileExists = spark.sparkContext.textFile(hdfsPath).count()println(s"File exists with $fileExists lines")} catch {case e: Exception => println(s"Error accessing HDFS: ${e.getMessage}")}// 关闭 SparkSessionspark.stop()}
}

5. 运行配置

配置运行参数
- 在 IDEA 中，选择 Run → Edit Configurations
- 添加 Scala 应用程序配置
- 设置主类为 SparkRemoteTest
- 添加 VM 参数：-Dspark.master=spark://虚拟机IP:7077

使用 spark-submit 运行

spark-submit --class SparkRemoteTest \--master spark://虚拟机IP:7077 \--driver-host 本地IP \--driver-memory 1g \--executor-memory 1g \target/scala-2.12/sparkremoteproject_2.12-0.1.jar

6. 常见问题解决

连接问题
- 确保虚拟机和本地机器网络互通
- 检查防火墙设置
- 使用 ping 和 telnet 测试连接
权限问题
- 确保虚拟机 Spark 用户有足够权限
- 检查 HDFS 权限设置
版本兼容性
- 确保本地 Scala 版本与虚拟机 Spark 兼容
- 确保依赖库版本一致
内存问题
- 调整 driver 和 executor 内存设置
- 检查本地 JVM 内存设置

7. 调试技巧

启用详细日志

// 在代码中设置日志级别
import org.apache.log4j.{Level, Logger}
Logger.getLogger("org").setLevel(Level.INFO)
Logger.getLogger("akka").setLevel(Level.INFO)

使用本地模式测试
- 先在本地模式下测试代码逻辑
- 确认无误后再切换到远程模式
使用 Web UI 监控
- 访问 http://虚拟机IP:8080 查看 Spark 应用状态
- 使用 http://虚拟机IP:4040 查看应用详情

查看全文

http://www.dtcms.com/a/138486.html

OpenCV 模板匹配方法详解

中间件--ClickHouse-7--冷热数据分离，解决Mysql海量数据瓶颈

springboot自定义starter（避坑教学）

OpenCV day5

kubernetes-高频率使用命令

LeetCode 2176.统计数组中相等且可以被整除的数对：两层遍历模拟

【专题刷题】双指针（三）：两数之和，三数之和，四数之和

第八章：探索新兴趋势：Agent 框架、产品与开源力量

新能源汽车能量流测试的传感器融合技术应用指南

.net C# 使用Epplus库将Datatable导出到Excel合并首列

Python 让课堂“沉浸式进化”——虚拟现实教学辅助工具的开发实战

Windows平台用vistual studio 2017打包制作C++动态库

STL详解 - stack与queue的模拟实现

《AI大模型应知应会100篇》第22篇：系统提示词(System Prompt)设计与优化

USART讲解

深入理解类：ArkTS面向对象编程的核心概念

批量操作的优点

idea mvn执行打包命令后控制台乱码

【无标题】STM32CubeMX

【SpringBoot+Vue自学笔记】003 SpringBoot Controll

Oracle DBMS_SCHEDULER 与 DBMS_JOB 的对比

【音视频开发】第五章 FFmpeg基础

k8s调度器：如何控制Pod的分布

【Android】如何将 APK 内置为系统应用(适用于编辑设置属性)

vim编辑器

Android Compose Activity 页面跳转动画详解

更换 CentOS 7.9 的系统源

智能交响：EtherCAT转Profinet网关开启汽车自动化通信新纪元

Linux电源管理(三)，CPUIdle 和 ARM的PSCI

VFlash的自动化和自定义动作

IDEA 中 Scala 项目远程连接虚拟机 Spark 环境

1. 环境准备

2. 项目配置

3. 复制配置文件

4. 编写测试代码

5. 运行配置

6. 常见问题解决

7. 调试技巧

相关文章：