解决Spark4.0.0依赖问题
Apache Spark 4.0.0 冲突解决指南
1. 问题背景
在尝试运行一个基于 Apache Spark 4.0.0 的 Java 应用程序。根据 Spark 4.0.0 的发布说明,该版本默认支持 Scala 2.13 和 JDK 17。在初始设置和运行过程中,遇到了以下主要问题:
- 依赖冲突 (POM 问题):Maven 项目的
pom.xml
配置不当,导致依赖解析失败。 - Java 版本不兼容:尽管
pom.xml
中指定了 JDK 17,但系统默认的 Java 版本 (JDK 21/23) 导致运行时错误,包括java.lang.UnsupportedOperationException: getSubject is supported only if a security manager is allowed
。 - Servlet API 兼容性问题:运行应用程序时出现
java.lang.NoClassDefFoundError: jakarta/servlet/SingleThreadModel
错误。这是由于 Spark 4.0.0 内部使用了在较新 Servlet API 版本中已弃用或移除的类。
2. 解决方案
为解决上述问题,我们采取了一系列配置和调整措施。
2.1 pom.xml
配置调整
针对依赖和 Java 版本兼容性问题,对 pom.xml
进行了以下关键修改:
-
指定 Java 版本: 确保 Maven 项目使用 JDK 17 进行编译和运行。
<!-- ... existing code ... --> <properties><java.version>17</java.version><maven.compiler.source>${java.version}</maven.compiler.source><maven.compiler.target>${java.version}</maven.compiler.target><spark.version>4.0.0</spark.version><scala.compat.version>2.13</scala.compat.version> </properties> <!-- ... existing code ... -->
-
添加 Spark Core 和 Spark SQL 依赖: 确保 Spark 核心库和 SQL 模块正确引入,并设置为
provided
范围,避免与应用程序的其他依赖冲突。<!-- ... existing code ... --> <dependencies><!-- ... existing dependencies ... --><dependency><groupId>org.apache.spark</groupId><artifactId>spark-core_${scala.compat.version}</artifactId><version>${spark.version}</version><scope>provided</scope><exclusions><exclusion><groupId>jakarta.servlet</groupId><artifactId>jakarta.servlet-api</artifactId></exclusion><exclusion><groupId>org.eclipse.jetty</groupId><artifactId>*</artifactId></exclusion></exclusions></dependency><dependency><groupId>org.apache.spark</groupId><artifactId>spark-sql_${scala.compat.version}</artifactId><version>${spark.version}</version><scope>provided</scope></dependency><!-- ... existing dependencies ... --> </dependencies> <!-- ... existing code ... -->
-
解决 Servlet API 兼容性问题: 为了解决
jakarta.servlet.SingleThreadModel
错误(Spark 4.0.0 内部仍在使用),我们显式排除了spark-core
中的jakarta.servlet-api
和org.eclipse.jetty
依赖,并手动引入了包含该类的较旧版本的 Servlet API (5.0.0)。<!-- ... existing code ... --> <dependency><groupId>jakarta.servlet</groupId><artifactId>jakarta.servlet-api</artifactId><version>5.0.0</version><scope>compile</scope> <!-- Or runtime, depending on specific need --> </dependency> <!-- ... existing code ... -->
注意: 这个问题在 Apache Spark Jira (SPARK-51434) 中有记录,并计划在 Spark 4.1.0 中修复。手动引入旧版本 Servlet API 是一个临时性的解决方案。
-
添加测试依赖: 解决
SparkDemoApplicationTests.java
中的编译错误,引入 Spring Boot 测试依赖。<!-- ... existing code ... --> <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-test</artifactId><version>3.5.0</version> <!-- Use an appropriate version --><scope>test</scope> </dependency> <!-- ... existing code ... -->
-
Maven Compiler Plugin 配置: 显式配置 Maven 编译器插件使用 JDK 17。
<!-- ... existing code ... --> <build><plugins><plugin><groupId>org.apache.maven.plugins</groupId><artifactId>maven-compiler-plugin</artifactId><version>3.11.0</version> <!-- Use an appropriate version --><configuration><source>${java.version}</source><target>${java.version}</target></configuration></plugin><!-- ... existing plugins ... --></plugins> </build> <!-- ... existing code ... -->
-
Maven Exec Plugin 配置: 配置
exec-maven-plugin
以便直接运行主类,并添加--add-opens
参数以解决 Java 模块化系统相关的运行时访问限制。<!-- ... existing code ... --> <plugin><groupId>org.codehaus.mojo</groupId><artifactId>exec-maven-plugin</artifactId><version>3.1.0</version> <!-- Use an appropriate version --><configuration><mainClass>Spark_RDD.RDDCreateExample</mainClass><executable>java</executable><arguments><argument>--add-opens</argument><argument>java.base/java.nio=ALL-UNNAMED</argument><argument>--add-opens</argument><argument>java.base/java.nio.channels=ALL-UNNAMED</argument><argument>--add-opens</argument><argument>java.base/java.lang=ALL-UNNAMED</argument><argument>--add-opens</argument><argument>java.base/java.util=ALL-UNNAMED</argument><argument>--add-opens</argument><argument>java.base/java.util.concurrent=ALL-UNNAMED</argument><argument>--add-opens</argument><argument>java.base/java.util.concurrent.atomic=ALL-UNNAMED</argument><argument>--add-opens</argument><argument>java.base/jdk.internal.misc=ALL-UNNAMED</argument><argument>--add-opens</argument><argument>java.base/sun.nio.ch=ALL-UNNAMED</argument><!-- Optional: For security manager if needed --><!-- <argument>-Djava.security.manager=allow</argument> --></arguments></configuration> </plugin> <!-- ... existing code ... -->
2.2 Java 环境配置
确保系统环境中的 Java 版本与项目要求一致是至关重要的。
-
设置
JAVA_HOME
环境变量:
通过在 shell 配置文件(如~/.zshrc
或~/.bashrc
)中设置JAVA_HOME
变量,并将其指向 JDK 17 的安装路径,可以确保 Maven 和其他工具使用正确的 Java 版本。export JAVA_HOME="/Library/Java/JavaVirtualMachines/openjdk-17.jdk/Contents/Home" export PATH="$JAVA_HOME/bin:$PATH"
修改后,请务必执行
source ~/.zshrc
(或~/.bashrc
) 使更改生效。 -
验证 Java 和 Maven 版本:
在终端中运行以下命令,验证 Java 版本和 Maven 使用的 Java 版本是否正确:java -version mvn --version
确保
java -version
显示的是17.x.x
,并且mvn --version
输出中 “Java version” 字段也指向 JDK 17。
2.3 Spark UI 禁用 (可选但推荐)
为了规避潜在的 Jetty 或 Servlet API 相关的运行时问题,可以通过 Spark 配置禁用 Spark UI,尤其是在只需要执行批处理任务时。在 RDDCreateExample.java
中添加以下配置:
// ... existing code ...
SparkConf conf = new SparkConf().setAppName("RDD Create").setMaster("local[*]").set("spark.ui.enabled", "false"); // Disable Spark UI
JavaSparkContext sc = new JavaSparkContext(conf);
// ... existing code ...
2.4 Maven Toolchains 尝试与经验
在解决 Java 版本问题时,我们曾尝试使用 Maven Toolchains 来管理不同 JDK 版本。尽管配置了 ~/.m2/toolchains.xml
,但遇到了 Cannot find matching toolchain definitions
和 Toolchain JDK[...] is missing required property: vendor
等错误。
经验总结:虽然 Maven Toolchains 是一个强大的工具,但在某些复杂的 Java 环境(特别是 macOS 上 OpenJDK 的安装路径和供应商识别)中,配置可能会比较棘手。在这种情况下,直接通过设置 JAVA_HOME
环境变量来管理 Java 版本,通常是更直接和有效的解决方案,特别是对于单一项目或开发环境。清理 Maven 本地仓库 (rm -rf ~/.m2/repository/*
) 有助于清除旧的或损坏的依赖,但在 Toolchains 配置问题中,它并未直接解决根本问题。
3. 最终结果
经过上述一系列的配置和调整,应用程序最终成功运行。日志中显示 Spark 应用程序使用了 Java version 17.0.15
,并且应用程序逻辑正确执行,输出了预期的结果。
成功运行的关键点:
- 在
pom.xml
中严格指定了 JDK 17。 - 解决了 Spark 4.0.0 与
jakarta.servlet.SingleThreadModel
之间的兼容性问题,通过手动排除和引入特定版本的 Servlet API。 - 通过设置
JAVA_HOME
确保了整个构建和运行环境都使用了正确的 Java 版本。