运行Spark程序-在Idea中
在IntelliJ IDEA中运行Spark程序需要以下步骤:
- 项目创建与配置
- 新建Maven/SBT项目
- 添加依赖配置(pom.xml示例):
<dependency><groupId>org.apache.spark</groupId><artifactId>spark-core_2.12</artifactId><version>3.3.2</version>
</dependency>
- 环境配置
val spark = SparkSession.builder().appName("SimpleApp").master("local[*]") // 本地模式运行.getOrCreate()
- 编写示例代码(WordCount):
object WordCount {def main(args: Array[String]): Unit = {val spark = SparkSession.builder().getOrCreate()val textFile = spark.sparkContext.textFile("input.txt")val counts = textFile.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey(_ + _)counts.saveAsTextFile("output")spark.stop()}
}
- 运行配置
- 设置VM参数(Edit Configurations):
-Dspark.master=local[*] -Xmx4g
- 日志处理 创建log4j.properties文件:
log4j.rootCategory=WARN, console
log4j.appender.console=org.apache.log4j.ConsoleAppender
常见问题处理:
- Windows环境需配置winutils.exe
- 依赖冲突时使用
mvn dependency:tree
分析 - 本地模式内存不足时调整
-Xmx
参数
部署到集群:
spark-submit --class WordCount \
--master yarn \
your-application.jar