当前位置：首页 > news >正文

38、spark读取hudi报错：java.io.NotSerializableException: org.apache.hadoop.fs.Path

news 2025/10/1 7:50:16

场景：spark.table()的方式读取hudi映射的hive表。
开源组件版本：
spark 2.4.5_2.11
hudi 0.10.0
hive 3.1.0
hadoop 2.8.5

报错代码：

spark.table("dwd.dwd_card_menu_a_1d")
.show(false)

报错日志：

Caused by: org.apache.spark.SparkException: Job aborted due to stage failure: Failed to serialize task 0, not attempting to retry it. Exception during serialization: java.io.NotSerializableException: org.apache.hadoop.fs.Path
Serialization stack:- object not serializable (class: org.apache.hadoop.fs.Path, value: obs://xxxxx/user/hive/warehouse/dwd.db/dwd_card_menu_a_1d)- element of array (index: 0)- array (class [Ljava.lang.Object;, size 1)- field (class: scala.collection.mutable.WrappedArray$ofRef, name: array, type: class [Ljava.lang.Object;)- object (class scala.collection.mutable.WrappedArray$ofRef, WrappedArray(obs://xxxxxx/user/hive/warehouse/dwd.db/dwd_card_menu_a_1d))- writeObject data (class: org.apache.spark.rdd.ParallelCollectionPartition)- object (class org.apache.spark.rdd.ParallelCollectionPartition, org.apache.spark.rdd.ParallelCollectionPartition@691)- field (class: org.apache.spark.scheduler.ResultTask, name: partition, type: interface org.apache.spark.Partition)- object (class org.apache.spark.scheduler.ResultTask, ResultTask(0, 0))at org.apache.spark.scheduler.DAGScheduler.org$apache$spark$scheduler$DAGScheduler$$failJobAndIndependentStages(DAGScheduler.scala:1891)at org.apache.spark.scheduler.DAGScheduler$$anonfun$abortStage$1.apply(DAGScheduler.scala:1879)at org.apache.spark.scheduler.DAGScheduler$$anonfun$abortStage$1.apply(DAGScheduler.scala:1878)at scala.collection.mutable.ResizableArray$class.foreach(ResizableArray.scala:59)at scala.collection.mutable.ArrayBuffer.foreach(ArrayBuffer.scala:48)at org.apache.spark.scheduler.DAGScheduler.abortStage(DAGScheduler.scala:1878)at org.apache.spark.scheduler.DAGScheduler$$anonfun$handleTaskSetFailed$1.apply(DAGScheduler.scala:927)at org.apache.spark.scheduler.DAGScheduler$$anonfun$handleTaskSetFailed$1.apply(DAGScheduler.scala:927)at scala.Option.foreach(Option.scala:257)at org.apache.spark.scheduler.DAGScheduler.handleTaskSetFailed(DAGScheduler.scala:927)at org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.doOnReceive(DAGScheduler.scala:2112)at org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.onReceive(DAGScheduler.scala:2061)at org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.onReceive(DAGScheduler.scala:2050)at org.apache.spark.util.EventLoop$$anon$1.run(EventLoop.scala:49)at org.apache.spark.scheduler.DAGScheduler.runJob(DAGScheduler.scala:738)at org.apache.spark.SparkContext.runJob(SparkContext.scala:2061)at org.apache.spark.SparkContext.runJob(SparkContext.scala:2082)at org.apache.spark.SparkContext.runJob(SparkContext.scala:2101)at org.apache.spark.SparkContext.runJob(SparkContext.scala:2126)at org.apache.spark.rdd.RDD$$anonfun$collect$1.apply(RDD.scala:990)at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:151)at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:112)at org.apache.spark.rdd.RDD.withScope(RDD.scala:385)at org.apache.spark.rdd.RDD.collect(RDD.scala:989)at org.apache.spark.api.java.JavaRDDLike$class.collect(JavaRDDLike.scala:361)at org.apache.spark.api.java.AbstractJavaRDDLike.collect(JavaRDDLike.scala:45)at org.apache.hudi.client.common.HoodieSparkEngineContext.map(HoodieSparkEngineContext.java:100)at org.apache.hudi.metadata.FileSystemBackedTableMetadata.getAllPartitionPaths(FileSystemBackedTableMetadata.java:81)at org.apache.hudi.common.fs.FSUtils.getAllPartitionPaths(FSUtils.java:291)

org.apache.hadoop.fs.Path 未实现java.io.serializabe。因为 Hudi-0.10.0 在 Spark 2.4.5 下会把 Path 对象放进 ParallelCollectionRDD 的闭包，而 Path 不可序列化。

解决办法:

很简单，在sparkConf中设置spark的序列化为：KryoSerializer

new SparkConf().set("spark.serializer", classOf[KryoSerializer].getName)

查看全文

http://www.dtcms.com/a/427043.html

三年级上册语文快乐读书吧读书笔记+知识点（格林童话、安徒生童话、稻草人）+三年级语文快乐读书吧笔记汇总+完整电子版可下载打印

迅为Hi3516CV610开发板强劲内核-海思Hi3516CV610核心板

网站开发可以当程序员wordpress 怎么迁移

babelfish for postgresql 分析--babelfishpg_tds--doing

手机网站排行榜焦作专业网站建设费用

小程序开发：开启定制化custom-tab-bar但不生效问题，以及使用NutUI-React Taro的安装和使用

避坑指南：关于文件夹加密软件（以“文件夹加密超级大师”为例）卸载前的正确操作流程

用矩阵实现元素绕不定点旋转

Web UI自动化测试学习系列5--基础知识1--常用元素定位1

大模型-扩散模型(Diffusion Model)原理讲解（2）

一文讲解反射、注解

学习日报 20250930｜优惠券事务处理模块

【Nest.js】模块之间依赖关系，以及导出导入链的完整性

MyBatis —— 多表操作和注解开发

自动化脚本的自动化执行实践

有颜二维码 1.0.5| 告别单调，一键生成有颜色的二维码

信创浪潮下的国产组态软件——紫金桥RealSCADA

做网站新闻移动动态网络规划设计师资料及视频教程

机器学习之三大学习范式：监督学习、无监督学习、强化学习

18002.机器人电机姿态控制

mysql语句基本操作之select查询

做mp3链接的网站宁波专业seo外包

Spring Boot 集成 EHCache 缓存解决方案

Spring Boot 缓存与验证码生成

进攻------绕后------互换野区

Unity 3D笔记（脚本部分）——《B站阿发你好》

C++之类的组合

服装购物网站策划书wordpress菜单栏移动下移

【第五章:计算机视觉-项目实战之生成对抗网络实战】1.对抗生成网络原理-(1)对抗生成网络算法基础知识：基本思想、GAN的基本架构、应用场景、标注格式

win10软实时设置

报错代码：

解决办法:

相关文章：