当前位置：首页 > news >正文

Buffer overFolw---Kryo序列化出现缓冲区溢出的问题解决

news 2025/10/14 9:39:42

问题：

由于我的数据量太大，我设置批次为10000万，50w数据大概有400M左右，然后进行spark数据处理时候报错为org.apache.spark.SparkException:Kryo serialization failed:Buffer overFolw.Available:0,rquired 58900977,To avoid this ,increase spark.kryoserializer.buffer.max value.......

先mark一下，晚点解决

问题分析:

问题解决：

这个问题经过我的测试以及设置，解决方案很简单，只需要添加一个参数就行

Spark 的配置中增加 spark.kryoserializer.buffer.max 的值，我一开始值只有128m,太小了，调整一下

--conf spark.kryoserializer.buffer.max=512m // 设置 Kryo 序列化缓冲区最大值

或者可以在代码里面直接加上

  .config("spark.kryoserializer.buffer.max", "512m")

就是这个参数，可以完美解决

查看全文

http://www.dtcms.com/a/88258.html

Spring Cache 实战指南

华为机试牛客刷题之HJ58 输入n个整数，输出其中最小的k个

掌握 Postman：高级 GET 请求技术与响应分析

Ubuntu22.04美化MacOS主题

什么是正文化

【CSS3】完整修仙功法

WordPress 代码高亮插件 io code highlight

【C++】string类字符串详细解析

SCI英文论文Accepted后的第一步——Rights and Access

Jenkins 集成 SonarQube 代码静态检查使用说明

【Rust】一文掌握 Rust 的详细用法（Rust 备忘清单）

python打包辅助工具

【视频】OpenCV：色彩空间转换、灰度转伪彩

react自定义hook

排序复习_代码纯享

batman-adv 优化：基于信号强度（RSSI）选择链路

SpringCloud配置中心：Config Server与配置刷新机制

使用 Python 和 python-pptx 构建 Markdown 到 PowerPoint 转换器

华为OD机试 - 核酸最快检测效率 - 动态规划、背包问题（Java 2024 E卷 200分）

深入理解 HTML5 Web Workers：提升网页性能的关键技术解析

基礎複分析習題3.複函數

今天你学C++了吗？——二叉搜索树的拓展

API-Arrays

【Python爬虫】使用python脚本拉取汽车网站品牌数据

1.NextJS基础

skynet网络包库（lua-netpack.c）的作用解析

关于大数据的基础知识（四）——大数据的意义与趋势

AQS是什么，使用应注意什么

【CXX-Qt】4.5 Traits

【AndroidRTC-11】如何理解webrtc的Source、TrackSink

问题：

问题分析:

问题解决：

相关文章：