Spark external shuffle service
yarn external shuffle service
参考链接:
- https://mp.weixin.qq.com/s/ZggMnX2r4uj8TrzUPTMLhQ
shuffle过程包括shuffle read和shuffle write两个过程。对于spark on yarn,shuffle write是container写数据到本地磁盘(路径由core-site.xml中hadoop.tmp.dir指定)过程;shuffle read是container请求external shuffle服务获取数据过程,external shuffle是NodeManager进程中的一个服务,默认端口是7337,或者通过spark.shuffle.service.port指定。