当前位置: 首页 > news >正文

Spark-Core(双Value类型)

一、RDD转换算子(双Value类型)

1、intersection

  • 函数签名:
def intersection(other: RDD[T]): RDD[T]
  • 函数说明:对源 RDD 和参数 RDD 求交集后返回一个新的 RDD

举栗:

val dataRDD1 = sparkContext.makeRDD(List(1,2,3,4))
val dataRDD2 = sparkContext.makeRDD(List(3,4,5,6))
val dataRDD = dataRDD1.intersection(dataRDD2)

2、 union

  • 函数签名:
def union(other: RDD[T]): RDD[T]

函数说明:对源 RDD 和参数 RDD 求并集后返回一个新的 RDD(重复数据不会去重)

举栗:

val dataRDD1 = sparkContext.makeRDD(List(1,2,3,4))
val dataRDD2 = sparkContext.makeRDD(List(3,4,5,6))
val dataRDD = dataRDD1.union(dataRDD2)

3、subtract

函数签名:

def subtract(other: RDD[T]): RDD[T]

函数说明:以源 RDD 元素为主,去除两个 RDD 中重复元素,将源RDD的其他元素保留下来。(求差集)

举栗:

val dataRDD1 = sparkContext.makeRDD(List(1,2,3,4))
val dataRDD2 = sparkContext.makeRDD(List(3,4,5,6))
val dataRDD = dataRDD1.subtract(dataRDD2)

4、zip

函数签名:

def zip[U: ClassTag](other: RDD[U]): RDD[(T, U)]

函数说明:将两个 RDD 中的元素,以键值对的形式进行合并。其中,键值对中的 Key 为第 1 个 RDD中的元素,Value 为第 2 个 RDD 中的相同位置的元素。

举栗:

val dataRDD1 = sparkContext.makeRDD(List("a","b","c","d"))
val dataRDD2 = sparkContext.makeRDD(List(1,2,3,4))
val dataRDD = dataRDD1.zip(dataRDD2)

相关文章:

  • 边缘计算,运维架构从传统的集中式向分布式转变
  • 亿级流量系统架构设计与实战(五)
  • Python 识别图片上标点位置
  • NVM完全指南:安装、配置与最佳实践
  • stm32常见错误
  • 网站网页经常 400 错误,清缓存后就好了的原因剖析
  • Python赋能自动驾驶:如何优化路径规划,让AI驾驶更聪明?
  • AI驱动的Kubernetes管理:kubectl-ai 如何简化你的云原生运维
  • SpringBoot3集成Mybatis
  • iPhone 和 Android 在日期格式方面的区别
  • 报表的那些事:四部演进史——架构视角下的技术跃迁与实战思考
  • java中try..catch如何捕捉超时的情况
  • LeetCode:对称二叉树
  • 编程日志4.27
  • RPA与After Effects 2024深度融合:自动化影视特效全链路革命
  • Unity垃圾回收(GC)
  • Spring Boot 中 AOP 的自动装配原理
  • 如何使用极狐GitLab 软件包仓库功能托管 npm?
  • 战术级微波干扰系统:成都鼎轻量化装备如何实现全频段智能压制?
  • http Status 400 - Bbad request 网站网页经常报 HTTP 400 错误,清缓存后就好了的原因
  • 阚吉林任重庆市民政局党组书记,原任市委组织部主持日常工作的副部长
  • 4月证券私募产品备案量创23个月新高,股票策略占比超六成
  • 可量产9MWh超大容量储能系统亮相慕尼黑,宁德时代:大储技术迈入新时代
  • 工程院院士葛世荣获聘任为江西理工大学校长
  • 央行设立服务消费与养老再贷款,额度5000亿元
  • 报告:4月份新增发行的1763亿元专项债中,投向房地产相关领域约717亿元