当前位置: 首页 > wzjs >正文

网站建设需要经过哪几个步骤上海网站优化

网站建设需要经过哪几个步骤,上海网站优化,巴西有做amazon网站吗,代理龙华网站建设一、Spark-SQL 基础概念 1.定义与起源:Spark SQL 是 Spark 用于结构化数据处理的模块,前身是 Shark。Shark 基于 Hive 开发,提升了 SQL-on-Hadoop 的性能,但因对 Hive 依赖过多限制了 Spark 发展,后被 SparkSQL 取代&…

一、Spark-SQL 基础概念

1.定义与起源:Spark SQL 是 Spark 用于结构化数据处理的模块,前身是 Shark。Shark 基于 Hive 开发,提升了 SQL-on-Hadoop 的性能,但因对 Hive 依赖过多限制了 Spark 发展,后被 SparkSQL 取代,同时产生了 SparkSQL 和 Hive on Spark 两个发展方向。

2.特点:易整合,可无缝整合 SQL 查询和 Spark 编程;统一数据访问,以相同方式连接不同数据源;兼容 Hive,能在已有仓库上运行 SQL 或 HQL;支持标准数据连接,可通过 JDBC 或 ODBC 连接。

二、Spark-SQL 核心编程

1.SparkSession:是 Spark 最新的 SQL 查询起始点,封装了 SparkContext,整合了 SQLContext 和 HiveContext 的功能,在 spark-shell 中会自动创建名为 spark 的 SparkSession 对象。

2.DataFrame 操作

DataFrame 是一种以 RDD 为基础的分布式数据集,类似于传统数据库中 的二维表格

2.1创建方式:可通过 Spark 数据源(如 JSON 文件)、现有 RDD 转换或 Hive Table 查询返回创建。从文件读取数据时,数字类型默认以 bigint 接收 。

2.2查询语法:SQL 语法需借助临时视图或全局视图,先创建 DataFrame 再创建视图,然后用 SQL 语句查询;

DSL 语法可直接操作 DataFrame,无需创建视图,支持查看 Schema、选择列、运算、过滤、分组等操作。

       (1)创建一个 DataFrame

       ( 2)查看schema信息

       (3)只查看"username"列数据

       (4)查看"username"列数据以及"age+1"数据

df.select('username, 'age + 1).show()

        (5)查看"age"大于"18"的数据

        (6)按照"age"分组,查看数据条数

与 RDD 转换:RDD 转 DataFrame 可通过引入import spark.implicits._(spark-shell 中自动导入),并借助样例类实现;DataFrame 可直接获取内部 RDD,其存储类型为 Row。

RDD 转换为 DataFrame

DataFrame 转换为 RDD

    3.DataSet 操作

    DataSet 是分布式数据集合

    3.1创建方式:可使用样例类序列或基本类型序列创建,实际中常通过 RDD 得到 DataSet。

    (1)使用样例类序列创建 DataSet

    (2)使用基本类型的序列创建 DataSet

       3.2与 RDD 转换:包含 case 类的 RDD 可自动转换为 DataSet,DataSet 也可直接获取内部 RDD

      RDD 转换为 DataSet

      DataSet 转换为 RDD

      3.3与 DataFrame 转换:DataFrame 是 DataSet 的特例(DataFrame = DataSet[Row]),二者可相互转换,DataFrame 转 DataSet 需借助样例类,DataSet 转 DataFrame 使用toDF方法。

      DataFrame 转换为 DataSet

      DataSet 转换为 DataFrame

      三、RDD、DataFrame、DataSet 关系

      产生版本:RDD 在 Spark1.0 出现,DataFrame 在 Spark1.3 出现,DataSet 在 Spark1.6 出现。

      共性:都是 Spark 平台下的分布式弹性数据集,具有惰性机制,有共同函数,操作时多需import spark.implicits._,会自动缓存运算,都有分区概念,DataFrame 和 DataSet 可通过模式匹配获取字段信息。

      区别:RDD 常与 spark mllib 使用,不支持 sparksql 操作;DataFrame 每行类型为 Row,需解析获取字段值,与 DataSet 支持 SparkSQL 操作和便捷保存方式;DataSet 是强类型,每行数据类型取决于自定义 case class ,与 DataFrame 成员函数相同但每行数据类型不同。

      http://www.dtcms.com/wzjs/206087.html

      相关文章:

    1. 阿里云服务器搭建wordpress上海seo优化公司
    2. 做公司网站每年多少钱代做百度首页排名
    3. 移动app网站模板360浏览器网页版入口
    4. 商业网站域名东莞网站推广营销网站设计
    5. 静态网站 分页无锡seo网站排名
    6. 青岛谁优化网站做的好处手机360优化大师官网
    7. 凡科网站后台域名信息查询
    8. 什么专业会制作网站公司网络推广的作用
    9. 网站右下角图片广告代码网站的优化从哪里进行
    10. 百度注册入口广州百度推广优化排名
    11. 网站的文本链接怎么做抖音seo培训
    12. 谁可以教我做网站网络营销的成功案例
    13. 做微课的网站衡水seo优化
    14. 网站开发如何学习永久免费的培训学校管理软件
    15. 网站备案核seo机构
    16. 做门户网站用什么软件企业品牌营销推广
    17. 网站关停怎么做长沙网站优化公司
    18. 怎么做扫二维码登陆网站全世界足球排名国家
    19. 广东专业网站客服软件定制微信引流推广精准粉
    20. 网站建设需要缴纳印花税么最近时事新闻热点事件
    21. 深圳红酒网站建设58同城网站推广
    22. 湖南响应式网站建设seo流程
    23. 帮诈骗团伙做网站属于诈骗吗互联网推广员是做什么
    24. wordpress限制ip访问十堰seo优化
    25. wordpress不能安装排名优化公司哪家效果好
    26. 网站做qq登录界面今日热搜
    27. 房地产网站模板库网站站内推广怎么做
    28. 广西麒铭建设有限公司网站年轻人不要做网络销售
    29. 公司网站招聘板块怎么做关联词有哪些三年级
    30. 论坛网站免费建设模板下载关键词优化的策略有哪些