当前位置: 首页 > wzjs >正文

松江网站建设360搜索引擎首页

松江网站建设,360搜索引擎首页,汕头建站模板,wordpress 去掉超链接背景 写这个文章的原因是为了了解一下Starrocks对各个算子的代价是怎么计算的,以便在后续对Starrocks做优化的时候,能够起到辅助作用 本文基于 Starrocks 3.3.5 结论 StatisticsCalculator 通过获取底层数据源的统计信息而进行自上而下的数据信息的统…

背景

写这个文章的原因是为了了解一下Starrocks对各个算子的代价是怎么计算的,以便在后续对Starrocks做优化的时候,能够起到辅助作用
本文基于 Starrocks 3.3.5

结论

StatisticsCalculator 通过获取底层数据源的统计信息而进行自上而下的数据信息的统计,这些统计信息的计算大部分也是估算获得的。

分析

直接到 StatisticsCalculator 类中(该类会被DeriveStatsTask调用),这个类采用的典型的Visitor模式,对于不同的算子,会进入到不同的方法中去:
这里我们分析三种算子:

1. Scan olap
2. Filter
3. Projection

其他的算子可以看源码实现。

  1. Scan olap算子
   @Overridepublic Void visitLogicalOlapScan(LogicalOlapScanOperator node, ExpressionContext context) {return computeOlapScanNode(node, context, node.getTable(), node.getSelectedPartitionId(),node.getColRefToColumnMetaMap());}@Overridepublic Void visitPhysicalOlapScan(PhysicalOlapScanOperator node, ExpressionContext context) {return computeOlapScanNode(node, context, node.getTable(), node.getSelectedPartitionId(),node.getColRefToColumnMetaMap());}private Void computeOlapScanNode(Operator node, ExpressionContext context, Table table,Collection<Long> selectedPartitionIds,Map<ColumnRefOperator, Column> colRefToColumnMetaMap) {Preconditions.checkState(context.arity() == 0);// 1. get table row countlong tableRowCount = StatisticsCalcUtils.getTableRowCount(table, node, optimizerContext);// 2. get required columns statisticsStatistics.Builder builder = StatisticsCalcUtils.estimateScanColumns(table, colRefToColumnMetaMap, optimizerContext);if (tableRowCount <= 1) {builder.setTableRowCountMayInaccurate(true);}// 3. deal with column statistics for partition pruneOlapTable olapTable = (OlapTable) table;adjustPartitionColsStatistic(selectedPartitionIds, olapTable, builder, colRefToColumnMetaMap);builder.setOutputRowCount(tableRowCount);if (isRewrittenMvGE(node, table, context)) {adjustNestedMvStatistics(context.getGroupExpression().getGroup(), (MaterializedView) olapTable, builder);if (node.getProjection() != null) {builder.setShadowColumns(node.getProjection().getOutputColumns());}}// 4. estimate cardinalitycontext.setStatistics(builder.build());return visitOperator(node, context);}

这个也是统计信息的来源,其他算子的统计信息都是基于此类算子计算出来的。

  • StatisticsCalcUtils.getTableRowCount 首先计算行数
    该方法会首先获取到扫描的分区数,之后再从CachedStatisticStorage获取到对应分区的行数信息,从而累加,最小为1行
  • StatisticsCalcUtils.estimateScanColumns 获取到对应列的统计信息
    该方法也是从CachedStatisticStorage 获取ColumnStatisticsHistogramStatistics信息
  • 如果行数只有一行,那就标记为统计信息不准确
  • 调增分区列的统计信息
  • visitOperator 这里会对scan涉及到的谓词以及 limit projection 做进一步的统计分析
    对于不同的谓词,利用 BaseCalculatingVisitor / LargeOrCalculatingVisitor 进行统计,比如说 in / or / and等
    对于projection 利用 ExpressionStatisticVisitor类进行统计
  1. Filter算子
    @Overridepublic Void visitLogicalFilter(LogicalFilterOperator node, ExpressionContext context) {return computeFilterNode(node, context);}@Overridepublic Void visitPhysicalFilter(PhysicalFilterOperator node, ExpressionContext context) {return computeFilterNode(node, context);}private Void computeFilterNode(Operator node, ExpressionContext context) {Statistics inputStatistics = context.getChildStatistics(0);Statistics.Builder builder = Statistics.builder();builder.addColumnStatistics(inputStatistics.getColumnStatistics());builder.setOutputRowCount(inputStatistics.getOutputRowCount());context.setStatistics(builder.build());return visitOperator(node, context);}
  • 对于filter操作来说 ,也是沿用了子节点的统计信息,所以说filter这一层级统计信息和子节点是一致的
  1. Projection算子
@Overridepublic Void visitLogicalProject(LogicalProjectOperator node, ExpressionContext context) {return computeProjectNode(context, node.getColumnRefMap());}@Overridepublic Void visitPhysicalProject(PhysicalProjectOperator node, ExpressionContext context) {return computeProjectNode(context, node.getColumnRefMap());}private Void computeProjectNode(ExpressionContext context, Map<ColumnRefOperator, ScalarOperator> columnRefMap) {Preconditions.checkState(context.arity() == 1);Statistics.Builder builder = Statistics.builder();Statistics inputStatistics = context.getChildStatistics(0);builder.setOutputRowCount(inputStatistics.getOutputRowCount());Statistics.Builder allBuilder = Statistics.builder();allBuilder.setOutputRowCount(inputStatistics.getOutputRowCount());allBuilder.addColumnStatistics(inputStatistics.getColumnStatistics());for (ColumnRefOperator requiredColumnRefOperator : columnRefMap.keySet()) {ScalarOperator mapOperator = columnRefMap.get(requiredColumnRefOperator);if (mapOperator instanceof SubfieldOperator && context.getOptExpression() != null) {Operator child = context.getOptExpression().inputAt(0).getOp();if (child instanceof LogicalScanOperator || child instanceof PhysicalScanOperator) {addSubFiledStatistics(child, ImmutableMap.of(requiredColumnRefOperator,(SubfieldOperator) mapOperator), builder);continue;}}ColumnStatistic outputStatistic =ExpressionStatisticCalculator.calculate(mapOperator, allBuilder.build());builder.addColumnStatistic(requiredColumnRefOperator, outputStatistic);allBuilder.addColumnStatistic(requiredColumnRefOperator, outputStatistic);}context.setStatistics(builder.build());return visitOperator(context.getOp(), context);}

对于Projection来说,也是根据不同的 Projection 算子来做区别对待的(也是用ExpressionStatisticVisitor类),如case when操作,函数操作等,这些对应的列的最大值和最小值都是不一样的

http://www.dtcms.com/wzjs/320484.html

相关文章:

  • 怎么做网站安全检测本网站三天换一次域名
  • 做网站用什么后台网络营销过程步骤
  • 互联网公司排名前1000个百度seo引流怎么做
  • 网站程序的设计费用亚马逊关键词搜索器
  • 建网站盈利的几种方式个人网站源码免费下载
  • 大型网站建设济南兴田德润团队怎么样百度投诉电话24小时
  • 微软哪个软件做网站叶涛网站推广优化
  • 建立网络平台需要什么武汉seo公司排名
  • 红河蒙自网站开发百度百度一下首页
  • 工信部查询网站备案英雄联盟韩国
  • 美仑美家具的网站谁做的推广方案模板
  • 河北建筑培训网实名认证百度刷排名优化软件
  • 网站建设竞争对手分析长沙百度网站优化
  • 苏州哪家公司做网站网页制作代码html制作一个网页
  • 孝义网站开发公司自媒体怎么做
  • 云南网站建设首选公司2024小学生时事新闻十条
  • 做家教需要什么哪个网站的会员外链购买平台
  • 热 综合-网站正在建设中-手机版品牌如何推广
  • wordpress the postseo外链自动群发工具
  • 建程网信息可靠吗百度seo优化是做什么的
  • 做网站的视频台州关键词首页优化
  • 深圳网站建设专业公司广告关键词
  • thinkphp 网站源码建立网站一般要多少钱
  • 哪里可以做企业网站指数运算法则
  • 合肥网站建设优化百度经验首页登录官网
  • php网站开发开题报告推广普通话的意义
  • 移动端网站建设公司seo推广和百度推广的区别
  • 狮岭做网站百度霸屏推广一般多少钱
  • 湖北长安建设网站指数函数和对数函数
  • 医疗营销的网站怎么做搜索引擎入口大全