当前位置：首页 > wzjs >正文

做房产网站长在线捕鱼网站建设

wzjs 2025/9/20 3:40:02

做房产网站长,在线捕鱼网站建设,公司网站建设怎么选择主机大小,手工艺品外贸公司网站建设方案背景本文来从底层代码的实现来分析一下Starrocks怎么获取统计信息，这些统计信息在后续基于CBO的代价计算的时候有着重要的作用本文基于Starrrocks 3.3.5 结论 Starrocks的统计信息的收集是通过周期性的运行一系列的SQL（以分区为维度，如果…

背景

本文来从底层代码的实现来分析一下Starrocks怎么获取统计信息，这些统计信息在后续基于CBO的代价计算的时候有着重要的作用
本文基于Starrrocks 3.3.5

结论

Starrocks的统计信息的收集是通过周期性的运行一系列的SQL（以分区为维度，如果不是分区表，其实也有个默认的分区,也就是单个分区），之后插入到_statistics_.column_statistics表中,并会存储在 GlobalStateMgr.CachedStatisticStorage，后续所有的统计信息的获取也是通过这里获取的

分析

直接到StatisticAutoCollector类

    public StatisticAutoCollector() {super("AutoStatistic", Config.statistic_collect_interval_sec * 1000);}

这里默认的调度周期是 statistic_collect_interval_sec (也就是5分钟)

    @Overrideprotected void runAfterCatalogReady() {// update intervalif (getInterval() != Config.statistic_collect_interval_sec * 1000) {setInterval(Config.statistic_collect_interval_sec * 1000);}if (!Config.enable_statistic_collect || FeConstants.runningUnitTest) {return;}if (!checkoutAnalyzeTime(LocalTime.now(TimeUtils.getTimeZone().toZoneId()))) {return;}// check statistic table stateif (!StatisticUtils.checkStatisticTableStateNormal()) {return;}initDefaultJob();runJobs();}

强制调度周期设置为5分钟
进行调度时间的检查，默认是一天，也可以设置开始和结束时间,statistic_auto_analyze_start_time,statistic_auto_analyze_end_time
还可以设置enable_statistic_collect为false，如果不想进行统计信息的采集的话
initDefaultJob 初始化统计信息采集任务,默认是 enable_collect_full_statistic 为 true,也就是全量采集

runJobs 运行采集任务，也就是最核心的阶段

     protected List<StatisticsCollectJob> runJobs() {...Set<Long> analyzeTableSet = Sets.newHashSet();for (NativeAnalyzeJob nativeAnalyzeJob : allNativeAnalyzeJobs) {List<StatisticsCollectJob> jobs = nativeAnalyzeJob.instantiateJobs();result.addAll(jobs);ConnectContext statsConnectCtx = StatisticUtils.buildConnectContext();statsConnectCtx.setThreadLocalInfo();nativeAnalyzeJob.run(statsConnectCtx, STATISTIC_EXECUTOR, jobs);for (StatisticsCollectJob job : jobs) {if (job.isAnalyzeTable()) {analyzeTableSet.add(job.getTable().getId());}}}LOG.info("auto collect statistic on analyze job[{}] end", analyzeJobIds);if (Config.enable_collect_full_statistic) {LOG.info("auto collect full statistic on all databases start");List<StatisticsCollectJob> allJobs =StatisticsCollectJobFactory.buildStatisticsCollectJob(createDefaultJobAnalyzeAll());for (StatisticsCollectJob statsJob : allJobs) {// user-created analyze job has a higher priorityif (statsJob.isAnalyzeTable() && analyzeTableSet.contains(statsJob.getTable().getId())) {continue;}result.add(statsJob);AnalyzeStatus analyzeStatus = new NativeAnalyzeStatus(GlobalStateMgr.getCurrentState().getNextId(),statsJob.getDb().getId(), statsJob.getTable().getId(), statsJob.getColumnNames(),statsJob.getType(), statsJob.getScheduleType(), statsJob.getProperties(), LocalDateTime.now());analyzeStatus.setStatus(StatsConstants.ScheduleStatus.FAILED);GlobalStateMgr.getCurrentState().getAnalyzeMgr().addAnalyzeStatus(analyzeStatus);ConnectContext statsConnectCtx = StatisticUtils.buildConnectContext();statsConnectCtx.setThreadLocalInfo();STATISTIC_EXECUTOR.collectStatistics(statsConnectCtx, statsJob, analyzeStatus, true);}LOG.info("auto collect full statistic on all databases end");}...return result;}

nativeAnalyzeJob.instantiateJobs 构造统计信息
这里调用了StatisticsCollectJobFactory.buildStatisticsCollectJob 方法,
首先这里有个配置 statistic_exclude_pattern可以排除不需要进行统计的表（以db.table格式）
其次是会根据当前所谓的健康度（也就是分区更新的时间比例）和statistic_auto_collect_ratio大小比较，如果健康度小于该值，则调用createFullStatsJob方法，创建全量统计任务。
这里主要用 buildStatisticsCollectJob 构造一个FullStatisticsCollectJob类型的job

nativeAnalyzeJob.run 运行统计信息任务
这个方法会调用StatisticExecutor.collectStatistics，最终会调用FullStatisticsCollectJob.collect方法

 int parallelism = Math.max(1, context.getSessionVariable().getStatisticCollectParallelism());List<List<String>> collectSQLList = buildCollectSQLList(parallelism);long totalCollectSQL = collectSQLList.size();...Exception lastFailure = null;for (List<String> sqlUnion : collectSQLList) {if (sqlUnion.size() < parallelism) {context.getSessionVariable().setPipelineDop(parallelism / sqlUnion.size());} else {context.getSessionVariable().setPipelineDop(1);}String sql = Joiner.on(" UNION ALL ").join(sqlUnion);try {collectStatisticSync(sql, context);} catch (Exception e) {...}finishedSQLNum++;analyzeStatus.setProgress(finishedSQLNum * 100 / totalCollectSQL);GlobalStateMgr.getCurrentState().getAnalyzeMgr().addAnalyzeStatus(analyzeStatus);}...flushInsertStatisticsData(context, true);

首先设置一个运行sql的并行度statistic_collect_parallel默认是1，这个意思就是这个统计sql会分多少次运行
buildCollectSQLList 这里会构建具体运行统计信息的SQL，这会具体的分区级别

collectStatisticSync 这里会执行具体的SQL
SQL如下：

 SELECT cast(4 as INT) ,cast($partitionId as BIGINT) ,'$columnNameStr' ,cast(COUNT(1) as BIGINT) ,cast($dataSize as BIGINT) ,hex(hll_serialize(IFNULL(hll_raw(column_key), hll_empty()))),cast( (COUNT(1) - COUNT(column_key)) as BIGINT) ,MAX(column_key) ,MIN(column_key) FROM (select $quoteColumnName as column_key from `$dbName`.`$tableName` partition `$partitionName`) tt

flushInsertStatisticsData 这里会把执行的结果数据存储到_statistics_.column_statistics

analyzeMgr.refreshBasicStatisticsCache 这个主要的作用是更新CachedStatisticStorage 里的统计信息
主要通过 refreshTableStatistic 和 getColumnStatistics
这两个方法分别会调用 TableStatsCacheLoader 和 ColumnBasicStatsCacheLoader 去执行SQL从而获取对应的统计信息，调用的SQL如下：

  select cast(3 as INT), partition_id, any_value(row_count)FROM  column_statisticsWHERE table_id = $tableId  and partition_id =  $partitionIdGROUP BY partition_id;

  SELECT cast( 1  as INT), $updateTime, db_id, table_id, column_name,sum(row_count), cast(sum(data_size) as bigint), hll_union_agg(ndv), sum(null_count), cast(max(cast(max as $type)) as string), cast(min(cast(min as $type)) as string)FROM   column_statisticsWHERE table_id = $table_id and column_name in (xxx,xxx,xxx)GROUP BY db_id, table_id, column_name;

其他

StatisticAutoCollector 是通过周期性的任务来进行统计信息的收集

手动的收集
ANALYZE TABLE
如命令：

ANALYZE [FULL|SAMPLE] TABLE tbl_name (col_name [,col_name])
[WITH SYNC | ASYNC MODE]
PROPERTIES (property [,property])

手动触发自动收集
CREATE ANALYZE
如命令：

CREATE ANALYZE [FULL|SAMPLE] TABLE tbl_name (col_name [,col_name])
PROPERTIES (property [,property])

以上都会触发统计信息的收集。

查看全文

http://www.dtcms.com/wzjs/799563.html

浙江杰立建设集团网站首页wordpress雄欲

网站建站基础个人简历(电子版)

英文网站建设需要注意的五点问题湟中县公司网站建设

网站平台建设多少钱门户网站建设推广

网站菜单代码腾讯会议价格

浙江省建设职业注册中心网站南昌定制网站开发多少钱

seo做的最好的网站排行企业宣传片背景音乐

百度采购网官方网站信用中国网站有那个部门支持建设

嘉定装饰装修网站小程序商城系统平台

沧州网站建设优化案例免费网站自助建站

英语教育网站建设网站开发佛山

建站赚钱灰色win2003做网站

织梦系统网站首页空白南京模板网站建设

网站显示危险网站中国光刻机最新消息

一个工厂做网站有什么好处口碑好的南昌网站建设

外国广告公司网站怎么在手机上做企业网站

长沙别墅图纸网站建设福建省建设局实名制网站

青岛中小微企业互联网站建设补贴logo设计在线生成免费版

做外贸女装有哪些网站有哪些科技服务网站建设app 小程序

建设网站五个步骤定制家具十大品牌

网站开发的权限设置网站加支付功能

站长工具排行榜网站关键词排名优化工具

个人网站做产品企业所得税怎么算的

浙江省建设执业资格中心网站p2p网站开发的流程

国内做焊接机器人平台网站企业文化简介网站怎么做

新开的网站怎么做推广网站展示模板免费下载

推广页面制作百度关键词优化的方法

专业网站建设制作公司利用国外网站文章图片做书营利

如何做简易的网站大连金州高级中学

湖北网站开发公司石英手表网站

背景

结论

分析

其他

相关文章：