当前位置: 首页 > news >正文

数据的聚合

  1. 聚合可以实现对文档数据的统计,分析,运算,聚合常见有三类(聚合的值一定不能是text类型的):

    桶(Bucket)聚合:用来对文档做分组。

    度量(Metric)聚合:用以计算一些值,比方说最大值,最小值,平均值等。

    管道(pipeline)聚合:其它聚合的结果为基础进行聚合。

    参与聚合的字段类型:keyword,数值,日期,布尔。

  1. DSL实现Bucket聚合

    lasticsearch 的 Bucket 聚合(桶聚合)是将文档分组到 "桶" 中的强大工具,类似于 SQL 中的GROUP BY。每个桶关联一个条件,符合条件的文档会被分到对应的桶中。

    Terms聚合

    • 场景:统计博客文章中每个标签的文档数量。

    • GET /blog/_search
      {"size": 0,  // 不返回原始文档,只返回聚合结果"aggs": {"tags": {"terms": {"field": "tags.keyword",  // 使用keyword类型避免分词"size": 10,  // 返回前10个最常见的标签"order": {"_count": "desc"  // 按文档数量降序排序}}}}
      }
      结果示例
      {"aggregations": {"tags": {"doc_count_error_upper_bound": 0,"sum_other_doc_count": 15,"buckets": [{"key": "elasticsearch","doc_count": 25},{"key": "java","doc_count": 18}]}}
      }
      //大多数 Bucket 聚合默认按文档数量(_count)降序排序。
      //按文档数量排序DSL演示
      GET /products/_search
      {"size": 0,"aggs": {"by_category": {"terms": {"field": "category.keyword","order": {"_count": "desc"  // 按文档数量降序(默认)}}}}
      }
      //结果演示
      {"aggregations": {"by_category": {"buckets": [{ "key": "electronics", "doc_count": 120 },{ "key": "clothing", "doc_count": 80 },{ "key": "books", "doc_count": 50 }]}}
      }
      //场景:只对价格大于 100 的商品进行类别聚合
      //DSL示例
      GET /products/_search
      {"query": {"range": {"price": {"gt": 100}}},"size": 0,"aggs": {"by_category": {"terms": {"field": "category.keyword"}}}
      }
      //结果显示
      {"aggregations": {"by_category": {"buckets": [{"key": "electronics","doc_count": 100,"expensive_products": {"doc_count": 75,  // 价格>100的电子产品数量"count": {"value": 75}}}]}}
      }
       
    • aggs代表聚合,与query同级,此时query的作用是限定聚合的的文档范围

    • 聚合必须的三要素

      • 聚合名称

      • 聚合类型

      • 聚合字段

    • 聚合可配置的属性有:size:指定聚合结果数量,order指定聚合结果排序方式,field指定聚合字段。

  2. DSL实现Metric聚合

    计算所有产品的平均价格

    GET /products/_search
    {"size": 0,  // 不返回原始文档"aggs": {"avg_price": {"avg": {"field": "price"}}}
    }
    //结果显示
    {"aggregations": {"avg_price": {"value": 125.5  // 平均价格}}
    }

    嵌套聚合metric聚合的组合使用

    //按类别分组,计算每个类别的平均价格、最高价格和最低价格。
    GET /products/_search
    {"size": 0,"aggs": {"by_category": {"terms": {"field": "category.keyword"},"aggs": {"avg_price": { "avg": { "field": "price" } },"max_price": { "max": { "field": "price" } },"min_price": { "min": { "field": "price" } },"price_stats": { "stats": { "field": "price" } }}}}
    }

    在java中进行聚合

    import org.elasticsearch.action.search.SearchRequest;
    import org.elasticsearch.action.search.SearchResponse;
    import org.elasticsearch.client.RequestOptions;
    import org.elasticsearch.client.RestHighLevelClient;
    import org.elasticsearch.index.query.QueryBuilders;
    import org.elasticsearch.search.aggregations.AggregationBuilders;
    import org.elasticsearch.search.aggregations.bucket.filter.Filter;
    import org.elasticsearch.search.aggregations.bucket.terms.Terms;
    import org.elasticsearch.search.builder.SearchSourceBuilder;
    ​
    import java.io.IOException;
    ​
    public class FilterAggregationExample {private final RestHighLevelClient client;public FilterAggregationExample(RestHighLevelClient client) {this.client = client;}public void filterAggregation() throws IOException {SearchRequest searchRequest = new SearchRequest("products");SearchSourceBuilder searchSourceBuilder = new SearchSourceBuilder();// 构建按类别分组的聚合,在每个类别中过滤价格>100的商品searchSourceBuilder.aggregation(AggregationBuilders.terms("by_category").field("category.keyword").subAggregation(AggregationBuilders.filter("expensive_products",QueryBuilders.rangeQuery("price").gt(100)).subAggregation(AggregationBuilders.valueCount("count").field("id"))));searchRequest.source(searchSourceBuilder);SearchResponse response = client.search(searchRequest, RequestOptions.DEFAULT);// 处理聚合结果Terms byCategory = response.getAggregations().get("by_category");for (Terms.Bucket bucket : byCategory.getBuckets()) {String category = bucket.getKeyAsString();long totalCount = bucket.getDocCount();Filter expensiveProducts = bucket.getAggregations().get("expensive_products");long expensiveCount = expensiveProducts.getDocCount();System.out.println("Category: " + category + ", Total: " + totalCount + ", Expensive: " + expensiveCount);}}
    }

相关文章:

  • GlusterFS分布式文件系统
  • TBvision 静态测试以及生成报告教程
  • <script> 标签的 async 与 defer 属性详解
  • 分子亚型 (by deepseek)
  • 突然虚拟机磁盘只剩下几十K
  • 硬件测试 图吧工具箱分享(附下载链接)
  • 54、错误处理-【源码流程】异常处理流程
  • 【学习笔记】QUIC
  • 【斤斤计较的小Z——KMP / hash】
  • 【IQA技术专题】图像质量评价IQA技术和应用综述(万字长文!!)
  • 【20】番茄叶片病害数据集(有v5/v8模型)/YOLO番茄叶片病害检测
  • 嵌入式系统内核镜像相关(三)
  • 【普及/提高−】P1025 ——[NOIP 2001 提高组] 数的划分
  • C++实现数学功能
  • 2024年12月6级第二套第一篇
  • c++中main函数执行完后还执行其它语句吗?
  • Web APIS Day04
  • VOSK 离线中文语音识别实战:精准转文字、格式避坑全解析
  • 分类数据集 - 植物分类数据集下载
  • MySQL面试题(含答案),从简单到深入
  • 企业网站的主要功能板块/360投放广告怎么收费
  • 做微网站公司/阿里巴巴国际站
  • 免费的推广渠道有哪些/优化seo方案
  • 贵州做旅游的网站/今日热搜新闻头条
  • 网站设计过程中需要注意的问题/北京自动网络营销推广
  • 深圳最好的活动策划公司/关键词排名seo优化