当前位置: 首页 > news >正文

无锡的网站建设公司成都到西安需要核酸检测吗

无锡的网站建设公司,成都到西安需要核酸检测吗,广州网站设计建站,石家庄房产网新楼盘在售楼盘相信经常使用 Elasticsearch 的小伙伴,难免要到 ES 官网查找资料,文档内容多难以查找不说,还有很多个版本,加上各种生态工具如 Filebeat、Logstash 头就更大了。今天我来介绍如何使用 Coco AI 快速搜索 Elasticsearch 官方文档。在…

相信经常使用 Elasticsearch 的小伙伴,难免要到 ES 官网查找资料,文档内容多难以查找不说,还有很多个版本,加上各种生态工具如 Filebeat、Logstash 头就更大了。今天我来介绍如何使用 Coco AI 快速搜索 Elasticsearch 官方文档。在之前的文章中,我们介绍了如何将 MongoDB 数据摄入到Coco AI 中实现检索,感兴趣的小伙伴可以点这里查看。

在之前的文章中,我们介绍过通过爬虫程序爬取 Blog 数据写入 Easysearch 集群的方法,详情请戳这里。这次我们在原来的框架下,新建立一个 es-docs 爬虫,修改下原来的代码就行了。

建立新爬虫

cd infini_spiders/spiders
scrapy genspider es-docs www.elastic.co

会创建新的 es-docs.py 文件。

Connector & Datasource

之前用 Coco AI 管理平台创建过 Connector 和 Datasource,这次我们直接放到爬虫程序中,通过 Easyearch 的 API 创建,不是 Coco AI 的 API 大家不要混淆了,以后有机会再介绍通过 Coco AI 的 API 创建。

程序开始,我们先检查 Easysearch 集群 coco_connector 索引中是否已经存在 doc_id 为 elasticsearch 的文档,如果不存在就创建相应的 Connector 和 Datasource。如果你之前通过管理平台创建了 elasticsearch 的 Connector 和 Datasource,就改下查询判断条件。

import scrapy
from pprint import pprint
from elasticsearch import Elasticsearch
import sysdef doc_exists(index, doc_id):return es.exists(index=index, id=doc_id)# 连接到Elasticsearch
with Elasticsearch("https://192.168.56.102:9200",http_auth=('admin', '56939c1f6527d1a0d51c'),use_ssl=True,verify_certs=False,ssl_show_warn=False) as es:# 检查连接是否成功if not es.ping():print("Elasticsearch连接失败!")sys.exit(1)else:print("Elasticsearch连接成功!")# 示例:检查 ID=elasticsearch 的文档是否存在if not (doc_exists("coco_connector", "elasticsearch")):connector = {'name': 'elasticsearch connector','category': 'website','icon': 'font_hugo-web'}pprint("创建 elasticsearch connector...")response = es.create(index='coco_connector',body=connector,id='elasticsearch')if response['result'] == 'created':print("创建成功")#pprint(response['_id'])datasource = {'name': 'elasticsearch datasource','id': 'elasticsearch','type': 'connector','connector': {'id': 'elasticsearch',},'sync_enabled': False,'enabled': True}pprint("创建 elasticsearch datasource...")response = es.create(index='coco_datasource',body=datasource,id='elasticsearch')if response['result'] == 'created':print("创建成功")

Elasticsearch Docs

创建完 Connector 和 Datasource 后,我们就可以去爬取 Elasticsearch 官方文档了。通过变量 version 定义要爬取的版本,从 start_url 开始,把所有的页面的文本都提取回来,形成 Coco AI 需要的格式,写入 Easysearch。

class EsDocsSpider(scrapy.Spider):name = "es-docs"allowed_domains = ["www.elastic.co"]version = "7.10"base_url = "https://www.elastic.co/guide/en/elasticsearch/reference/" + version + "/"start_urls = [base_url + "index.html"]tags = ["elastic-docs"]type_ = "elastic docs"category = "Elasticsearch-docs" + '_' + versiondef parse(self, response):chapter_links = response.css('span.chapter a::attr(href)').getall()yield from response.follow_all(chapter_links, self.parse_blog)section_links = response.css('span.section a::attr(href)').getall()yield from response.follow_all(section_links, self.parse_blog)part_links = response.css('span.part a::attr(href)').getall()return response.follow_all(part_links, self.parse_blog)def parse_blog(self, response):title = response.css('h1.title::text').get()url = response.urlall_text = response.css('h2::text,p:not([class]) ::text,li ::text').getall()text = ' '.join(all_text)content = text.replace('\n', '')yield {'title': title,'tags': self.tags,'url': url,'type': self.type_,'content': content,'source': {"type": "connector","name": "Elasticsearch datasource","id": "elasticsearch"},'category': self.category}

ScrapyElasticSearch

继续使用上次的插件把数据写入 Easysearch 集群。修改 scrapy 配置文件 settings.py

ELASTICSEARCH_SERVERS = ['http://192.168.56.102:8000']
ELASTICSEARCH_INDEX = 'coco_document'
# ELASTICSEARCH_INDEX_DATE_FORMAT = '%Y-%m-%d'
ELASTICSEARCH_TYPE = '_doc'
ELASTICSEARCH_USERNAME = 'admin'
ELASTICSEARCH_PASSWORD = '56939c1f6527d1a0d51c'

修改对应的连接信息和 INDEX 名称,这里我使用 INFINI Gateway 代理 Easysearch。

搜索数据

我已经爬取了 7.10 和 8.17 的官方文档。

http://www.dtcms.com/a/475517.html

相关文章:

  • 上海seo网站排名优化公司阿里云服务器登录
  • 住房建设城乡网站东营造价信息网
  • 人才网站查询档案辽宁seo推广软件
  • 湛江网站建设优化推广网站备案 不备案
  • 做网站用什么面板好品牌网站设计视频教程
  • 现在用什么软件做网站石家庄外贸网站推广
  • 易语言做电影网站源码网页设计软件排名
  • 万网怎么创建网站吗建站本
  • 短网址生成器免费秦洁婷seo博客
  • 嵌入式 Linux 简介—第一部分(共3部分)
  • ORACLE 19c ADG部署
  • 网站开发如何收费织梦网站维护
  • 无锡做网站电商设计公司官网
  • seo如何优化网站推广石家庄网站建设机构
  • 长沙做网站咨询公司网站搭建工具视频
  • 网站怎样优化关键词好视频推广方案模板
  • 坪山网站建设渠道技术好的手机网站建设
  • Lorax_linux构建软件
  • 网站建设管理维护责任书好看的团队官网源码
  • 不利于优化网站的因素wordpress做微信支付
  • wordpress快速加载企业网站seo优帮云
  • 马尾网站建设相册制作
  • 类和对象(类的默认6个成员函数以及操作符重载,日期类的实现)
  • Speedtest by Ookla:网速测速工具
  • 网站建设借鉴wordpress 教育主题
  • 百度怎么注册自己的网站湘潭企业网站建设 磐石网络
  • 基于加密技术的RFID标签数据安全保护方案
  • 培训心得网站建设互联网平台运营是做什么的
  • 辛集建设局网站优化方案英语
  • 网站建设采购项目王野天个人简历