当前位置: 首页 > wzjs >正文

泗洪房产网武汉seo广告推广

泗洪房产网,武汉seo广告推广,wordpress代码高亮是什么意思,深圳哪个区有疫情https://www.firecrawl.dev/ firecrawl-logo-with-fire.png 什么是Firecrawl Firecrawl 是一款 可以将网站转换为 便于AI处理的Markdown 格式的爬虫工具 ,主要 提供 API 服务 ,无需站点地图,只需要接收一个 URL 地址就可以爬取网站及网站下可…

https://www.firecrawl.dev/

firecrawl-logo-with-fire.png
firecrawl-logo-with-fire.png

什么是Firecrawl

Firecrawl 是一款 可以将网站转换为 便于AI处理的Markdown 格式的爬虫工具 ,主要 提供 API 服务 ,无需站点地图,只需要接收一个 URL 地址就可以爬取网站及网站下可访问的所有子页面内容。

本地部署Firecrawl

https://github.com/mendableai/firecrawl/blob/main/CONTRIBUTING.md

For a simpler setup, you can use Docker Compose to run all services:

  1. Prerequisites: Make sure you have Docker and Docker Compose installed
  2. Copy the .env.example file to .env in the /apps/api/ directory and configure as needed

  3. From the root directory, run: docker compose up
    This will start Redis, the API server, and workers automatically in the correct configuration.

git clone https://github.com/mendableai/firecrawl.git
cd firecrawl

创建.env文件

cp apps/api/.env.example apps/api/.env

需要使用LLM的话修改一下OPENAI_API_KEY和OPENAI_BASE_URL

OPENAI_API_KEY=xxx 
OPENAI_BASE_URL=xxx

构建并启动

docker compose build
docker compose up -d

国内可能下载playwright很慢,可以修改「apps/playwright-service-ts/Dockerfile」

RUN echo "deb http://mirrors.aliyun.com/debian/ bookworm main non-free contrib\n\  
deb http://mirrors.aliyun.com/debian/ bookworm-updates main non-free contrib\n\  
deb http://mirrors.aliyun.com/debian-security bookworm-security main non-free contrib" > /etc/apt/sources.list  # Install Playwright dependencies  
ENV PLAYWRIGHT_DOWNLOAD_HOST=https://npmmirror.com/mirrors/playwright/  
RUN npx playwright install --with-deps

测试一下

curl -X GET http://localhost:3002/test

使用python调用

pip install firecrawl-py
import logging  
from firecrawl import FirecrawlApp  logging.basicConfig(level=logging.INFO)  
logger = logging.getLogger(__name__)  def main():  try:  app = FirecrawlApp(api_key=None, api_url="http://localhost:3002")  params = {  'formats': ['markdown'],  }  logger.info("开始抓取网页...")  scrape_status = app.scrape_url('https://www.kujiale.com/', params=params)  logger.info("抓取结果:")  print(scrape_status)  except Exception as e:  logger.error(f"抓取过程中发生错误: {str(e)}")  raise  if __name__ == "__main__":  main()
image.png
image.png

image.png
image.png

从结果可以看到它会提取一些内容,方便直接将数据给AI或者插入RAG中进行后续操作
image.png
image.png
http://www.dtcms.com/wzjs/123048.html

相关文章:

  • seo站长工具箱青岛网络seo公司
  • 什么软件可以做动漫视频网站佛山seo优化
  • 苏州吴中区做网站公司中国国家培训网
  • crossapple wordpressseo优化销售话术
  • 柳州网站建设优化推广seo chinaz
  • 台州网站推广如何制作网页游戏
  • 全国公路建设信用网站seo网站的优化方案
  • 大连城乡建设网站企业推广策划公司
  • 黑糖不苦还做网站么nba最快的绝杀
  • 东莞深圳网站建设东莞做网站优化
  • 关于网站建设的外文文献google play服务
  • 微信公众平台开发代理seo准
  • 网站备案容易吗网站seo在线诊断
  • 云服务器可以做两个网站吉林seo技术交流
  • 黄页网站推广软件网络营销论文5000字
  • 外贸网站建设上海长春seo快速排名
  • 免费b2b网站大全黄页88还有哪些平台能免费营销产品
  • 做网站能改吗合肥seo快排扣费
  • 找人做微信网站微信软文范例大全100
  • 学php做网站2020年关键词排名
  • 网站url结构seo外链发布平台
  • 茶叶网站的建设策划书武汉外包seo公司
  • 企业网站页面宽哪里设置产品网络营销
  • jsp语言做网站福州短视频seo获客
  • 假网站的域名关键词排名查询工具免费
  • 做网站seo优化总结滨州seo招聘
  • 网站建设体会宁德seo公司
  • 怎么查工程中标单位搜索引擎营销优化
  • 深圳建设交易中心官网推广优化网站排名教程
  • 卖汽车配件怎么做网站小程序模板