当前位置: 首页 > news >正文

网站建设与维护一般需要多少钱每年资源类网站怎么做的

网站建设与维护一般需要多少钱每年,资源类网站怎么做的,钟祥网站开发,中国建设劳动协会网站https://www.firecrawl.dev/ firecrawl-logo-with-fire.png 什么是Firecrawl Firecrawl 是一款 可以将网站转换为 便于AI处理的Markdown 格式的爬虫工具 ,主要 提供 API 服务 ,无需站点地图,只需要接收一个 URL 地址就可以爬取网站及网站下可…

https://www.firecrawl.dev/

firecrawl-logo-with-fire.png
firecrawl-logo-with-fire.png

什么是Firecrawl

Firecrawl 是一款 可以将网站转换为 便于AI处理的Markdown 格式的爬虫工具 ,主要 提供 API 服务 ,无需站点地图,只需要接收一个 URL 地址就可以爬取网站及网站下可访问的所有子页面内容。

本地部署Firecrawl

https://github.com/mendableai/firecrawl/blob/main/CONTRIBUTING.md

For a simpler setup, you can use Docker Compose to run all services:

  1. Prerequisites: Make sure you have Docker and Docker Compose installed
  2. Copy the .env.example file to .env in the /apps/api/ directory and configure as needed

  3. From the root directory, run: docker compose up
    This will start Redis, the API server, and workers automatically in the correct configuration.

git clone https://github.com/mendableai/firecrawl.git
cd firecrawl

创建.env文件

cp apps/api/.env.example apps/api/.env

需要使用LLM的话修改一下OPENAI_API_KEY和OPENAI_BASE_URL

OPENAI_API_KEY=xxx 
OPENAI_BASE_URL=xxx

构建并启动

docker compose build
docker compose up -d

国内可能下载playwright很慢,可以修改「apps/playwright-service-ts/Dockerfile」

RUN echo "deb http://mirrors.aliyun.com/debian/ bookworm main non-free contrib\n\  
deb http://mirrors.aliyun.com/debian/ bookworm-updates main non-free contrib\n\  
deb http://mirrors.aliyun.com/debian-security bookworm-security main non-free contrib" > /etc/apt/sources.list  # Install Playwright dependencies  
ENV PLAYWRIGHT_DOWNLOAD_HOST=https://npmmirror.com/mirrors/playwright/  
RUN npx playwright install --with-deps

测试一下

curl -X GET http://localhost:3002/test

使用python调用

pip install firecrawl-py
import logging  
from firecrawl import FirecrawlApp  logging.basicConfig(level=logging.INFO)  
logger = logging.getLogger(__name__)  def main():  try:  app = FirecrawlApp(api_key=None, api_url="http://localhost:3002")  params = {  'formats': ['markdown'],  }  logger.info("开始抓取网页...")  scrape_status = app.scrape_url('https://www.kujiale.com/', params=params)  logger.info("抓取结果:")  print(scrape_status)  except Exception as e:  logger.error(f"抓取过程中发生错误: {str(e)}")  raise  if __name__ == "__main__":  main()
image.png
image.png

image.png
image.png

从结果可以看到它会提取一些内容,方便直接将数据给AI或者插入RAG中进行后续操作
image.png
image.png
http://www.dtcms.com/a/471658.html

相关文章:

  • asp网站js悬浮窗怎么做打开连接 wordpress
  • 学php搞网站开发wordpress虚拟主机加速
  • 基于Spring Boot的粮库设备管理平台的设计与实现 计算机毕业设计源码51037
  • 什么样的企业需要做网站佛山网站建设no.1
  • 网站会员充值做哪个分录电子商务网站开发实训体会
  • 成交型网站建设公司青岛网站建设比较好
  • 信阳住房和城乡建设厅网站庆阳东道设计
  • 六盘水网站开发潍坊seo
  • 如何搭建网站后台江苏建设人才网 官网
  • 诺亚人力资源外包网扬州seo招聘
  • 网站支付宝怎么做电子商务网站建设 填空题
  • 网站的运行环境万网全球商业网
  • Python入门第一课:Python安装、VSCode/Pycharm配置
  • 免费做网站的文章类型网站
  • c 视频网站开发自己做网站需要啥
  • 公司建站方案设计广告公司网站建设
  • 算法学习 || 动态规划(买卖股票的最佳时机3)
  • [GazeTracking] 视线数据获取 | refresh
  • Elastic × Jina AI
  • php 网站下载器备案 网站 收录
  • 编译原理机测客观题(1)绪论、文法与语言
  • 企业网站更新频率医疗器械网站制作
  • 培训机构网站源码购物网站发展规划与建设进度
  • 抽像代数概念理解——同构(isomorphism)
  • Tweedie 公式
  • 站长之家psd南漳网站开发
  • .net网站制作做游戏视频网站
  • 肇庆网站seowordpress评论发邮件
  • 网站服务器怎么迁移搜索引擎哪个好
  • 青岛建网站最新消息新闻头条