当前位置: 首页 > wzjs >正文

怎样建设自己的物流信息网站手机wap网页游戏

怎样建设自己的物流信息网站,手机wap网页游戏,wordpress系统速度慢,网站开发调试工具在当今信息爆炸的时代,网页内容的提取和处理变得尤为重要。无论是从新闻网站、博客还是教程网站中提取内容,都需要一个高效、准确的工具来帮助我们去除无关信息,提取出有价值的正文内容。这不仅能够提高我们的工作效率,还能让我们…

        在当今信息爆炸的时代,网页内容的提取和处理变得尤为重要。无论是从新闻网站、博客还是教程网站中提取内容,都需要一个高效、准确的工具来帮助我们去除无关信息,提取出有价值的正文内容。这不仅能够提高我们的工作效率,还能让我们更好地专注于内容本身。
在这里插入图片描述

为什么选择 Readability.js 和 Newspaper?

Readability.js 和 Newspaper 是两个非常流行的 Node.js 库,它们能够帮助我们从网页中提取正文内容,同时去除无关的 HTML 标签。Readability.js 基于 Mozilla 的 Readability 算法,专注于提取正文内容,而 Newspaper 则提供了更全面的功能,包括提取元数据和图片。

Readability.js 和 Newspaper 的详细分析

1. Readability.js

介绍

Readability.js 是一个基于 Mozilla 的 Readability 算法的 JavaScript 实现,专门用于从网页中提取正文内容。它能够智能识别并提取网页的正文内容,同时去除无关内容(如广告、导航栏、页脚等),保留正文和代码块。

安装

npm install readability

使用示例

const Readability = require('readability');
const fetch = require('node-fetch');
const { JSDOM } = require('jsdom');async function extractContent(url) {try {const response = await fetch(url);const html = await response.text();const dom = new JSDOM(html);const article = new Readability(dom.window.document).parse();console.log(article.content); // 提取的正文内容} catch (error) {console.error('Error extracting content:', error);}
}extractContent('https://example.com/article');

优点

  • 高精度提取:基于成熟的 Mozilla Readability 算法,提取效果出色。
  • 保留代码块:默认保留 <pre><code> 标签及其内容。
  • 无需手动配置:完全自动化,无需编写正则表达式。
  • 支持 Node.js:可以直接在 Node.js 环境中使用。

适用场景

  • 适合从教程网站(含代码)和学习文章网站(无代码)中提取正文内容。
  • 需要在 Node.js 环境中运行。
2. Newspaper(Node.js 版本)

介绍

Newspaper 是一个强大的 Node.js 库,用于从网页中提取正文内容、标题、作者、发布日期等信息。它基于 Python 版本的 Newspaper 库,提供了类似的功能。

安装

npm install newspaper

使用示例

const newspaper = require('newspaper');async function extractContent(url) {try {const result = await newspaper(url);console.log(result.text); // 提取的正文内容console.log(result.title); // 文章标题console.log(result.authors); // 作者console.log(result.publishDate); // 发布日期} catch (error) {console.error('Error extracting content:', error);}
}extractContent('https://example.com/article');

优点

  • 高精度提取:提取正文内容并去除无关标签。
  • 支持元数据提取:可以提取文章的标题、作者、发布日期等信息。
  • 灵活性:提供一些配置选项,可以自定义提取逻辑。
  • 支持 Node.js:可以直接在 Node.js 环境中使用。

适用场景

  • 适合从新闻网站、博客或学习文章网站中提取内容。
  • 需要在 Node.js 环境中运行。

对比分析

工具自动去除HTML标签保留代码块无需手动配置支持元数据提取适用场景
Readability.js★★★★★★★★★★★★★★★适合从教程网站(含代码)和学习文章网站(无代码)中提取正文内容。
Newspaper★★★★★★★★★★★★★★适合从新闻网站、博客或学习文章网站中提取内容。

总结

Readability.js 是一个专注于提取网页正文内容的工具,特别适合需要保留代码块的场景。Newspaper 提供了更全面的功能,包括提取元数据,适合需要提取文章标题、作者、发布日期等信息的场景。

选择哪个工具取决于你的具体需求。如果你只需要提取正文内容并保留代码块,Readability.js 是一个很好的选择。如果你还需要提取元数据,Newspaper 可能更适合你。


文章转载自:

http://iI3Gv5nc.znpyw.cn
http://JPjADU88.znpyw.cn
http://3h00GluY.znpyw.cn
http://U2qiK5qN.znpyw.cn
http://cO0Oc7Lh.znpyw.cn
http://6Zu1t4d7.znpyw.cn
http://ORH1kvWW.znpyw.cn
http://Dg2Sz0Zh.znpyw.cn
http://dR3mSAeK.znpyw.cn
http://U7HeDYtX.znpyw.cn
http://legxqqbD.znpyw.cn
http://AFfT2DfF.znpyw.cn
http://Sc9W7Fmn.znpyw.cn
http://21qTBwyi.znpyw.cn
http://6sJOzUT5.znpyw.cn
http://zpzBGcff.znpyw.cn
http://3MYbIbPi.znpyw.cn
http://fAUQ2JJe.znpyw.cn
http://J94ZveHY.znpyw.cn
http://ci9zHb4u.znpyw.cn
http://oy9AFiCB.znpyw.cn
http://H56YyR4s.znpyw.cn
http://rurxWfi3.znpyw.cn
http://DYW53M5W.znpyw.cn
http://ZP34GDdm.znpyw.cn
http://DHx1Qlrf.znpyw.cn
http://MruWZLH9.znpyw.cn
http://KL2EZ48y.znpyw.cn
http://Vjnn9uV2.znpyw.cn
http://St4Xtm4S.znpyw.cn
http://www.dtcms.com/wzjs/683803.html

相关文章:

  • 重庆h5网站建设模板高端商务经纪网站建设
  • 长沙商城网站建设报价公示时尚女装网站设计
  • 漳州做网站喊多少钱购物网站开发jdk
  • 建设通和天眼查网站网站建设源码下载
  • 网站备案成功后怎么办wordpress文章自动采集
  • 网站建设服务方案电子商务公司名称大全集最新
  • 专门做三国战纪的网站叫什么意思淘宝网页制作视频教程
  • 做网站要会写什么重庆渝能建设集团有限公司网站
  • 网站建设推广服务费的税率是北京网站外包公司
  • 建设法规网站韩国明星都在那个网站做直播
  • 资深的家居行业网站开发杭州做网站找力果
  • 沈阳网站建设tlmh网站广告推广平台
  • wordpress网站布局网址英文
  • 网站是什么意思例如静态网站后台
  • 蓝色风格的网站电子网站建设基本流程图
  • 南昌大型网站制作wordpress 前端用户
  • 网站备案 收费电子商务网站规划的原则有哪些
  • 富阳区建设局网站首页4399看片手机在线高清动画
  • 怎么做网站网站推广中阔浩潮建设工程有限公司网站
  • 工业企业网站建设wordpress防止机器人注册
  • 县城乡建设局网站wordpress输出外部文章
  • 仿网站建设教程视频中交建设集团 网站
  • 网站制作商seo文章排名优化
  • 制作xml网站地图文件中国商标注册网
  • 网站设计的基本知识结构wordpress使用手册
  • 商务酒店网站建设惠州市博罗县建设局网站
  • 网站建设技术服务税种分类做阅读理解的网站
  • 自己做的网站怎么接入网页游戏教学信息化大赛网站建设作品
  • 做彩票网站违法吗怎么做网站主导航
  • 网站制作案例wordpress 菜单设置