当前位置: 首页 > wzjs >正文

网站设计的公司选哪家产品关键词的搜索渠道

网站设计的公司选哪家,产品关键词的搜索渠道,个人网站主机选择,莱芜吧莱芜贴吧说明:我希望用nodejs 写一个小工具,去除本地txt文件中的html字符,去除字符后生成新的文件,同样保存在桌面 文件的具体位置是C:\Users\Administrator\Desktop\file.txt step1:C:\Users\Administrator\WebstormProjects\untitled4\f…

说明:我希望用nodejs 写一个小工具,去除本地txt文件中的html字符,去除字符后生成新的文件,同样保存在桌面 文件的具体位置是C:\Users\Administrator\Desktop\file.txt
step1:C:\Users\Administrator\WebstormProjects\untitled4\file.js

const fs = require('fs');
const path = require('path');
// 定义文件路径
const desktopPath = 'C:\\Users\\Administrator\\Desktop';
const inputFile = path.join(desktopPath, 'file.txt');
const outputFile = path.join(desktopPath, 'clean_file.txt');
// 自定义HTML实体替换规则
const htmlEntities = {'&lt;': '<','&gt;': '>','&amp;': '&','&quot;': '"','&apos;': "'",'&#39;': "'",'&nbsp;': ' ',
};
// 主处理函数
function cleanHtml(filePath) {try {// 读取文件内容const content = fs.readFileSync(filePath, 'utf8');// 分步骤清理内容let cleaned = content// 移除HTML标签.replace(/<[^>]+>/g, '')// 替换HTML实体.replace(/&(?:[a-z]+|#\d+);/gi, (match) =>htmlEntities[match.toLowerCase()] || match)// 清理多余换行和空格.replace(/\n{3,}/g, '\n\n').replace(/ {2,}/g, ' ');// 写入新文件fs.writeFileSync(outputFile, cleaned, 'utf8');console.log(`文件清理完成,已保存至:${outputFile}`);console.log(`清理前字符数:${content.length}`);console.log(`清理后字符数:${cleaned.length}`);console.log(`移除字符数:${content.length - cleaned.length}`);} catch (error) {console.error('处理文件时发生错误:');console.error(error.message);process.exit(1);}
}
// 执行清理
if (require.main === module) {// 检查源文件是否存在if (!fs.existsSync(inputFile)) {console.error(`错误:源文件 ${inputFile} 不存在`);process.exit(1);}console.log('正在清理HTML字符...');cleanHtml(inputFile);
}

step2: 运行

PS C:\Users\Administrator\WebstormProjects\untitled4> node file.js
正在清理HTML字符...
文件清理完成,已保存至:C:\Users\Administrator\Desktop\clean_file.txt
清理前字符数:2235
清理后字符数:1697
移除字符数:538

下面是用python实现同样的功能 C:\Users\Administrator\PycharmProjects\PythonProject2.venv\Scripts\activate_this.py

from pathlib import Path
import re
import sys# 定义文件路径
desktop_path = Path(r'C:\Users\Administrator\Desktop')
input_file = desktop_path / 'file.txt'
output_file = desktop_path / 'cleans_file.txt'# 自定义HTML实体替换规则
html_entities = {'&lt;': '<','&gt;': '>','&amp;': '&','&quot;': '"','&apos;': "'",'&#39;': "'",'&nbsp;': ' ',
}def clean_html(file_path):try:# 读取文件内容with open(file_path, 'r', encoding='utf-8') as f:content = f.read()# 分步骤清理内容cleaned = content# 移除HTML标签cleaned = re.sub(r'<[^>]+>', '', cleaned)# 替换HTML实体def replace_entity(match):entity = match.text.lower()return html_entities.get(entity, match.text)cleaned = re.sub(r'&(?:[a-z]+|#\d+);',replace_entity,cleaned,flags=re.IGNORECASE)# 清理多余换行和空格cleaned = re.sub(r'\n{3,}', '\n\n', cleaned)cleaned = re.sub(r' {2,}', ' ', cleaned)# 写入新文件with open(output_file, 'w', encoding='utf-8') as f:f.write(cleaned)print(f'文件清理完成,已保存至:{output_file}')print(f'清理前字符数:{len(content)}')print(f'清理后字符数:{len(cleaned)}')print(f'移除字符数:{len(content) - len(cleaned)}')except Exception as e:print('处理文件时发生错误:')print(f'{e}')sys.exit(1)if __name__ == "__main__":# 检查源文件是否存在if not input_file.exists():print(f'错误:源文件 {input_file} 不存在')sys.exit(1)print('正在清理HTML字符...')clean_html(input_file)

end

http://www.dtcms.com/wzjs/390024.html

相关文章:

  • 如何引用404做网站企业培训课程视频
  • 统一汤达人选择她做汤面活动网站百度推广好不好做
  • 网站建设能用手机制作吗青岛网站优化公司
  • 服务器站点的网站地图怎么做常州网站建设书生商友
  • 博望哪里做网站谷歌商店安卓版下载
  • 莱州网站建设外贸展示型网站建设公司
  • 公司网站的开发策略百度游戏客服在线咨询
  • 网站代做多长时间宁波seo网络推广多少钱
  • 公司网站.可以自己做吗上海关键词推广
  • 陕西做网站的公司地址房地产销售怎么找客户
  • 好的做问卷调查的网站seo外包公司需要什么
  • flash 网站建设短视频营销方式有哪些
  • wordpress 安装 404网站优化招商
  • 常州做网站一般多少钱百度竞价推广联系方式
  • 织梦新闻网站模板下载房产网站模板
  • 广州哪里有网站开发石家庄最新疫情最新消息
  • 软件开发从入门到精通网站搜索引擎优化情况怎么写
  • 礼品公司网站模板小红书网络营销策划方案
  • 关键词堆砌的作弊网站凡科建站下载
  • 哈尔滨网络科技公司网站关键词自动优化工具
  • 集团网站建设的要求站长之家工具查询
  • 手机制作网站开发网址查询服务器地址
  • 免费传奇网站免费传奇在线优化网站
  • dw做网站字体 别人电脑显示幽默广告软文案例
  • 石家庄做网站 vtkj抖音视频seo霸屏
  • 做网站需要什么工具买卖友链
  • 一品威客网站是什么做的百度地图导航2022最新版下载
  • 广州英铭网站建设网站搜索
  • 在五八同城做网站多少钱创意营销案例
  • 网站建设合理性百度外链查询工具