使用beautifulSoup提取信息
1.优先用 “节点定位”:
适用场景:
如果页面标签有明确的属性(如 class
、id
)或层级关系,直接通过 find()
/select()
定位,稳定性最高。
使用beautifulSoup的函数方法进行“节点定位”
2.次选 “正则表达式”:
适用场景:
当标签无规律但文本有模式时,用正则模糊匹配,兼容格式变体。
页面内容有一定规律但存在变体,例如:
- 分隔符不固定(如有时用 “:”,有时用 “:”,或空格数量不固定);
- 内容存在可选部分(如某些条目有 “编剧”,某些没有);
- 格式有轻微差异(如年份有时带括号:
(2023)
,有时不带)
正则表达式-CSDN博客
3.最后用 “字符串基础操作”:
适用场景:
仅在结构完全固定、无任何变体时使用,分隔符(如冒号、空格、特殊符号)或位置(如第几个字符、第几个分隔块)不变,简单高效但灵活性差。
提取逻辑:
利用字符串的 split()
、strip()
、切片([start:end]
)等基础方法,按固定分隔符拆分或按位置截取。
a.需要的内容一个标签内,且没有多余的内容——节点定位
b.需要的内容一个标签内,有多余的内容——节点定位+正则表达式/字符串基础操作