Python常用内建模块——XML
操作XML有两种方法:DOM和SAX。DOM会把整个XML读入内存,解析为树,因此占用内存大,解析慢,优点是可以任意遍历树的节点。SAX是流模式,边读边解析,占用内存小,解析快,缺点是我们需要自己处理事件。
正常情况下,优先考虑SAX,因为DOM实在太占内存。
在Python中使用SAX解析XML非常简洁,通常我们关心的事件是start_element
,end_element
和char_data
,准备好这3个函数,然后就可以解析xml了。
练习
请利用SAX编写程序解析WeatherAPI的XML格式的天气预报,获取天气预报:
from xml.parsers.expat import ParserCreate
from urllib import requestdef parseXml(xml_str):print(xml_str)return {'city': '?','weather': {'condition': 'Sunny','temperature': 37.2,'wind': 9.7}}# 测试:
URL = 'https://api.weatherapi.com/v1/current.xml?key=b4e8f86b44654e6b86885330242207&q=Beijing&aqi=no'with request.urlopen(URL, timeout=4) as f:data = f.read()result = parseXml(data.decode('utf-8'))
assert result['city'] == 'Beijing'