正則表達(dá)式中:
- 匹配中文字符可用: [\u4e00-\u9fa5]
- 匹配雙字節(jié)字符(包括中文字符):[^\x00-\xff]
在爬取豆瓣出版社列表的練習(xí)中甘穿,正則表達(dá)式如下:
data = urlreq.urlopen('https://read.douban.com/provider/all').read().decode('utf-8')
# pressPattern = 'class="name">([\u4e00-\u9fa5]*(·[\u4e00-\u9fa5]+)?)'
# 出版社名稱可以是中文也可以是英文
pressPattern = 'class="name">(.*?)<'