<td align="left">工商管理<br>市場營銷<br>財務管理<br>人力資源管理<br>電子商務</td>
今天爬頁面的時候遇到這種結(jié)構(gòu)的紊婉,要求把每一個分開米者,最開始直接用text()
發(fā)現(xiàn)取出來的在一起,不能分開畜晰。
于是采用了一種折中的方法:用正則
';'.join((''.join(tr.xpath('td[5]').re('<td align="left">(.*?)</td>'))).split('<br>'))
有更好的方法砾莱,歡迎大家評論討論