小弟最近开始练习摸python爬虫,在爬资料时因为网页的html一个标签里面包了好几层,导致重复取到资料,想问有办法解决吗?
网页html资料大概长这样:
<span style="text-decoration:none">你好<font>
<span style="text-decoration:none"><span style="font-family:"Segoe UI Emoji",sans-serif">小明;</span></span></font></span>
筛选条件是这样:
find_all(“span”, style=”text-decoration:none”)
出来会取到2笔资料,
你好小明
小明
Q.想请问会这样是因为筛选件不够严谨吗?