Scrapy爬取的数据有时候会做清理,把不需要用的标签都清除掉。
其中remove_tags
和remove_tags_with_content
是比较有用的内置方法。
一个是去除标签本身,一个是去除标签及标签中的内容。
使用方式:
from scrapy.utils.markup import remove_tags, remove_tags_with_content content = remove_tags(content, ('a',)) content = remove_tags_with_content(content, ('script', 'iframe'))
那么,如果是要删除img
标签,该用哪一个呢?
刚开始的时候我用了 remove_tags_with_content
,一直不凑效,折腾。
后来转念一想,img
标签只有标签,并没有像div
、a
、p
等标签,里面还有内容。
所以改用 remove_tags
就行了!!!