蒙国造博客

Scrapy的remove_tags_with_content方法无法删除img标签?

Scrapy爬取的数据有时候会做清理,把不需要用的标签都清除掉。

其中remove_tagsremove_tags_with_content是比较有用的内置方法。

一个是去除标签本身,一个是去除标签及标签中的内容。

使用方式:

from scrapy.utils.markup import remove_tags, remove_tags_with_content

content = remove_tags(content, ('a',))
content = remove_tags_with_content(content, ('script', 'iframe'))

那么,如果是要删除img标签,该用哪一个呢?

刚开始的时候我用了 remove_tags_with_content ,一直不凑效,折腾。

后来转念一想,img标签只有标签,并没有像divap等标签,里面还有内容。

所以改用 remove_tags 就行了!!!

退出移动版