Я хочу извлечь продукты, перечисленные на этой веб-странице. Поэтому я попытался извлечь все атрибуты data-tcproduct
из файла div.product-tile
. Он содержит множество вещей, включая URL-адреса продуктов, которые мне нужно посетить.
Так я и сделал:
def parse_brand(self, response):
for d in set(response.css('div.product-tile::attr(data-tcproduct)').extract()):
d = json.loads(d)
yield scrapy.Request(url=d['product_url_page'].replace("p","P"), callback=self.parse_item)
Тем не менее, я заметил, что некоторые атрибуты из div.product-tile
кажутся скрытыми на странице, и они меня не интересуют. Те, которые я хочу очистить, находятся скорее на product-listing-title
.
Итак, как я могу отфильтровать часть HTML-страницы при очистке результатов с помощью Scrapy?