Хобрук: Ваш путь к мастерству в программировании

Отфильтровать часть html-страницы при очистке результатов с помощью Scrapy

Я хочу извлечь продукты, перечисленные на этой веб-странице. Поэтому я попытался извлечь все атрибуты data-tcproduct из файла div.product-tile. Он содержит множество вещей, включая URL-адреса продуктов, которые мне нужно посетить.

introducir la description de la imagen aquí

Так я и сделал:

def parse_brand(self, response):
    for d in set(response.css('div.product-tile::attr(data-tcproduct)').extract()):
        d = json.loads(d)
        yield scrapy.Request(url=d['product_url_page'].replace("p","P"), callback=self.parse_item)

Тем не менее, я заметил, что некоторые атрибуты из div.product-tile кажутся скрытыми на странице, и они меня не интересуют. Те, которые я хочу очистить, находятся скорее на product-listing-title.

introducir la description de la imagen aquí

Итак, как я могу отфильтровать часть HTML-страницы при очистке результатов с помощью Scrapy?


Ответы:


1

Я не думаю, что вам нужно product-listing-title. Вместо этого вам нужны предметы из search-result-content div:

for d in response.css('div.search-result-content div.product-tile::attr(data-tcproduct)').extract():
        d = json.loads(d)
        yield scrapy.Request(url=d['product_url_page'].replace("p","P"), callback=self.parse_item)
03.12.2020
Новые материалы

Аргументы прогрессивного улучшения почти всегда упускают суть
В наши дни в кругах веб-разработчиков много болтают о Progressive Enhancement — PE, но на самом деле почти все аргументы с обеих сторон упускают самую фундаментальную причину, по которой PE..

Введение в Джанго Фреймворк
Схема «работать умно, а не усердно» В этой и последующих статьях я познакомлю вас с тем, что такое фреймворк Django и как создать свое первое приложение с помощью простых и понятных шагов, а..

Настольный ПК как «одно кольцо, чтобы править всеми» домашних компьютеров
Вид после 9 месяцев использования С настольных компьютеров все началось, но в какой-то момент они стали «серверами», и мы все перешли на ноутбуки. В прошлом году я столкнулся с идеей настольных..

Расширенные методы безопасности для VueJS: реализация аутентификации без пароля
Руководство, которое поможет вам создавать безопасные приложения в долгосрочной перспективе Безопасность приложений часто упускается из виду в процессе разработки, потому что основная..

стройный-i18следующий
Представляем стройную оболочку для i18next. Эта библиотека, основанная на i18next, заключает экземпляр i18next в хранилище svelte и отслеживает события i18next, такие как languageChanged,..

Обзор 20 основных и современных методов работы с массивами в JavaScript
Вы знаете их всех? В этом коротком посте я покажу сводку методов, доступных в JavaScript для работы с массивами. Я надеюсь, что вы найдете это полезным! В конце поста вы найдете ссылку на..

Да, но я чувствую необходимость указать, что это или не единственные два.
Да, но я чувствую необходимость указать, что это или не единственные два. Обучение с подкреплением (в качестве примера) также является важным.