Отфильтровать часть html-страницы при очистке результатов с помощью Scrapy

Я хочу извлечь продукты, перечисленные на этой веб-странице. Поэтому я попытался извлечь все атрибуты data-tcproduct из файла div.product-tile. Он содержит множество вещей, включая URL-адреса продуктов, которые мне нужно посетить.

Так я и сделал:

def parse_brand(self, response):
    for d in set(response.css('div.product-tile::attr(data-tcproduct)').extract()):
        d = json.loads(d)
        yield scrapy.Request(url=d['product_url_page'].replace("p","P"), callback=self.parse_item)

Тем не менее, я заметил, что некоторые атрибуты из div.product-tile кажутся скрытыми на странице, и они меня не интересуют. Те, которые я хочу очистить, находятся скорее на product-listing-title.

Итак, как я могу отфильтровать часть HTML-страницы при очистке результатов с помощью Scrapy?

02.12.2020

Ответы:

Я не думаю, что вам нужно product-listing-title. Вместо этого вам нужны предметы из search-result-content div:

for d in response.css('div.search-result-content div.product-tile::attr(data-tcproduct)').extract():
        d = json.loads(d)
        yield scrapy.Request(url=d['product_url_page'].replace("p","P"), callback=self.parse_item)

03.12.2020

Новые материалы

Аргументы прогрессивного улучшения почти всегда упускают суть

В наши дни в кругах веб-разработчиков много болтают о Progressive Enhancement — PE, но на самом деле почти все аргументы с обеих сторон упускают самую фундаментальную причину, по которой PE..

Введение в Джанго Фреймворк

Схема «работать умно, а не усердно» В этой и последующих статьях я познакомлю вас с тем, что такое фреймворк Django и как создать свое первое приложение с помощью простых и понятных шагов, а..

Настольный ПК как «одно кольцо, чтобы править всеми» домашних компьютеров

Вид после 9 месяцев использования С настольных компьютеров все началось, но в какой-то момент они стали «серверами», и мы все перешли на ноутбуки. В прошлом году я столкнулся с идеей настольных..

Расширенные методы безопасности для VueJS: реализация аутентификации без пароля

Руководство, которое поможет вам создавать безопасные приложения в долгосрочной перспективе Безопасность приложений часто упускается из виду в процессе разработки, потому что основная..

стройный-i18следующий

Представляем стройную оболочку для i18next. Эта библиотека, основанная на i18next, заключает экземпляр i18next в хранилище svelte и отслеживает события i18next, такие как languageChanged,..

Обзор 20 основных и современных методов работы с массивами в JavaScript

Вы знаете их всех? В этом коротком посте я покажу сводку методов, доступных в JavaScript для работы с массивами. Я надеюсь, что вы найдете это полезным! В конце поста вы найдете ссылку на..

Да, но я чувствую необходимость указать, что это или не единственные два.

Да, но я чувствую необходимость указать, что это или не единственные два. Обучение с подкреплением (в качестве примера) также является важным.

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Web Development Python Coding Deep Learning AI React Software Engineering Nodejs Development Typescript Data Java Front End Development NLP Algorithms Computer Science Learning Programming Languages ChatGPT Tech Tutorial Angular Productivity React Native Reactjs Cybersecurity Python Programming Javascript Development Neural Networks Learning To Code Developer Javascript Tips Swift