Хобрук: Ваш путь к мастерству в программировании

Разбор тега ‹ul› с помощью красивого супа

Рассмотрим этот код:

divTag = soup.find_all("div", {"class":"classname"})
print divTag
for tag in divTag:
    ulTag = soup.find_all("ul", {"class":"classname"})
    print ulTag
    for tag in ulTag:
        liTag = soup.find_all("li", {"class":"classname"})
        print liTag
        for tag in liTag:
            diTag = soup.find_all("div", {"class":"classname"})
            print diTag
            for tag in diTag:
                aTags = tag.find_next("a")
                value = aTags.string
                print value

Он печатает только «divTag» и «ulTag». Я уверен, что все имена классов правильные. Внутри тега ul есть около 7 тегов li, но он не печатает ни один из тегов li. Пожалуйста помоги. Заранее спасибо.

ОБНОВИТЬ:

<div class="classname">
<ul auto-load="true" class="classname" data-href="">
<li class="classname">
<div class="classname"><a href="">"value"</a>  string <a href="">string1</a> <a class="muted"><abbr class="timeago" title=" 1 Jun, 2015, 10:23 am">7 hours ago</abbr></a>
</div>
</li>
<li>
</li>
</ul>
</div>

В основном я хочу извлечь значение «строка» в теге «a».


  • Пожалуйста, отредактируйте свой вопрос и включите образец HTML, который вы хотите проанализировать. И, пожалуйста, следуйте общепринятым соглашениям Python и используйте четыре пробела для каждого уровня отступа. 01.06.2015
  • Я добавил HTML-код, пожалуйста, посмотрите на него. 01.06.2015
  • вам нужно значение для каждого тега a или значение string между первыми двумя a? 01.06.2015
  • Значение строки между первыми двумя 'a'. @Майкл 01.06.2015

Ответы:


1

Полное решение с next_sibling

ulTag = soup.find("ul", {"class": "classname"})
aTags = ulTag.find_all("a")
for aTag in aTags:
    sibling = aTag.next_sibling
    siblingString = str(sibling).strip()
    if len(siblingString) > 0:
        print siblingString 
01.06.2015

2

Здесь каждый раз ищешь в супе. Итак, вы терпите неудачу. Вы должны искать тег в его родительском теге. Попробуйте что-то вроде этого:

divTag = soup.find_all("div", {"class":"classname"})
for ulTag in divTag:
    for liTag in ulTag.find_all("li", {"class":"classname"}):
        for tag in liTag.find_all("div", {"class":"classname"}):
            for aTag in tag.find_all('a'):
                print aTag.string

Для предоставленного вами html вывод:

"value"
string1
7 hours ago
01.06.2015
  • Я получаю эту ошибку: AttributeError: объект «ResultSet» не имеет атрибута «findall» 01.06.2015
  • Ошибка исчезла, но ничего не печатает.. :( 01.06.2015
  • Новые материалы

    Основы принципов S.O.L.I.D, Javascript, Git и NoSQL
    каковы принципы S.O.L.I.D? Принципы SOLID призваны помочь разработчикам создавать надежные, удобные в сопровождении приложения. мы видим пять ключевых принципов. Принципы SOLID были разработаны..

    Как настроить Selenium в проекте Angular
    Угловой | Селен Как настроить Selenium в проекте Angular Держите свое приложение Angular и тесты Selenium в одной рабочей области и запускайте их с помощью Mocha. В этой статье мы..

    Аргументы прогрессивного улучшения почти всегда упускают суть
    В наши дни в кругах веб-разработчиков много болтают о Progressive Enhancement — PE, но на самом деле почти все аргументы с обеих сторон упускают самую фундаментальную причину, по которой PE..

    Введение в Джанго Фреймворк
    Схема «работать умно, а не усердно» В этой и последующих статьях я познакомлю вас с тем, что такое фреймворк Django и как создать свое первое приложение с помощью простых и понятных шагов, а..

    Настольный ПК как «одно кольцо, чтобы править всеми» домашних компьютеров
    Вид после 9 месяцев использования С настольных компьютеров все началось, но в какой-то момент они стали «серверами», и мы все перешли на ноутбуки. В прошлом году я столкнулся с идеей настольных..

    Расширенные методы безопасности для VueJS: реализация аутентификации без пароля
    Руководство, которое поможет вам создавать безопасные приложения в долгосрочной перспективе Безопасность приложений часто упускается из виду в процессе разработки, потому что основная..

    стройный-i18следующий
    Представляем стройную оболочку для i18next. Эта библиотека, основанная на i18next, заключает экземпляр i18next в хранилище svelte и отслеживает события i18next, такие как languageChanged,..