Хобрук: Ваш путь к мастерству в программировании

Вопросы по теме 'beautifulsoup'

Использование BeautifulSoup для поиска HTML-тега, содержащего определенный текст
Я пытаюсь получить элементы в HTML-документе, содержащие следующий образец текста: # \ S {11} <h2> this is cool #12345678901 </h2> Итак, предыдущее будет соответствовать, используя: soup('h2',text=re.compile(r' #\S{11}'))...

Получить весь контент между закрывающим и открывающим HTML-тегом с помощью Beautiful Soup
Я анализирую контент с помощью Python и Beautiful Soup, затем записываю его в файл CSV и столкнулся с проблемой получения определенного набора данных. Данные проходят через реализацию TidyHTML, которую я создал, а затем удаляются другие ненужные...
10.04.2024

Как разобрать эту html-таблицу с помощью BeautifulSoup
Я хочу проанализировать таблицу ниже html и получить из нее содержимое. HTML выглядит так.. <body id="up"> <table style="width:100%"> <tbody><tr> <td align="left">...

Разбор тега ‹ul› с помощью красивого супа
Рассмотрим этот код: divTag = soup.find_all("div", {"class":"classname"}) print divTag for tag in divTag: ulTag = soup.find_all("ul", {"class":"classname"}) print ulTag for tag in ulTag: liTag = soup.find_all("li",...

Извлечение тегов ‹a› с помощью BeautifulSoup
Я столкнулся с проблемой при извлечении тегов 'a' из https://www.symantec.com/index.jsp . Ниже приведен код, который дает мне пустой набор «ссылок». from bs4 import BeautifulSoup import urllib2 response =...

Извлечение текста из Javascript с помощью BeautifulSoup для получения количества подписчиков
Я пытаюсь автоматизировать процесс получения количества подписчиков для instagram для нескольких аккаунтов. Например, https://www.instagram.com/taylorswift/ и т. д. Я пытался использовать такие библиотеки, как BeautifulSoup. Однако одна...

Как разбить список фраз на слова, чтобы использовать счетчик для них?
Мои данные - это темы разговоров с веб-форума. Я создал функцию для очистки данных от стоп-слов, знаков препинания и тому подобного. Затем я создал цикл для очистки всех сообщений, которые были в моем CSV-файле, и поместил их в список. Потом я...

Как сохранить выходные данные Beautiful Soup в моей базе данных SQLite?
У меня есть базовая веб-страница, и у меня есть некоторые температуры за неделю. Вывод на странице отображается идеально на веб-странице. Теперь я хочу ввести их в свою базу данных SQLite3. Я пытался найти несколько руководств, но не смог найти...

Веб-скрапинг нескольких страниц форума с поисковым контентом
Я изо всех сил пытался получить список ссылок с нескольких страниц форума с контентом, выгруженным по страницам. Мой код работает хорошо (моя цель — выгрузить все разговоры для результата поиска в pdf), но не работает дальше первой страницы тредов....

Beautiful Soup - игнорировать дочерние div с тем же именем, что и родительский div
HTML структурирован следующим образом: <div class="my_class"> <div>important text</div> <div class="my_class"> <div>not important</div> </div> </div> <div...
15.05.2024

Извлечение содержимого следующего и другого тега с помощью Beautifulsoup
Я хочу очистить определенный фрагмент html-кода. мой код питона: soup = ''' <p> <strong> abc </strong> </p> <ul> <li> 123 </li>...

Очистка данных с помощью BeautifulSoup для каждой подстраницы - URL-адрес очень длинный и другой формат
Я собираю данные NFL о пасах за период с 1971 по 2019 год. Я смог очистить данные на первой странице каждого года, используя этот код: # This code works: passingData = [] # create empty list to store column data for year in...

Очистить URL-адрес изображения
Я пытаюсь очистить ссылки на источники изображений, используя красивый суп с Amazon, но не получаю правильного результата, ссылка, откуда я очищаю :...

Новые материалы

Я собираюсь научить вас Python шаг за шагом
Привет, уважаемый энтузиаст Python! 👋 Готовы погрузиться в мир Python? Сегодня я приготовил для вас кое-что интересное, что сделает ваше путешествие более приятным, чем шарик мороженого в..

Альтернатива шаблону исходящих сообщений для архитектуры микросервисов
Познакомьтесь с двухэтапным сообщением В этой статье предлагается альтернативный шаблон для папки Исходящие : двухэтапное сообщение. Он основан не на очереди сообщений, а на..

React on Rails
Основное приложение Reverb - это всеми любимый монолит Rails. Он отлично обслуживает наш API и уровень просмотра трафика. По мере роста мы добавляли больше интерактивных элементов..

Что такое гибкие методологии разработки программного обеспечения
Что представляют собой гибкие методологии разработки программного обеспечения в 2023 году Agile-методологии разработки программного обеспечения заключаются в следующем: И. Введение A...

Ториго  — революция в игре Го
Наш следующий вызов против ИИ и для ИИ. Сможет ли он победить людей в обновленной игре Го? Обратите внимание, что в следующей статье AI означает искусственный интеллект, а Goban  —..

Простое развертывание моделей с помощью Mlflow — Упаковка классификатора обзоров продуктов NLP от HuggingFace
Как сохранить свои модели машинного обучения в формате с открытым исходным кодом с помощью MLFlow, чтобы позже получить возможность легкого развертывания. Сегодня модели упаковки имеют несколько..

Математика и интуиция - Часть 1
У каждой математической формулы есть доказательство. Часто эти доказательства слишком сложно понять, поскольку многие из них основаны на индукции, некоторые - на очень сложных наблюдениях, а..