Распараллеливание запросов в PostgreSQL с помощью Python

В Geoblink мы выполняем более 20000 запросов для создания одной из наших нескольких баз данных PostgreSQL размером ~ 100 ГБ с нуля из файлов необработанных данных. Если мы попытаемся запустить их в последовательном порядке, создание базы данных займет слишком много времени. Чтобы сократить время генерации, мы распараллеливаем несколько запросов. Сделать это вручную было бы невозможно, поэтому мы используем хороший скрипт, написанный на Python, для генерации и выполнения запросов.

В этом посте я покажу пример того, как это сделать на Python.

В качестве примера мы создадим таблицу и заполним ее 20 миллионами случайных чисел.

Сначала создаем таблицу:

DROP TABLE IF EXISTS public.test; 
CREATE TABLE public.test( value numeric );

А потом заливаем:

INSERT INTO test 
SELECT random() 
FROM generate_series(1,20000000);

На моей машине (процессор Intel (R) Core (TM) i7–4790 @ 3,60 ГГц) это занимает около 64 секунд.

Теперь попробуем распараллелить запрос. Мы будем использовать пакет многопроцессорной обработки python для распараллеливания процессов и psycopg2 для подключения к базе данных.

Сначала мы определяем функцию для запуска запроса:

import psycopg2 
def runQuery(query): 
  connect_text = "dbname='%s' user='%s' host=%s port=%s password='%s'" % (dbname, user, host, port, password) 
  con = psycopg2.connect(connect_text) 
  cur = con.cursor() 
  cur.execute(query) 
  con.commit() 
  con.close()

С помощью этой функции мы можем выполнять любой запрос, но без вывода, например создание таблиц, их обновление и т. Д.
Следующим шагом является создание массива запросов.

queries = [] 
for i in range(N_job): 
  query = """ 
    INSERT INTO test (value) 
    SELECT random() 
    FROM generate_series(1, %d); 
  """ % (N_random / N_job) 
query.append(queries)

Где N_jobs - количество запросов, которые мы хотим выполнить. Таким образом, мы создали массив независимых запросов, которые можем выполнять параллельно.
Теперь нам нужно создать пул с количеством процессоров, которые мы хотим использовать, в нашем случае 4.

import multiprocessing 
pool = multiprocessing.Pool(CPUS)

Наконец, мы выполняем запросы, используя метод imap_unordered. Он принимает функцию и массив и применяет функцию к каждому элементу массива в случайном порядке.

for i in pool.imap_unordered(runQuery, queries) 
  continue

С помощью этого метода расчет занимал всего 30 секунд с использованием 4 ядер, что составляет более 50% улучшения по сравнению с использованием только одного запроса. Вероятно, мы не получили большого улучшения из-за скорости чтения / записи диска.

Чем больше ядер доступно, тем больше преимуществ мы можем извлечь из распараллеливания запросов. Хорошей идеей является распараллеливание с использованием существующих индексированных столбцов в качестве провинций, муниципалитетов или расстояний, как мы это делаем при создании наших баз данных в Geoblink.

Но есть момент, когда мы должны играть с соотношением строк / задание, поскольку мы не хотим иметь миллионы строк на запросы и тысячи запросов.

Окончательный вывод заключается в том, что, хотя распараллеливание запросов может привести к значительному повышению производительности, нам всегда нужно поддерживать баланс между количеством выполняемых запросов и количеством строк в запросе.

By Vicente "Tito" Lacuesta

Новые материалы

Освоение RecyclerView в Android Studio с использованием Java: подробное руководство

https://youtu.be/CTBlF_xNtsM Готовы ли вы создавать динамические и прокручиваемые списки элементов в своем приложении для Android? В этом руководстве мы рассмотрим компонент RecyclerView в..

3 ошибки React.js, которые вы должны перестать делать

React.js приобрел огромную популярность как мощная библиотека JavaScript для создания пользовательских интерфейсов. Его компонентная архитектура и виртуальный DOM делают его отличным выбором для..

Прогнозирование 10-летней доходности после публикации заявления FOMC

Эта статья является продолжением нашего предыдущего обсуждения чтения и анализа заявлений FOMC с использованием методов обработки естественного языка. В этой части мы углубимся в..

Использование Python для кибербезопасности: сканирование сети и тестирование на проникновение с помощью Scapy и Metasploit

Кибербезопасность становится все более важной проблемой в современную цифровую эпоху. По мере того, как мир становится все более взаимосвязанным через Интернет, он становится более уязвимым..

Подход машинного обучения к сокращению количества сотрудников и производительности IBM

Прогнозирование ухода ценных сотрудников… .. В ИТ-фирме доступно множество архитектур сотрудников. Некоторые ИТ-компании или отдельные отделы или определенные уровни придерживаются структуры..

Преобразование вывода инструмента классификатора изображений Dataturks в формат Keras

Простой скрипт для создания набора данных в стандартном формате Keras. Просто предоставьте загруженный выходной файл JSON из вашего проекта в Dataturks, скрипт загрузит все изображения и создаст..

Связывание вашего пользовательского домена с приложением Heroku: пошаговое руководство с примером Godaddy

Введение : Вы хотите подключить свой домен GoDaddy к своему приложению Heroku? Не смотрите дальше! В этом подробном сообщении в блоге мы шаг за шагом проведем вас через весь процесс. В..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Web Development Python Coding Deep Learning AI Software Engineering React Nodejs Data Development Java NLP Front End Development Typescript ChatGPT CSS Angular Tutorial Learning Programming Languages Computer Science Tech Productivity Neural Networks Algorithms Cybersecurity ES6 Python Programming Developer Javascript Development Self Improvement Data Analysis HTML