Хобрук: Ваш путь к мастерству в программировании

Как определить размер кластера и тип экземпляра для использования в HDFS?

Как определить размер кластера, количество узлов, тип используемого экземпляра и конфигурацию оборудования для каждой машины в HDFS? Если можно, объясните, как это можно сделать для 10 ТБ данных. например если у нас есть 10 ТБ данных, каким должен быть стандартный размер кластера, количество узлов и какой тип экземпляра можно использовать в хаупе?

30.07.2018

  • Что вы подразумеваете под типом экземпляра? Если вы говорите об AWS или другом облаке, вам не следует использовать HDFS в качестве постоянного хранилища... Также ваш ответ зависит от того, что вы хотите делать со своими серверами, а не только от размера данных. 30.07.2018

Ответы:


1

Я занимаюсь Hadooping уже несколько лет. Во-первых, ознакомьтесь с этим руководством Hortonworks: https://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.5.3/bk_cluster-planning/content/ch_hardware-recommendations_chapter.html

Некоторые личные заметки:

  • Минимум, в зависимости от коэффициента репликации 3, вам нужно около 50 ТБ (10x3 = 30 ТБ, правило 80%: 40 ТБ можно использовать, это дает вам 8 ТБ для работы) — Итак, 5 узлов по 10 ТБ каждый для HDFS.
  • HDFS может использовать не более 80% общего пространства кластера.
  • Больше узлов = более быстрые задания YARN
  • Hive и PIG могут читать сжатые данные, как если бы они были несжатыми.
  • Лично я бы начал с 5 узлов, 3 для кворума зоопарка и 2 могут быть назначены NameNodes
  • Все они могут быть установлены в DataNodes

  • Не забудьте про сервер Ambari и сделайте из него виртуальную машину... вам потребуются ежедневные резервные копии и моментальные снимки.

  • Обновления/обновления могут взорвать вещи, всегда имейте план на случай сбоя работы
  • Иногда самая простая установка идет не по плану ;)
  • Начните с малого и расширяйтесь! Hadoop построен на таком мышлении!

TLDR: https://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.5.3/bk_cluster-planning/content/conclusion.html

5 узлов по 10 ТБ каждый для HDFS

30.07.2018
  • Теперь, когда HDP выпущен на Hadoop 3, это правило 3-кратного хранения больше не применяется к Erasure Coding. 31.07.2018
  • Это очень интересно, хотя я бы все равно избегал чего-либо выше 2.6.4 для производственных целей. Все, что находится на переднем крае, обычно не так надежно;) 31.07.2018
  • Истинный. Кстати, вы забыли упомянуть в ответе сервисы YARN и требования к памяти для того, чтобы втиснуть все эти сервисы всего в 5 машин (плюс ВМ) 31.07.2018
  • Да, я думаю, что если он будет придерживаться руководства (минимум от 24 до 48 ГБ ОЗУ на узел), с ним все будет в порядке. Хотя он не ответил и не сказал конкретно о том, что он делает, лол. 31.07.2018
  • Спасибо за ваши ответы. Я она, а не он. Спасибо @Petro за объяснение. Я проверил ссылку, которую вы предоставили, и она была полезной. 31.07.2018
  • @Sudha, я рад, что смог помочь, отметьте ответ правильным и дайте мне знать, если у вас есть другие вопросы. 31.07.2018
  • @cricket_007, не могли бы вы уточнить свой комментарий, если мы используем экземпляр AWS, HDFS не следует использовать для постоянного хранения 31.07.2018
  • @Sudha EMR или другие поставщики облачных услуг будут использовать S3 или другое объектное хранилище. HDFS очень дорогая на томах EBS по сравнению с S3 31.07.2018
  • @cricket_007 большое спасибо. Я новичок в Hadoop и все еще пытаюсь изучить эти концепции. У меня больше нет вопросов. 01.08.2018
  • Новые материалы

    Учебные заметки JavaScript Object Oriented Labs
    Вот моя седьмая неделя обучения программированию. После ruby ​​и его фреймворка rails я начал изучать самый популярный язык интерфейса — javascript. В отличие от ruby, javascript — это более..

    Разбор строк запроса в vue.js
    Иногда вам нужно получить данные из строк запроса, в этой статье показано, как это сделать. В жизни каждого дизайнера/разработчика наступает момент, когда им необходимо беспрепятственно..

    Предсказание моей следующей любимой книги 📚 Благодаря данным Goodreads и машинному обучению 👨‍💻
    «Если вы не любите читать, значит, вы не нашли нужную книгу». - J.K. Роулинг Эта статья сильно отличается от тех, к которым вы, возможно, привыкли . Мне очень понравилось поработать над..

    Основы принципов S.O.L.I.D, Javascript, Git и NoSQL
    каковы принципы S.O.L.I.D? Принципы SOLID призваны помочь разработчикам создавать надежные, удобные в сопровождении приложения. мы видим пять ключевых принципов. Принципы SOLID были разработаны..

    Как настроить Selenium в проекте Angular
    Угловой | Селен Как настроить Selenium в проекте Angular Держите свое приложение Angular и тесты Selenium в одной рабочей области и запускайте их с помощью Mocha. В этой статье мы..

    Аргументы прогрессивного улучшения почти всегда упускают суть
    В наши дни в кругах веб-разработчиков много болтают о Progressive Enhancement — PE, но на самом деле почти все аргументы с обеих сторон упускают самую фундаментальную причину, по которой PE..

    Введение в Джанго Фреймворк
    Схема «работать умно, а не усердно» В этой и последующих статьях я познакомлю вас с тем, что такое фреймворк Django и как создать свое первое приложение с помощью простых и понятных шагов, а..