Как определить размер кластера, количество узлов, тип используемого экземпляра и конфигурацию оборудования для каждой машины в HDFS? Если можно, объясните, как это можно сделать для 10 ТБ данных. например если у нас есть 10 ТБ данных, каким должен быть стандартный размер кластера, количество узлов и какой тип экземпляра можно использовать в хаупе?
Как определить размер кластера и тип экземпляра для использования в HDFS?
30.07.2018
- Что вы подразумеваете под типом экземпляра? Если вы говорите об AWS или другом облаке, вам не следует использовать HDFS в качестве постоянного хранилища... Также ваш ответ зависит от того, что вы хотите делать со своими серверами, а не только от размера данных. 30.07.2018
Ответы:
1
Я занимаюсь Hadooping уже несколько лет. Во-первых, ознакомьтесь с этим руководством Hortonworks: https://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.5.3/bk_cluster-planning/content/ch_hardware-recommendations_chapter.html
Некоторые личные заметки:
- Минимум, в зависимости от коэффициента репликации 3, вам нужно около 50 ТБ (10x3 = 30 ТБ, правило 80%: 40 ТБ можно использовать, это дает вам 8 ТБ для работы) — Итак, 5 узлов по 10 ТБ каждый для HDFS.
- HDFS может использовать не более 80% общего пространства кластера.
- Больше узлов = более быстрые задания YARN
- Hive и PIG могут читать сжатые данные, как если бы они были несжатыми.
- Лично я бы начал с 5 узлов, 3 для кворума зоопарка и 2 могут быть назначены NameNodes
Все они могут быть установлены в DataNodes
Не забудьте про сервер Ambari и сделайте из него виртуальную машину... вам потребуются ежедневные резервные копии и моментальные снимки.
- Обновления/обновления могут взорвать вещи, всегда имейте план на случай сбоя работы
- Иногда самая простая установка идет не по плану ;)
- Начните с малого и расширяйтесь! Hadoop построен на таком мышлении!
TLDR: https://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.5.3/bk_cluster-planning/content/conclusion.html
5 узлов по 10 ТБ каждый для HDFS
30.07.2018
Новые материалы
Учебные заметки JavaScript Object Oriented Labs
Вот моя седьмая неделя обучения программированию. После ruby и его фреймворка rails я начал изучать самый популярный язык интерфейса — javascript.
В отличие от ruby, javascript — это более..
Разбор строк запроса в vue.js
Иногда вам нужно получить данные из строк запроса, в этой статье показано, как это сделать.
В жизни каждого дизайнера/разработчика наступает момент, когда им необходимо беспрепятственно..
Предсказание моей следующей любимой книги 📚 Благодаря данным Goodreads и машинному обучению 👨💻
«Если вы не любите читать, значит, вы не нашли нужную книгу». - J.K. Роулинг
Эта статья сильно отличается от тех, к которым вы, возможно, привыкли . Мне очень понравилось поработать над..
Основы принципов S.O.L.I.D, Javascript, Git и NoSQL
каковы принципы S.O.L.I.D? Принципы SOLID призваны помочь разработчикам создавать надежные, удобные в сопровождении приложения. мы видим пять ключевых принципов. Принципы SOLID были разработаны..
Как настроить Selenium в проекте Angular
Угловой | Селен
Как настроить Selenium в проекте Angular
Держите свое приложение Angular и тесты Selenium в одной рабочей области и запускайте их с помощью Mocha.
В этой статье мы..
Аргументы прогрессивного улучшения почти всегда упускают суть
В наши дни в кругах веб-разработчиков много болтают о Progressive Enhancement — PE, но на самом деле почти все аргументы с обеих сторон упускают самую фундаментальную причину, по которой PE..
Введение в Джанго Фреймворк
Схема «работать умно, а не усердно»
В этой и последующих статьях я познакомлю вас с тем, что такое фреймворк Django и как создать свое первое приложение с помощью простых и понятных шагов, а..