Хобрук: Ваш путь к мастерству в программировании

Настройте spark с помощью внешней виртуальной машины

Я не такой большой компьютерный человек, как многие другие здесь, я специализировался на математике, а MatLab был моим основным компьютерным знанием. Недавно я начал работать с Apache Spark благодаря отличному курсу edX, который предлагает Беркли.

Метод, который они использовали для настройки Spark, был представлен в отличном пошаговом руководстве, он включал: загрузку Oracle VM Virtual Box с 32-битной виртуальной машиной Ubuntu, а затем использование бродяги (опять же, я не очень компьютерный так что не уверен на 100%, как это работает или что это такое) подключите это к ноутбуку IPython. Это позволило мне получить доступ к Spark через Интернет и писать код на python с помощью pySpark, это именно то, что я хочу сделать.

Все шло очень хорошо, пока на втором лабораторном занятии не выяснилось, что у моего ноутбука с Windows недостаточно свободной памяти (всего 3 Гб и четыре года), после того, как он постоянно зависал и зависал при попытке работать с большими наборами данных.

По-видимому, невозможно иметь виртуальную машину в виртуальной машине, поэтому я провел большую часть сегодняшнего дня в поисках альтернативных способов настройки Spark, но безрезультатно; все руководства предназначены для тех, у кого больше знаний о компьютерах, чем у меня.

Моя (вероятно, наивная) идея теперь состоит в том, чтобы арендовать внешнюю машину, с которой я могу взаимодействовать через свой ноутбук с Windows полностью, как и раньше, но так, чтобы виртуальная машина работала вне памяти моего ноутбука, то есть в облаке (используя любой из Ubuntu, Windows , и т.д.). По сути, я хочу переместить виртуальную коробку Oracle VM во внешний источник, чтобы избавить мой компьютер от нагрузки на память и использовать ноутбук Ipython, как и раньше.

Как настроить виртуальную машину для вычислительной части Spark в ноутбуке Ipython?

Или есть альтернативный метод, которому было бы просто следовать?


Ответы:


1

Не запускайте виртуальные машины. Вместо:

  • Загрузите последнюю версию Spark. (на данный момент 1.4.1.)
  • Распакуйте архив.
  • Выполнить bin/pyspark.cmd.

Это не блокнот IPython, но вы можете запускать код Python на локальном экземпляре Spark.

Если вам нужен более мощный экземпляр, сделайте то же самое на мощной удаленной машине. Например, EC2 m4.2xlarge стоит 0,5 доллара в час с 8 ядрами и 30 ГБ ОЗУ.

16.07.2015
  • Привет, Даниил, спасибо за ваш вклад. Смогу ли я создавать графики и использовать другие специальные функции, доступные в Ipython? Я попытался запустить из cmd, но получаю сообщение: «python» не распознается как внутренняя или внешняя команда, исполняемая программа или пакетный файл. 17.07.2015
  • Нет, интегрированных графиков вы не получите. Вы можете импортировать matplotlib и создавать графики в виде файлов. Однако вам нужно установить Python. 17.07.2015
  • У меня есть python 2.7.10, но я все еще получаю то же сообщение об ошибке, есть идеи? 17.07.2015
  • Новые материалы

    Создание кнопочного меню с использованием HTML, CSS и JavaScript
    Вы будете создавать кнопочное меню, которое имеет состояние наведения, а также позволяет вам выбирать кнопку при нажатии на нее. Финальный проект можно увидеть в этом Codepen . Шаг 1..

    Внедрите OAuth в свои веб-приложения для повышения безопасности
    OAuth — это широко распространенный стандарт авторизации, который позволяет приложениям получать доступ к ресурсам от имени пользователя, не раскрывая его пароль. Это позволяет пользователям..

    Классы в JavaScript
    class является образцом java Script Object. Конструкция «class» позволяет определять классы на основе прототипов с чистым, красивым синтаксисом. // define class Human class Human {..

    Как свинг-трейдеры могут использовать ИИ для больших выигрышей
    По мере того как все больше и больше профессиональных трейдеров и активных розничных трейдеров узнают о возможностях, которые предоставляет искусственный интеллект и машинное обучение для улучшения..

    Как построить любой стол
    Я разработчик программного обеспечения. Я люблю делать вещи и всегда любил. Для меня программирование всегда было способом создавать вещи, используя только компьютер и мое воображение...

    Обзор: Машинное обучение: классификация
    Только что закончил третий курс курса 4 часть специализации по машинному обучению . Как и второй курс, он был посвящен низкоуровневой работе алгоритмов машинного обучения. Что касается..

    Разработка расширений Qlik Sense с qExt
    Использование современных инструментов веб-разработки для разработки крутых расширений Вы когда-нибудь хотели кнопку для установки переменной в приложении Qlik Sense? Когда-нибудь просили..