Я не такой большой компьютерный человек, как многие другие здесь, я специализировался на математике, а MatLab был моим основным компьютерным знанием. Недавно я начал работать с Apache Spark благодаря отличному курсу edX, который предлагает Беркли.
Метод, который они использовали для настройки Spark, был представлен в отличном пошаговом руководстве, он включал: загрузку Oracle VM Virtual Box с 32-битной виртуальной машиной Ubuntu, а затем использование бродяги (опять же, я не очень компьютерный так что не уверен на 100%, как это работает или что это такое) подключите это к ноутбуку IPython. Это позволило мне получить доступ к Spark через Интернет и писать код на python с помощью pySpark, это именно то, что я хочу сделать.
Все шло очень хорошо, пока на втором лабораторном занятии не выяснилось, что у моего ноутбука с Windows недостаточно свободной памяти (всего 3 Гб и четыре года), после того, как он постоянно зависал и зависал при попытке работать с большими наборами данных.
По-видимому, невозможно иметь виртуальную машину в виртуальной машине, поэтому я провел большую часть сегодняшнего дня в поисках альтернативных способов настройки Spark, но безрезультатно; все руководства предназначены для тех, у кого больше знаний о компьютерах, чем у меня.
Моя (вероятно, наивная) идея теперь состоит в том, чтобы арендовать внешнюю машину, с которой я могу взаимодействовать через свой ноутбук с Windows полностью, как и раньше, но так, чтобы виртуальная машина работала вне памяти моего ноутбука, то есть в облаке (используя любой из Ubuntu, Windows , и т.д.). По сути, я хочу переместить виртуальную коробку Oracle VM во внешний источник, чтобы избавить мой компьютер от нагрузки на память и использовать ноутбук Ipython, как и раньше.
Как настроить виртуальную машину для вычислительной части Spark в ноутбуке Ipython?
Или есть альтернативный метод, которому было бы просто следовать?