Хобрук: Ваш путь к мастерству в программировании

Публикации по теме 'apache-spark'


То, что я хотел бы знать до того, как мы начали наш первый проект по машинному обучению
Все новое приносит с собой много неизвестного, которое мы обнаруживаем со временем. Проведя какое-то время с любой новой технологией, у нас есть список вещей, которые мы хотели бы отправить обратно нашему старому «я». Это один из тех списков, которые я хотел бы отправить обратно нашей команде, прежде чем мы приступим к созданию нашего первого конвейера машинного обучения. Имея это, можно было бы сэкономить много нашего времени и надеяться, что, поделившись этим, вы сэкономите. Как я..

Подготовка данных для модели Apache Spark ML
Разработка признаков перед вводом данных в модели Spark ML. Введение Apache Spark — это мощный инструмент с открытым исходным кодом для крупномасштабной обработки данных и моделирования. PySpark позволяет писать искровые приложения с использованием API-интерфейсов Python. Он предоставляет встроенную библиотеку машинного обучения (MLlib), которую можно использовать для создания масштабируемых моделей машинного обучения. В этой статье основное внимание уделяется этапам подготовки..

Вопросы по теме 'apache-spark'

Изменить память исполнителя (и другие конфигурации) для Spark Shell
Как изменить память исполнителя (и другие конфигурации) для Apache Spark Shell? В частности, я хотел бы указать квартиры для spark-shell, например -Dspark-cores-max=12, когда я запускаю его, чтобы мои задания в spark shell использовали эти...
15.04.2024

Сортировать по 3-му элементу кортежа, затем группировать по первому и присваивать ранг
Я новичок в apache-spark и scala, поэтому прошу прощения, если это тривиальный вопрос. Я пытаюсь создать рекомендательную систему и иметь RDD в форме (пользователь, продукт, прогнозируемый рейтинг). Чего я хочу добиться: Сгруппированные по...
05.05.2024

Настройте spark с помощью внешней виртуальной машины
Я не такой большой компьютерный человек, как многие другие здесь, я специализировался на математике, а MatLab был моим основным компьютерным знанием. Недавно я начал работать с Apache Spark благодаря отличному курсу edX, который предлагает Беркли....

Почему start-all.sh из основной причины не удалось запустить org.apache.spark.deploy.master.Master: JAVA_HOME не установлен?
Я пытаюсь запустить приложение Spark, созданное с помощью Scala IDE, через мою автономную службу Spark, работающую на виртуальной машине cloudera quickstart 5.3.0. Моя учетная запись Cloudera JAVA_HOME — это /usr/java/default Однако я...

контекст искры не может быть преобразован в MLUtils.loadLibSVMFile с Intellij
Я пытаюсь запустить пример многоуровневого классификатора персептрона здесь: https://spark.apache.org/docs/1.5.2/ml-ann.html , кажется, он хорошо работает в spark-shell, но не в IDE, такой как Intellij и Eclipse. Проблема исходит от val data =...

Spark Streaming: как добавить дополнительные разделы в свой DStream?
У меня есть искровое потоковое приложение, которое выглядит так: val message = KafkaUtils.createStream(...).map(_._2) message.foreachRDD( rdd => { if (!rdd.isEmpty){ val kafkaDF = sqlContext.read.json(rdd)...

Spark Streaming Standalone: ​​сохранение журналов
Я запускаю искровое потоковое приложение на автономной установке (версия 1.6.1). Когда я запускаю приложение с помощью spark-submit, журналы отображаются на терминале. Они пригодятся позже, например, чтобы понять, в чем причина сбоя приложения, если...

Установка зависимостей/библиотек для EMR для spark-shell
Я пытаюсь добавить дополнительные библиотеки в scala, используемые через spark-shell, через inatance Elsatic MapReduce. Но я не уверен, как это сделать, есть ли инструмент сборки, который используется при запуске spark-shell? Все, что мне нужно...

java.lang.ClassNotFoundException при запуске программы в искровом кластере
У меня есть программа spark scala, которая загружает банку, которую я написал на java. Из этого jar вызывается статическая функция, которая пытается прочитать сериализованный объект из файла ( Pattern.class ), но выдает ошибку...

Компиляция Spark Mllib с помощью sbt
Я уже некоторое время вношу некоторые модификации в Spark Mllib, и каждый раз, когда я хочу скомпилировать Spark, я должен сделать следующее: sbt update sbt compile sbt clean sbt package Хотя эта процедура дает то, что я хочу, я считаю...
06.06.2024

Как получить общее количество записей, обработанных Spark Streaming?
Кто-нибудь знает, как Spark вычисляет количество записей (я думаю, это то же самое, что и количество событий в пакете), как показано здесь? Я пытаюсь выяснить, как я могу получить это значение удаленно (REST-API не существует для опции...
31.05.2024

Могу ли я извлечь значимые значения для коэффициентов логистической регрессии в pyspark
Есть ли способ получить уровень значимости каждого коэффициента, который мы получаем после того, как мы подогнали модель логистической регрессии к обучающим данным? Я пытался найти способ и не мог понять сам. Я думаю, что я могу получить уровень...

нотации веб-интерфейса искры
Я запускаю образец задания на своем конце, и пользовательский интерфейс задания искры говорит, что общее время безотказной работы составляет 26 секунд, но когда я добавляю столбец продолжительности для заданий, это составляет всего около 17-18 секунд....
25.04.2024

Что происходит внутри, когда вы указываете больше разделов, чем количество доступных ядер?
Например, у моего ноутбука 8 ядер, и если я отправлю: sc.parallelize(1 to 100, 30).count Выполняет ли он сначала 8 задач, а затем остальные 22 задачи выполняются одна за другой, когда ядро ​​становится доступным? Есть ли способ проверить,...
12.03.2024

Kinit со Spark при подключении к Hive
Я пытаюсь подключиться к Hive (кластер hadoop имеет аутентификацию kerberos) из Spark, который является автономным. Может ли кто-нибудь дать мне знать, как сделать kinit в программе spark, которую я мог бы подключить к улью? ОБНОВЛЕНИЕ: мой...

Как преобразовать фрейм данных в набор данных в Apache Spark в Scala?
Мне нужно преобразовать мой фрейм данных в набор данных, и я использовал следующий код: val final_df = Dataframe.withColumn( "features", toVec4( // casting into Timestamp to parse the string, and then into Int...

Как анализировать поля с разделителями, если некоторые (под)поля пусты?
Я использую Spark 2.1.1 и Scala 2.11.8 в искровой оболочке. Мой набор входных данных выглядит примерно так: 2017-06-18 00:00:00 , 1497769200 , z287570731_serv80i:7:175 , 5:Re 2017-06-18 00:00:00 , 1497769200 , p286274731_serv80i:6:100 , 138...
21.03.2024

Отправка метрик потоковой передачи Spark для открытия tsdb
Как я могу отправить метрики из моего задания потоковой передачи искры в открытую базу данных tsdb? Я пытаюсь использовать открытый tsdb в качестве источника данных в Grafana. Не могли бы вы помочь мне с некоторыми ссылками, с которых я могу начать....

Настраиваемая функция SparkSQL в предложении when
У меня есть такой DataFrame: id val1 val2 ------------ 1 v11 v12 2 v21 v22 3 v31 v32 4 v41 v42 5 v51 v52 6 v61 v62 Каждая строка представляет человека, который может принадлежать к одной или нескольким группам. У меня есть...

Изменение spark.memory.storageFraction не влияет на столбец «Хранилище памяти» на вкладке «Исполнители».
Я пытаюсь поиграть с параметром spark.memory.storageFraction , чтобы уменьшить объем памяти, сохраняемой для кеша. Однако установка его на 0,1, 0,5 или даже 0,9 не показывает никаких изменений в столбце «Хранилище» на вкладке «Исполнители»:...

Новые материалы

Основы принципов S.O.L.I.D, Javascript, Git и NoSQL
каковы принципы S.O.L.I.D? Принципы SOLID призваны помочь разработчикам создавать надежные, удобные в сопровождении приложения. мы видим пять ключевых принципов. Принципы SOLID были разработаны..

Как настроить Selenium в проекте Angular
Угловой | Селен Как настроить Selenium в проекте Angular Держите свое приложение Angular и тесты Selenium в одной рабочей области и запускайте их с помощью Mocha. В этой статье мы..

Аргументы прогрессивного улучшения почти всегда упускают суть
В наши дни в кругах веб-разработчиков много болтают о Progressive Enhancement — PE, но на самом деле почти все аргументы с обеих сторон упускают самую фундаментальную причину, по которой PE..

Введение в Джанго Фреймворк
Схема «работать умно, а не усердно» В этой и последующих статьях я познакомлю вас с тем, что такое фреймворк Django и как создать свое первое приложение с помощью простых и понятных шагов, а..

Настольный ПК как «одно кольцо, чтобы править всеми» домашних компьютеров
Вид после 9 месяцев использования С настольных компьютеров все началось, но в какой-то момент они стали «серверами», и мы все перешли на ноутбуки. В прошлом году я столкнулся с идеей настольных..

Расширенные методы безопасности для VueJS: реализация аутентификации без пароля
Руководство, которое поможет вам создавать безопасные приложения в долгосрочной перспективе Безопасность приложений часто упускается из виду в процессе разработки, потому что основная..

стройный-i18следующий
Представляем стройную оболочку для i18next. Эта библиотека, основанная на i18next, заключает экземпляр i18next в хранилище svelte и отслеживает события i18next, такие как languageChanged,..