Вопросы по теме 'bigdata'
Почему в mongodb быстрее запрашивать индексированный массив вложенных документов, чем индексированные документы первого уровня?
Вот так выглядит моя база данных:
> show dbs
admin 0.203125GB
local 0.078125GB
profiler 63.9228515625GB
> use profiler
switched to db profiler
> show collections
documents
mentions
Документ в упоминаниях выглядит так:
>...
27.04.2024
анализ данных электронной таблицы Excel с 2500000 строк
У меня есть лист Excel с 2500000 строк и размером около 7 ГБ, так как нам нужно сравнить два листа Excel такого большого размера. Невозможно даже открыть такой большой лист Excel на ноутбуке / рабочем столе.
Есть ли какое-нибудь программное...
31.03.2024
Выборка 10 000 случайных строк из набора данных объемом 200 ГБ
Я пытаюсь выбрать 10000 случайных строк из большого набора данных с ~ 3 миллиардами строк (с заголовками). Я рассматривал возможность использования shuf -n 1000 input.file > output.file , но это кажется довольно медленным (> 2 часа работы с моими...
09.05.2024
Новые материалы
React on Rails
Основное приложение Reverb - это всеми любимый монолит Rails. Он отлично обслуживает наш API и уровень просмотра трафика. По мере роста мы добавляли больше интерактивных элементов..
Что такое гибкие методологии разработки программного обеспечения
Что представляют собой гибкие методологии разработки программного обеспечения в 2023 году
Agile-методологии разработки программного обеспечения заключаются в следующем:
И. Введение
A...
Ториго — революция в игре Го
Наш следующий вызов против ИИ и для ИИ. Сможет ли он победить людей в обновленной игре Го?
Обратите внимание, что в следующей статье AI означает искусственный интеллект, а Goban —..
Простое развертывание моделей с помощью Mlflow — Упаковка классификатора обзоров продуктов NLP от HuggingFace
Как сохранить свои модели машинного обучения в формате с открытым исходным кодом с помощью MLFlow, чтобы позже получить возможность легкого развертывания. Сегодня модели упаковки имеют несколько..
Математика и интуиция - Часть 1
У каждой математической формулы есть доказательство. Часто эти доказательства слишком сложно понять, поскольку многие из них основаны на индукции, некоторые - на очень сложных наблюдениях, а..
Раскрытие возможностей НЛП: часть речевой маркировки и ее проблемы
В сфере обработки естественного языка (NLP) маркировка частей речи (POS) выступает в качестве фундаментального метода, позволяющего компьютерам понимать и анализировать человеческий язык на..
Под поверхностью: раскрытие деталей системы с помощью инструментов Linux CLI
Чем больше вы изучаете Linux и продвигаетесь вперед, тем больше вам нужно проверять информацию о вашей системе. Эта информация может касаться аппаратного обеспечения, такого как процессор,..