Я пытаюсь определить идеальный размер файла, хранящегося в S3, который будет использоваться в заданиях Hadoop в EMR.
В настоящее время у меня есть большие текстовые файлы размером около 5-10 ГБ. Меня беспокоит задержка при копировании этих больших файлов в HDFS для запуска заданий MapReduce. У меня есть возможность уменьшить размер этих файлов.
Я знаю, что файлы S3 копируются параллельно в HDFS при использовании S3 в качестве входного каталога в заданиях MapReduce. Но будет ли один большой файл копироваться в HDFS с использованием одного потока или этот файл будет копироваться как несколько частей параллельно? Кроме того, влияет ли сжатие Gzip на копирование одного файла из нескольких частей?
That means that a single mapper (a single thread) is responsible for fetching the data from Amazon S3. Since a single thread is limited to how much data it can pull from Amazon S3 at any given time (throughput), the process of reading the entire file from Amazon S3 into the mapper becomes the bottleneck in your data processing workflow.
04.11.2016