Я пишу несколько файлов CSV из своей локальной файловой системы в HDFS, используя Flume.
Я хочу знать, какой будет наилучшая конфигурация для стока Flume HDFS, чтобы каждый файл в локальной системе копировался точно в HDFS как CSV. Я хочу, чтобы каждый CSV-файл, обрабатываемый Flume, был одним событием, сбрасывался и записывался как один файл. Насколько это возможно, я хочу, чтобы файл был точно таким же, без заголовков и т. Д.
Что мне нужно добавить к этим значениям, чтобы имитировать поведение, которое я хочу?
hdfs.batchSize = x
hdfs.rollSize = x
hdfs.rollInterval = x
hdfs.rollCount = x
Пожалуйста, укажите, есть ли другие переменные конфигурации агента Flume, которые мне также нужно изменить.
Если это не будет работать с использованием существующей конфигурации, нужно ли мне использовать собственный приемник, чтобы добиться того, чего я хочу?
Спасибо за ваш вклад.
P.S. Я знаю, что hadoop fs -put или -copyFromLocal больше подходят для этой работы, но поскольку это проверка концепции (показывающая, что мы можем использовать Flume для приема данных) , поэтому мне нужно использовать Flume.