Flume——sink连接hdfs的参数配置(属性参数+时间参数)

channel -
type - 组件类型名称,必须是hdfs
hdfs.path - HDFS路径,例如:hdfs://mycluster/flume/mydata
hdfs.filePrefix FlumeData flume在hdfs目录中创建文件的前缀
hdfs.fileSuffix - flume在hdfs目录中创建文件的后缀
hdfs.inUsePrefix - flume正在写入的临时文件的前缀
hdfs.inUseSuffix .tmp flume正在写入的临时文件的后缀
hdfs.rollInterval 30 多长时间写一个新的文件 (0 = 不写新的文件),单位:秒
hdfs.rollSize 1024 文件多大时写新文件,单位:字节(0: 不基于文件大小写新文件)
hdfs.rollCount 10 当写一个新的文件之前要求当前文件写入多少事件(0 = 不基于事件数写新文件)
hdfs.idleTimeout 0 多长时间没有新增事件则关闭文件(0 = 不自动关闭文件),单位:秒
hdfs.batchSize 100 写多少个事件开始向HDFS刷数据
hdfs.codeC - 压缩格式:gzip, bzip2, lzo, lzop, snappy
hdfs.fileType SequenceFile 支持的值有:SequenceFile,DataStream,CompressedStream
hdfs.maxOpenFiles 5000 最大打开文件数。如果数量超了则关闭最旧的文件
hdfs.minBlockReplicas - 对每个hdfs的block设置最小副本数。不指定则使用hadoop的配置值(默认为1)
hdfs.writeFormat - 对于sequence file记录的类型。Text或者Writable(默认值)
hdfs.callTimeout 10000 为HDFS操作(如open、write、flush、close)准备的时间,单位:毫秒
hdfs.threadsPoolSize 10 每个HDFS sink用于HDFS io操作的线程数
hdfs.rollTimerPoolSize 1 每个HDFS sink用于调度计时文件滚动的线程数
hdfs.round false 是否需要新建文件夹以支持文件夹滚动
hdfs.roundValue 1 与roundUnit一起指定文件夹滚动的时长,会四舍五入
hdfs.roundUnit second 控制文件夹个数。多长时间生成新文件夹,可设置为second, minute或hour
hdfs.timeZone Local Time 用于解析目录路径的时区名称,例如:America/Los_Angeles
hdfs.useLocalTimeStamp false 一般设置为true以使用本地时间。若不使用,则要求flume发送的事件header中带有时间戳
上一篇:【案例实操】基于LEAP模型在能源环境发展、碳排放建模预测及分析中实践应用


下一篇:命令模式的理解和实践