当前位置：首页 > news >正文

Flume日志采集工具

news 2025/7/10 10:46:15

1.Flume概述

1.运行机制

Flume系统中核心的角色是*agent*，agent本身是一个Java进程，一般运行在日志收集节点。

每一个agent相当于一个数据传递员，内部有三个组件：

Source：采集源，用于跟数据源对接，以获取数据；
Sink：下沉地，采集数据的传送目的地，用于往下一级agent传递数据或者往最终存储系统传递数据；
Channel：agent内部的数据传输通道，用于从source将数据传递到sink；

在整个数据的传输的过程中，流动的是*event*，它是Flume内部数据传输的最基本单元。event将传输的数据进行封装。如果是文本文件，通常是一行记录，event也是事务的基本单位。event从source，流向channel，再到sink，本身为一个字节数组，并可携带headers(头信息)信息。event代表着一个数据的最小完整单元，从外部数据源来，向外部的目的地去。

一个完整的event包括：event headers、event body、event信息，其中event信息就是flume收集到的日记记录。

2.安装部署

1.上传安装包到/opt/tools

2.解压

tar -zxvf apache-flume-1.9.0-bin.tar.gz -C /opt/server

3.进入flume的目录，修改conf下的flume-env.sh，配置JAVA_HOME

cd /opt/server/apache-flume-1.9.0-bin/conf
# 先复制一份flume-env.sh.template文件
cp flume-env.sh.template flume-env.sh
# 修改
vim flume-env.sh
export JAVA_HOME=/opt/server/jdk1.8.0_131

2. 采集Nginx日志数据至HDFS

1.安装nginx

yum install epel-release
yum update
yum -y install nginx

nginx命令

systemctl start nginx #开启nginx服务
systemctl stop nginx #停止nginx服务
systemctl restart nginx #重启nginx服务
sudo systemctl status nginx

访问http://192.168.59.100/ ，要是自己的ip

网站日志文件位置

cd /var/log/nginx
cat access.log

2.编写配置文件

cp /opt/server/hadoop-3.1.0/share/hadoop/common/*.jar /opt/server/apache-flume-1.9.0-bin/lib
cp /opt/server/hadoop-3.1.0/share/hadoop/common/lib/*.jar /opt/server/apache-flume-1.9.0-bin/lib
cp /opt/server/hadoop-3.1.0/share/hadoop/hdfs/*.jar /opt/server/apache-flume-1.9.0-bin/lib

进入/opt/server/apache-flume-1.9.0-bin/conf

创建配置文件，taildir-hdfs.conf

监控 /var/log/nginx 目录下的日志文件

vim taildir-hdfs.conf

a3.sources = r3
a3.sinks = k3
a3.channels = c3# Describe/configure the source
a3.sources.r3.type = TAILDIR
a3.sources.r3.filegroups = f1
# 此处支持正则
a3.sources.r3.filegroups.f1 = /var/log/nginx/access.log
# 用于记录文件读取的位置信息
a3.sources.r3.positionFile = /opt/server/apache-flume-1.9.0-bin/tail_dir.json# Describe the sink
a3.sinks.k3.type = hdfs
a3.sinks.k3.hdfs.path = hdfs://server:8020/user/tailDir
a3.sinks.k3.hdfs.fileType = DataStream
# 设置每个文件的滚动大小大概是 128M，默认值：1024，当临时文件达到该大小（单位：bytes）时，滚动成目标文件。如果设置成0，则表示不根据临时文件大小来滚动文件。
a3.sinks.k3.hdfs.rollSize = 134217700
# 默认值：10，当events数据达到该数量时候，将临时文件滚动成目标文件，如果设置成0，则表示不根据events数据来滚动文件。
a3.sinks.k3.hdfs.rollCount = 0
# 不随时间滚动，默认为30秒
a3.sinks.k3.hdfs.rollInterval = 10
# flume检测到hdfs在复制块时会自动滚动文件，导致roll参数不生效，要将该参数设置为1；否则HFDS文件所在块的复制会引起文件滚动
a3.sinks.k3.hdfs.minBlockReplicas = 1
# Use a channel which buffers events in memory
a3.channels.c3.type = memory
a3.channels.c3.capacity = 1000
a3.channels.c3.transactionCapacity = 100# Bind the source and sink to the channel
a3.sources.r3.channels = c3
a3.sinks.k3.channel = c3

3 启动Flume

返回上一级bin目录，运行

bin/flume-ng agent -c ./conf -f ./conf/taildir-hdfs.conf -n a3 -Dflume.root.logger=INFO,console

刷新网站就能看到

查看全文

http://www.dtcms.com/a/270774.html

深入理解图像二值化：从静态图像到视频流实时处理

迁移Oracle SH 示例 schema 到 PostgreSQL

qml加载html以及交互

python安装pandas模块报错问题

Opencv探索之旅：从像素变化到世界轮廓的奥秘

Adobe Illustrator 2025 安装图文教程 | 快速上手平面设计

让AI绘图更可控！ComfyUI-Cosmos-Predict2基础使用指南

分治算法---快排

ts学习1

宏集案例 | 基于CODESYS的自动化控制系统，开放架构 × 高度集成 × 远程运维

打破传统，开启 AR 智慧课堂

react16-react19都更新哪些内容？

【LeetCode 热题 100】136. 只出现一次的数字——异或

Deepoc具身智能大模型：送餐机器人如何学会“读心术”

Java结构型模式---装饰者模式

Vue3 Element plus table有fixed列时错行

Embarcadero Delphi 12.3 Crack

C++ 中最短路算法的详细介绍

B站排名优化：从算法密码到流量密钥的全方位解析

vue快速上手

前端开发自动化设计详解

【牛客刷题】游游的字母串

2023年IEEE TITS SCI2区TOP，增强回溯搜索算法EBSA+多无人机辅助商业包裹递送系统飞行规划，深度解析+性能实测

NLP：初识RNN模型（概念、分类、作用）

HarmonyOS应用开发者高级试题2025年7月部分单选题

【深度学习】【入门】Sequential的使用和简单神经网络搭建

Selenium+Pytest自动化测试框架实战前言#

使用LLaMA-Factory微调Qwen2.5-VL-3B 的目标检测任务-数据集格式转换（voc 转 ShareGPT）

Mac mini 高性价比扩容 + Crossover 游戏实测全流程手册

SpringCloud系列 - Seata 分布式事务（六）