当前位置: 首页 > news >正文

大数据做网站流量分析seo推广的特点

大数据做网站流量分析,seo推广的特点,网站开发简历的项目经验,网页游戏网址推荐1.Flume概述 1.运行机制 Flume系统中核心的角色是*agent*,agent本身是一个Java进程,一般运行在日志收集节点。 每一个agent相当于一个数据传递员,内部有三个组件: Source:采集源,用于跟数据源对接&#x…

1.Flume概述

1.运行机制

Flume系统中核心的角色是*agent*,agent本身是一个Java进程,一般运行在日志收集节点。

每一个agent相当于一个数据传递员,内部有三个组件:

  • Source:采集源,用于跟数据源对接,以获取数据;

  • Sink:下沉地,采集数据的传送目的地,用于往下一级agent传递数据或者往最终存储系统传递数据;

  • Channel:agent内部的数据传输通道,用于从source将数据传递到sink;

在整个数据的传输的过程中,流动的是*event*,它是Flume内部数据传输的最基本单元。event将传输的数据进行封装。如果是文本文件,通常是一行记录,event也是事务的基本单位。event从source,流向channel,再到sink,本身为一个字节数组,并可携带headers(头信息)信息。event代表着一个数据的最小完整单元,从外部数据源来,向外部的目的地去。

一个完整的event包括:event headers、event body、event信息,其中event信息就是flume收集到的日记记录。

2.安装部署

1.上传安装包到/opt/tools

2.解压

tar -zxvf apache-flume-1.9.0-bin.tar.gz -C /opt/server

3.进入flume的目录,修改conf下的flume-env.sh,配置JAVA_HOME

cd /opt/server/apache-flume-1.9.0-bin/conf
# 先复制一份flume-env.sh.template文件
cp flume-env.sh.template flume-env.sh
# 修改
vim flume-env.sh
export JAVA_HOME=/opt/server/jdk1.8.0_131

2. 采集Nginx日志数据至HDFS

1.安装nginx

yum install epel-release
yum update
yum -y install nginx

 nginx命令

systemctl start nginx #开启nginx服务
systemctl stop nginx #停止nginx服务
systemctl restart nginx #重启nginx服务
sudo systemctl status nginx

访问http://192.168.59.100/ ,要是自己的ip

网站日志文件位置

cd /var/log/nginx
cat access.log 

 2.编写配置文件

cp /opt/server/hadoop-3.1.0/share/hadoop/common/*.jar /opt/server/apache-flume-1.9.0-bin/lib
cp /opt/server/hadoop-3.1.0/share/hadoop/common/lib/*.jar /opt/server/apache-flume-1.9.0-bin/lib
cp /opt/server/hadoop-3.1.0/share/hadoop/hdfs/*.jar /opt/server/apache-flume-1.9.0-bin/lib

进入/opt/server/apache-flume-1.9.0-bin/conf 

创建配置文件,taildir-hdfs.conf

监控 /var/log/nginx 目录下的日志文件

vim taildir-hdfs.conf
a3.sources = r3
a3.sinks = k3
a3.channels = c3# Describe/configure the source
a3.sources.r3.type = TAILDIR
a3.sources.r3.filegroups = f1
# 此处支持正则
a3.sources.r3.filegroups.f1 = /var/log/nginx/access.log
# 用于记录文件读取的位置信息
a3.sources.r3.positionFile = /opt/server/apache-flume-1.9.0-bin/tail_dir.json# Describe the sink
a3.sinks.k3.type = hdfs
a3.sinks.k3.hdfs.path = hdfs://server:8020/user/tailDir
a3.sinks.k3.hdfs.fileType = DataStream
# 设置每个文件的滚动大小大概是 128M,默认值:1024,当临时文件达到该大小(单位:bytes)时,滚动成目标文件。如果设置成0,则表示不根据临时文件大小来滚动文件。
a3.sinks.k3.hdfs.rollSize = 134217700
# 默认值:10,当events数据达到该数量时候,将临时文件滚动成目标文件,如果设置成0,则表示不根据events数据来滚动文件。
a3.sinks.k3.hdfs.rollCount = 0
# 不随时间滚动,默认为30秒
a3.sinks.k3.hdfs.rollInterval = 10
# flume检测到hdfs在复制块时会自动滚动文件,导致roll参数不生效,要将该参数设置为1;否则HFDS文件所在块的复制会引起文件滚动
a3.sinks.k3.hdfs.minBlockReplicas = 1
# Use a channel which buffers events in memory
a3.channels.c3.type = memory
a3.channels.c3.capacity = 1000
a3.channels.c3.transactionCapacity = 100# Bind the source and sink to the channel
a3.sources.r3.channels = c3
a3.sinks.k3.channel = c3

3 启动Flume

 返回上一级bin目录,运行

bin/flume-ng agent -c ./conf -f ./conf/taildir-hdfs.conf -n a3 -Dflume.root.logger=INFO,console

刷新网站就能看到

 

http://www.dtcms.com/a/508826.html

相关文章:

  • 网站虚拟交易技术怎么做建站设计公司
  • 龙虎榜——20251020
  • 网站改版原因东莞专业网站推广策划
  • 扎根中亚十三年,科伦药业打造现代化综合性药厂
  • 基于C语言和Ncurses的俄罗斯方块游戏实现
  • 企业网站脚本语言网站代备案公司
  • 网站建设托管预算清单展厅设计培训
  • PCIe协议之 Equalization篇 之 关于 TxSwing 的理解
  • 海康域名网站有做门窗找活的网站吗
  • 福建省龙岩市建设培训中心网站网站内容一样影响收录
  • 流行网站类型大学网站建设宣传方案
  • 久久网站建设巴中市平昌县建设局网站
  • idea整合Git
  • 如何选择性价比高的中药饮片才能确保品质与效果?
  • 设计师网站图片重庆市建设工程信息网官网工程押证
  • 私人程序定制:纳什欺诈谈判
  • 呼和浩特市网站建设什么叫宣传类网站
  • 建设银行网站-个人业务泰州网站建设设计
  • MySQL的json处理相关方法
  • 兰州网站建设营销q479185700刷屏外贸网站排名
  • 网站加入地图企业网站维护工作
  • TDengine 数据函数 MOD 用户手册
  • 创业公司做网站免费开发游戏
  • 企业网站seo策略网站开发费
  • 怎么介绍自己做的网站网站标签怎样修改
  • 保定电子商务网站建设域名申请好了怎么做网站
  • 大规模车辆路径问题的增强神经组合优化(ICRL‘25)
  • 怎么用自己电脑做网站服务器吗wordpress 房产类模板
  • 优质双轴倾角传感器厂家与物联网角度传感器资源整合探讨
  • 股票分析AI系统部署技术方案