使用spark 计算netflow数据初探

时间：2015-10-13 21:13:19 阅读：635 评论：0 收藏：0 [点我收藏+]

spark是一个高性能的并发的计算平台，而netflow是一种一般来说数量级很大的数据。本文记录初步使用spark 计算netflow数据的大致过程。

本文包括以下过程：

1. spark环境的搭建

2. netflow数据的生成与处理

3. 通过spark 计算netflow数据

spark 安装

spark环境的搭建主要分2部分。

hadoop的环境的搭建
spark的安装

hadoop的安装

这里不做详细介绍。主要安装hdfs和yarn。可参考apache官方文档

spark的安装

如下

netflow数据的生成与处理

netflow是路由器设备在激活了netflow feature后生产的一些统计数据，这些数据会发给收集器如pmacct。数据转换成csv格式大概如下：

TAG,IN_IFACE,OUT_IFACE,SRC_IP,DST_IP,SRC_PORT,DST_PORT,PROTOCOL,ip_dscp,flow_direction,PACKETS,BYTES
10001,1,1,42.120.83.100,42.120.85.157,12995,18193,ipv6-crypt,16,0,5,2042
10001,1,1,42.120.83.246,42.120.87.145,12517,19733,ospf,10,1,6,2294
10001,1,1,42.120.87.154,42.120.86.250,18757,11987,ipv6-auth,22,1,3,3236

具体请了解netflow。

这里说的处理是指做两件事：

1. 去掉第一行的TAG

2. 加入 timestamp 列

3. 把文件放入HDFS

通过spark 计算netflow数据

这里用spark计算我们需要的数据。

使用spark 计算netflow数据初探

原文：http://www.cnblogs.com/kramer/p/4875744.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)