数据分两类,一类是静态处理,多做批量处理,属于OLAP,一类是流式数据,多做实时处理,属于OLTP。Spark Streaming属于微批处理,并非真正意义上的实时处理。本节将介绍一个顶级的流处理框架Flink。
# 进入家目录
cd
# 解压
tar -xvf flink-1.2.1-bin-hadoop2-scala_2.10.tgz
# 进入flink的启动目录
cd /root/flink-1.2.1/bin
# 启动
./start-local.sh
# 打开一个xshell窗口,登录,执行nc,监听8888
nc -lk 8888
# 进入flink启动目录
cd /root/flink-1.2.1/bin
# 执行词频统计
./flink run /root/flink-1.2.1/examples/streaming/SocketWindowWordCount.jar --port 8888
# 打开一个xshell窗口,登录,查看日志
cd /root/flink-1.2.1/log
# 查看日志【注意作者的机子名称为danji,因此日志文件中包含danji】
tail -f flink-root-jobmanager-0-danji.out
在nc窗口输入字符串,在查看日志窗口就能看到统计的结果。
以上,就是在CentOS7中安装flink,并且运行自带词频统计的过程。
原文:https://www.cnblogs.com/alichengxuyuan/p/12576760.html