一共有85个字段,包含用户和广告等数据
切分为85个字段
数据过滤
指定schema生成DataFrame
持久化到HDFS
以省市进行分组,组内进行数据量统计
spark内部自己会实现数据一致性的
离线:生成数据的时候给每条一个唯一的标识,在计算的时候, 在结果数据里也存储该标识,这样的方式,在数据恢复的时候,可以根据标识判断数据是否计算完成,该方式是很耗费资源和时间
另一种方式,将结果删除,重新运行该离线任务即可
实时:首先需要手动维护offset,用事务机制、幂等方式、数据和offset绑定到一起的方式
按照省市进行分组,组内聚合
其中有两个求比率的指标,在这里不做实现,在真正展示的时候拿到基础的聚合值去比较即可。
原文:https://www.cnblogs.com/zqfdgzrc/p/12996729.html