自己总结

时间：2020-05-31 11:45:20 阅读：43 评论：0 收藏：0 [点我收藏+]

一共有85个字段，包含用户和广告等数据

切分为85个字段

数据过滤

指定schema生成DataFrame

持久化到HDFS

以省市进行分组，组内进行数据量统计

spark内部自己会实现数据一致性的

离线：生成数据的时候给每条一个唯一的标识，在计算的时候，在结果数据里也存储该标识，这样的方式，在数据恢复的时候，可以根据标识判断数据是否计算完成，该方式是很耗费资源和时间

另一种方式，将结果删除，重新运行该离线任务即可

实时：首先需要手动维护offset，用事务机制、幂等方式、数据和offset绑定到一起的方式

按照省市进行分组，组内聚合

其中有两个求比率的指标，在这里不做实现，在真正展示的时候拿到基础的聚合值去比较即可。

原文：https://www.cnblogs.com/zqfdgzrc/p/12996729.html

踩

(0)

评论一句话评论（0）

分享档案

更多>