利用R 来分析用户分享内容的实际观众数与个人估计值的差别
<我的> library(ggplot2) pf -> read.csv(pseudo_data.csv) qplot(x= age, y=friend_count, data=pf)
1 library(ggplot2) #导入包 2 3 pf <- read.csv(‘pseudo_facebook.tsv‘, sep = ‘\t‘) #读取文件并存入pf变量 4 5 qplot(x=age, y=friend_count, data = pf) #以age为x轴,friend_count为y轴,绘制散点图 6 qplot(age, friend_count, data = pf) #可以省略‘x= y=’变量
解决overplot 相关问题:
插入图层变量 ‘+‘ xlim() 图层 geom_point() geom_jitter()代替geom_point()增加一些噪音 从而get a clearer picture of the relationship
geom_point(alpha=1/20) alpha=1/20 表示 20个 point组成一个深色的圆圈 (it takes 20 points for a circle to appear completely dark)
<我的> gplot(aes(x=age, y=friend_count, data=pf))+geom_point(alpha=1/20) + xlim(13,90)+ coord_trans(‘sqrt‘)
1 ggplot(aes(x = age, y = friend_count), data = pf) + 2 geom_point(alpha = 1/20) + 3 xlim(13,90) + 4 coord_trans(y = ‘sqrt‘) #注意代码风格,第一行数据,接下来的每一行分别代表一个新图层。
geom_jitter(alpha = 1/10, position = position_jitter(h= 0)) + coord_trans(y = ‘sqrt‘) 修正开根号时可能遇到的负数问题
mark: L4 12小节
优达学城数据分析师纳米学位——P4项目知识点整理 两个变量之间的关系 R语言分析
原文:http://www.cnblogs.com/kong-xy/p/6399328.html