首页 > 其他 > 详细

数据分析的一些概念

时间：2020-01-31 23:18:00 阅读：124 评论：0 收藏：0 [点我收藏+]

目录

一、什么是商业智能(BI)
二、什么是数据仓库(DW)
三、什么是数据挖掘(DM)
四、数据挖掘的数学基础
五、数据挖掘的十大算法
六、数据可视化的工具
七、什么是用户画像
八、什么是埋点
九、数据采集的几种方式

一、什么是商业智能(BI)

BI：Business Intelegence，商业智能，基于数据仓库，经过数据挖掘后，得到了商业价值的过程。例如利用数据预测用户购物行为属性商业智能

二、什么是数据仓库(DW)

DW：Data Warehouse，数据仓库，数据库的升级概念，一般量更庞大，将多个数据来源的数据进行汇总、整理而来

三、什么是数据挖掘(DM)

DM：Data Mining，数据挖掘
数据挖掘流程：Knowledge Discovery in Database，也叫数据库中的知识发现，简称KDD
KDD流程：输入数据->数据预处理->数据挖掘->后处理->信息

数据清洗
去除重复数据、干扰数据及填充缺失值
数据集成
将多个数据源中的数据存放在一个统一的数据存储中
数据变换
将数据转换成适合数据挖掘的形式，比如将数值东篱一个特定的0~1的区间

数据挖掘的核心

分类
通过训练集得到一个分类模型，然后用这个模型可以对其他数据进行分类
分类是已知了类别，然后看样本属于哪个分类
聚类
将数据自动聚类成几个类别，
聚类是不知道有哪些类别，按照样本的属性来进行聚类
预测
通过当前和历史数据预测未来趋势，可以更好地帮助我们识别机遇和风险
关联分析
发现数据中的关联规则，被广泛应用于购物、事务数据分析中

数据挖掘的基本流程

商业理解。从商业的角度理解项目需求
数据理解。尝试收集部分数据，对数据进行探索
数据准备。开始收集数据，并进行清洗、集成等操作
模型建立。选择和应用数据挖掘模型，并进行优化，以便得到更好的分类结果
模型评估。对模型进行评价，确认模型是否实现了预定的商业目标
上线发布。把挖掘的知识转换成用户的使用形式

四、数据挖掘的数学基础

概率论与数据统计
线性代数
图论
最优化方法

五、数据挖掘的十大算法

分类
- C4.5。十大算法之首，决策树算法，特点包括：1.构造过程中剪枝 2.处理连续属性；3.处理不完整的数据
- 朴素贝叶斯。基于概率论原理，计算未知物体出现的条件下，各个类别出现的概率，取概率最大的分类
- SVM。超平面的分类模型
- KNN。每个样本的分类都可以用其最接近的K个邻居的分类代表
- Adaboost。构建分类器的提升算法，可以让多个弱的分类器组成一个强的分类器
- CART。决策树算法，分类树 + 回归树
聚类
- K-Means。将物体分成K类，计算新点跟K个中心点的距离，哪个距离近，则新点归为哪一类
- EM。最大期望算法，求参数的最大似然估计的一种方法
关联分析
- Apriori。挖掘关联规则的算法，通过挖掘频繁项集揭示物品之间的关联关系
连接分析
- PageRank。起源于论文影响力的计算方式，如果一篇文论被引入的次数越多，就代表这篇论文的影响力越强，Google将其用于计算网页权重

六、数据可视化的工具

数据可视化能让我们直观了解数据分析的结果

python第三方库
- matplotlib
- seaborn
第三方工具
- 微图
- DataV
- Data GIF Maker等

七、什么是用户画像

简单的说，用户画像就是标签的汇总
用户画像是现实世界中的用户的数学建模，将海量数据进行标签化，来复以更精准的用户画像
用户标签能产生的业务价值

在获客上，找到优势的宣传渠道，通过个性化的宣传手段吸引有潜在需求的用户
在粘客上，提升用户的单价和消费频次
在留客上，降低流失率，顾客流失率降低 5%，公司利润提升 25% ~ 85%

用户标签4个纬度

基础信息
性别、年龄、地域、收入、学历、职业等
消费信息
消费习惯、购买意向、是否对促销敏感
行为分析
时间段、频次、时长、访问路径
内容分析
浏览的内容、停留时长、浏览次数，内容类型，如金融、娱乐、教育、体育、时尚、科技等

数据处理的3个阶段

业务层
获客预测、个性化推荐、用户流失率、GMV趋势预测
算法层
用户兴趣、用户活跃度、产品购买偏好、用户关联关系、用户满意度、渠道使用偏好、支付使用偏好、优惠券偏好
数据层
用户属性、投诉次数、产品购买次数、渠道使用频率、优惠券使用、访问时长、支付渠道使用、浏览内容频次

八、什么是埋点

在需要的位置采集相应的信息，进行上报。比如用户信息、设备信息、操作行为数据
埋点一般是在需要统计数据的地方植入统计代码。
第三方工具有：友盟、Google Analysis、Talkingdata等，一般是前端埋点的方式

九、数据采集的几种方式

开源数据源
爬虫抓取
日志采集
传感器

数据分析的一些概念

原文：https://www.cnblogs.com/chenqionghe/p/12247109.html

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)

最新文章

更多>

教程昨日排行

更多>

友情链接

汇智网 PHP教程插件网

关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com

© 2014 bubuko.com 版权所有

打开技术之扣，分享程序人生！