物联网、云计算和大数据,是第三次信息化浪潮的产物。
技术支撑:存储设备容量的不断增加、CPU处理能力大幅提升、网络带宽不断增加。
数据产生方式:经历了运营式系统、用户原创阶段,进入了感知式系统阶段,物联网技术,可穿戴设备、各种传感器之类的使数据量更大、更密集。
大数据使得人类研究经历了实验、理论、计算后,进入了第四种思维范式——数据密集型科学,我们先有了已知的大量数据,然后通过计算得出之前未知的理论。
三大显著特征:
为很多行业提供决策支持、促进信息技术与各行业的深度融合、推动与新技术和新应用的发展,是科技发展的必然趋势。
这个就不扯了,当下很火就是了。大数据需要学习的东西很多,慢慢努力吧。
统计、数学、机器学习、可视化、编程、英语(看文档啊)。
可以把整个数据分析分为四个流程
技术层面 | 功能 |
---|---|
数据采集与预处理 | 利用ELT工具将分布的、异构数据源中的数据抽取到中间层清洗、转换,最后加载至DW中,为OLAP、数据挖掘提供数据;也可以利用日志采集工具(Flume、Kafka)把实时采集的数据作为流计算系统(Storm)的输入,进行实时分析。 |
数据存储和管理 | 利用分布式文件系统、数据仓库、RDBMS、NoSQL、云数据库等,实现结构化、半结构化、非结构化海量数据的存储和管理。 |
数据处理和分析 | 利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析。对其可视化(如web系统、统计图)方便理解分析数据。 |
数据安全和隐私 | 尊重他人隐私,做合法公民。 |
大数据计算模式和代表模型
大数据计算模式 | 解决问题 | 代表产品 | 特征 |
---|---|---|---|
批处理计算 | 大规模数据批量处理 | MapReduce、Spark | 适用于大规模(1TB)的并行运算。帮你处理好包括分布式编程、网络通讯等细节,专注于核心的计算过程。Spark以内存存储中间结果优化了迭代工作负载(以后再细说) |
流计算 | 流数据实时计算 | Storm、Spark Streming(spark系统中的)、Dsteam(百度的)、银河流数据处理平台(淘宝的) | 针对那些数据价值随时间流逝降低的分析,给出妙计响应。 |
图计算 | 大规模图结构数据处理 | GraphX、PowerGraph、Pregel | 图结构的数据是稀疏结构,MapReduce不适合处理这种细粒度、多迭代的计算。因而设计这些适合图遍历、最短路径、PageRank计算的平台。 |
查询分析计算 | 大规模数据的存储管理和查询分析 | Dremel、Hive | t通过结合多级树状执行过程和列式数据结构,几秒内做到对万亿张表的聚合查询,PB级。 |
我的理解云计算是把物理的、空间计算、存储等资源池化后再分配。核心在于分布式
1、云计算按服务模式可以分为 IaaS,PaaS 和 SaaS:
(1)IaaS 基础设施即服务(Infrastructure as a server):用户通过 Internet 可以租用到完善的计算机基础设施层(计算、存储和网络带宽等资源)。用户不用理会云系统底层的基础架构,可以在上面运行软件、存储数据和发布程序。如 IBM 的蓝云和亚马逊的 EC2。
(2)PaaS 平台即服务(platform as a Server):将软件研发的平台作为一种服务(系统中资源的部署、分配、监控和安全管理以及分布式并发控制等)提供给用户。在 PaaS 平台上,企业用户不用担心程序运行时所需的资源,可以快速开发应用,第三方软件提供商也可以快速开发出适合企业的定制化应用。如 Salesforce 公司的 force.com 平台。
(3)SaaS 软件即服务(Soft as a Server):通过 Internet 向用户提供云端软件应用服务和用户交互接口等服务。用户:由于这些软件应用只是安装在云端,从而省去了购买软件的费用;云计算供应商:只需维持一个程序,大幅度降低了成本。如 Salesforce 的 CRM、微软的在线办公平台和 Google Apps。
2、云计算按部署类型可以分为私有云、公有云和混合云:
(1)公有云:云计算服务由第三方提供商完全承载和管理,为用户提供价格合理的计算资源访问服务,用户无需购买硬件、软件或支持基础架构,只需为其使用的资源付费。公有云用户无需支付硬件带宽费用、投入成本低,但数据安全性低于私有云。
(2)私有云:企业自己采购基础设施,搭建云平台,在此之上开发应用的云服务。私有云可充分保障虚拟化私有网络的安全,但投入成本相对公有云更高。
(3)混合云:一般由用户创建,而管理和运维职责由用户和云计算提供商共同分担,其在使用私有云作为基础的同时结合了公共云的服务策略,用户可根据业务私密性程度的不同自主在公有云和私有云间进行切换。
3、云计算关键技术:
? 虚拟化(docker流行)、分布式存储、分布式计算(上面介绍了)、多租户(云资源分配)。
物联网( IoT ,Internet of things )即“万物相连的互联网”,是互联网基础上的延伸和扩展的网络,将各种信息传感设备与互联网结合起来而形成的一个巨大网络,实现在任何时间、任何地点,人、机、物的互联互通。
关键技术包括识别和感知技术(RFID、二维码、传感器等),网络与通讯技术(蓝牙、WiFi、4G等)、数据挖掘与融合技术。
应用:智能家居、智能医疗、智能农业……
原文:https://www.cnblogs.com/for-ever-ly/p/10926522.html