首页 > 其他 > 详细

20210203-1 大数据云计算介绍和基础(下)

时间:2021-02-03 18:04:38      阅读:66      评论:0      收藏:0      [点我收藏+]


一、云计算的商业应用:微软和谷歌

国内外云计算产业现状

目前,全球云计算市场迅速增长,世界信息产业强国和地区对云计算给予了高度关注,已把云计算作为未来战略产业的重点,纷纷研究制定并出台云计算发展战略规划,加快部署国家级云计算基础设施,并加快推动云计算的应用,抢占云计算产业制高点。

 

几个典型数据:

(1).2014年全球云计算服务规模约为1700亿美元,美国云服务市场规模约占全球60%,远高于欧洲和日本以及中国等国家和地区。

(2).预计2020年全球云计算服务市场规模到将达到2500亿美元。

(3).截止2015年9月,我国云计算服务市场份额约占全球云计算服务市场份额的13%。

(4).预计未来几年,中国云计算市场规模年均复合增长率将超过80%,到“十二五”末,产值规模将突破1万亿元。

 

微软与云计算

 微软有40000名左右员工在构建软件,大概70%从事与云计算相关的事情

 今后一年内,会有90%从事基于云计算或受云计算启发的项目

 WindowsAzure和SQLAzure始于云计算

 Bing、Hotmail和WindowsLive提供云服务

 Windows、WindowsPhone和Xbox与云集成

 Office、Exchange和SharePoint正在专注于云计算,比如Office的web版本,在企业内部可以自己部署,利用浏览器使用Office

AZURE 微软云,基于windows的环境 构建的微软云

 

微软云计算战略的特点

 微软认为,未来的互联网世界将会是“云+端”的组合,在这个以“云”为中心的世界里,用户可以便捷地使用各种终端设备访问云中的数据和应用,这些设备可以是电脑和手机,甚至是电视等大家熟悉的各种电子产品

 用户在使用各种设备访问云中的服务时,得到的是完全相同的无缝体验。

 

微软云计算参考架构

微软云SaaS更多的是提供一些 office、邮件等服务,以及OA (Office Assistant)办公助理服务,CRM客户关系管理服务

PaaS提供身份控制,访问控制,报表,数据挖掘等服务

底层的服务一般都是相同的

技术分享图片

 

微软的云计算解决方案

技术分享图片

 

微软的软件+服务一览表

SQLServer 是微软自己的数据库,SQLAzure是云的数据库

底层的 Windows Server 和win10 win7不是一个概念,它们是windows的服务器

Windows Azure是基于云的Windows Server

技术分享图片

 

Google的云计算基础设施

 Google的云计算基础设施是在最初为搜索应用提供服务基础的上逐步扩展的,主要由分布式文件系统Google File System(GFS)大规模分布式数据库BigTable、程序设计模式MapReduce、分布式锁机制Chubby等几个相互独立又紧密结合的系统组成。

锁就是有人写文件的时候,别人可以看但是不能写,如果文件分散在多个机器上,就会有一个分布式锁机制

国内通过谷歌的BigTable开发了蟑螂数据库,本身是开源的,可以提供大数据的规模也可以提供能够实现SQL语句的结构化的数据

 GFS是一个分布式文件系统,它能够处理大规模的分布式数据,系统中每个GFS集群由一个主服务器和多个块服务器组成,被多个客户端访问。

 主服务器负责管理元数据,存储文件和块的名空间、文件到块之间的映射关系以及每一个块副本的存储位置

元数据是指描述数据的数据,主服务器可以理解为一个字典表

 块服务器存储块数据,文件被分割成为固定尺寸(64MB)的块,块服务器把块作为Linux文件保存在本地硬盘上。为了保证可靠性,每个块被缺省保存3个备份。

客户端首先请求主服务器,主服务器经过查找到块服务器的具体位置后,查询块服务器,将数据返回给客户

 主服务器通过客户端向块服务器发送数据请求,而块服务器则将取得的数据直接返回给客户端。

 

GFS的体系结构

技术分享图片

google云在国内很少有人用,更多的是用底层的文件系统技术和BigTable的蟑螂的开源数据库

二、云计算的商业应用:亚马逊

Amazon的弹性计算云

 Amazon是最早提供云计算服务的公司之一,该公司的弹性计算云 (elastic compute cloud,EC2) 平台建立在公司内部的大规模服务器集群上,平台为用户提供网络界面操作在“云端”运行的各个虚拟机实例 (instance)。用户只需为自己所使用的计算平台实例付费,运行结束后计费也随之结束。

这里的虚拟机和平时概念中的虚拟机不是同一个概念,注意不要混淆

 弹性计算云用户使用客户端通过SOAP over HTTPS协议Amazon弹性计算云内部的实例进行交互,弹性计算云平台为用户或者开发人员提供了一个虚拟的集群环境,在用户具有充分灵活性的同时,也减轻了云计算平台拥有者(Amazon公司)的管理负担。弹性计算云中的每一个实例代表一个运行中的虚拟机。用户对自己的虚拟机具有完整的访问权限,包括针对此虚拟机操作系统的管理员权限。

SOAP Simple Object Access Protocol 简单访问协议

SOAP over HTTPS 是在https基础上的访问协议

提供客户端管理的功能,购买云计算服务的都可以通过客户端管理功能管理云计算资源

这里的虚拟机可以理解为EC(Elastic Computing)弹性计算

 虚拟机的收费也是根据虚拟机的能力进行费用计算的,实际上,用户租用的是虚拟的计算能力。

五大云服务供应商,亚马逊位居第一,阿里云位居第五;

IBM国内无法使用,但是IBM在国外占比很大;还有 MicroSoft和谷歌云,五大公司

 

国外解决方案比较

Xen是一种硬件虚拟化技术

国内的阿里云腾讯云主要是按照亚马逊的模式进行的

 技术分享图片

云计算发展的10大挑战及相应机会

技术分享图片

DDOS攻击比如春节抢购火车票,非常大量的访问数据

数据传输瓶颈,毕竟不是在本地,而是在远端公网的服务器上面,需要考虑网络延迟,交换机切换等问题

 

三、云计算的商业应用:阿里云

阿里云 体系架构 

·总体架构

·弹性计算 (ECS)

·开放存储 (OSS)

·关系型数据库服务 (RDS)

·云安全

弹性计算可以理解为放 tomcat 和放 web服务器的地方

开放存储 OS Object Storage,存放 server,图片,视频等

关系型数据库服务,放 mysql 的地方,可以提供集群服务

 

飞天开放平台

技术分享图片

 阿里云的飞天云计算开放平台的逻辑架构图

 

完整的云计算服务产品线

技术分享图片

登录到阿里云服务器后,首先需要购买 弹性计算 Elastic Compute,弹性计算server和SLB

Load Balance

常见的负载均衡可以通过 NginX 实现,会根据相应策略将部分请求放入tomcat1,部分请求放入tomcat2;这样就能够把很多请求通过负载均衡,根据实际的负载情况分别动态的放到tomcat1 和 tomcat2,这就是负载均衡,这个也是需要单独购买的服务

技术分享图片

如果对安全性能不是很熟悉,可以购买云盾和云监控服务

RESTful接口

·REST:Representational State Transfer,表述状态转移,是一种针对网络应用的设计和开发方式,可以降低开发的复杂性,提高系统的可伸缩性。

·为所有“事物”定义ID:URL

·通用的接口定义:GET、PUT、POST、DELETE

·无状态通信:服务器端不能保持除了单次请求之外的,任何与其通信的客户端的通信状态

在购买云服务后,最终需要进行管理访问,亚马逊提出用客户端管理,把客户端管理云服务器的请求提供接口

服务器(ECS)&负载均衡(SLB)

技术分享图片

云服务器:构架在飞天集群之上,全部基于PC服务器,计算资源在集群内弹性伸缩

负载均衡:在多个云服务器之间均衡请求分发,基于ECS的软件实现

镜像可以理解为一个蓝本,根据这个蓝本产生实例,放在计算机资源上

可靠性可以根据快照反向生成镜像

 

SLB负载均衡

技术分享图片

·功能强大:分别提供4层和7层的负载均衡

·无限扩容:不再受到传统负载均衡的性能,容量限制,用户不用担心负载均衡的性能

·动态扩容:负载均衡集群会根据目前所处理的流量的大小,动态进行自动扩容。

·Session保持:可以将用户和后台服务器绑定到同一Session,确保Session不中断。其中4层负载均衡也可以设置连接持久时间

·健康检查:SLB可以按照指定规则对RS进行健康检查,旦发现健康问题,迅速将服务切换,确保服务可用性

·RS权重:可以根据后台服务器的性能设置不同的权重,SLB会将请求按权重进行分配

Session 可以理解为用户登录信息和用户信息存储在服务器上的内容

如果有多台服务器,实现负载均衡后,服务器上面并没有用户信息,用户需要重新登录,这是负载均衡的一个问题,所以用户的登录信息需要放在同一session中

 

开放存储服务(OSS)

为互联网优化的大规模存储服务,各种数据的互联网在线存储

服务的创新与服务能力:

·支持单集群2000台服务器,40PB存储能力

·数据多份冗余存储,保证用户数据99.99999999%的可靠性

·软硬故障自动处理并恢复,达到99.9%的可用性

用户:该产品为阿里巴巴B2B提供图片存储,为趣淘,云引擎等提供存储服务,总共消耗存储空间150T。为联想网盘、够快网盘、同步盘提供对外存储服务。

可以把每个 Bucket(桶)理解为一个一个组的概念,每个桶里有多个Object,Object相当于是对应的数据信息,object下面又包含一些信息,可以把这个理解为是一种目录结构

技术分享图片

 

OSS基本概念

·Service

·OSS提供给用户的虚拟存储空间

·在这个虚拟空间中,每个用户可拥有一个到多个Bucket

·Bucket

·Bucket是OSS的命名空间

·Bucket Name在整个OSS中具有全局唯一性

·Object

·在OSS中,每个文件都是一个Object

·AccessKeyID、AccessKeySecret

·安全标识,为访问OSS做签名验证

 

RDS概述

关系型数据库服务(Relational Database Service,简称RDS)是一种稳定可靠、可弹性伸缩的在线数据库服务。RDS采用即开即用方式,兼容MySQL、SQLServer两种关系型数据库,并提供数据库在线扩容、备份回滚、性能监测及分析功能。RDS与云服务器搭配使用I/O性能倍增,内网互通避免网络瓶颈。

技术分享图片

稳定

99.95%的服务可用性RDS采用主从热备的架构,主机故障时后备机秒级完成无缝切换

安全

99.9999%的数据可靠性自动多重备份数据库,可回滚到任意备份点采用高可靠的磁盘阵列

大规模、高性能

在线无缝升级,数据库访问不间断内存和磁盘可灵活扩容磁盘(随机读写)IOPS可达12000

MySQL、Oracle、SQLServer都是关系型数据库,表和表之间可以通过 sql语句查询做关联

是一种结构化的数据,对比的就是大数据中的非结构化的数据

如果一个mysql server数据库不够,则需要集群搭建多个,就涉及通过中间键Mycat实现主主、主从,多主,多从,读写分离等操作。这种机制需要配置很多东西

购买阿里云可以提供在线扩容等集群服务

 

关系型数据库服务—RDS

技术分享图片

·按需开通,即开即用 ·按需计费,费用低廉 ·数据可靠性承诺:99.9999%

·服务可用性承诺:99.95% ·通用简单 ·简化管理

·专业团队 ·性能调优 ·SQL优化建议

·性能优势 ·高端服务器投入 ·双机热备

·数据备份 ·数据恢复 ·多副本冗余

 

安全:云计算的根基

技术分享图片

 

四、大数据与云计算的综合应用

大数据与云计算

·没有互联网就没有云计算,没有云计算模式就没有大数据处理技术。

·将大数据的应用比作一辆辆“汽车”,支撑这些“汽车”运行“高速公路”的就是云计算。正是

云计算技术在数据存储、管理和分析等方面的支撑,才使得大数据有了用武之地。

比如电商网站统计最近的热门销量,给产品做标签,为用户提供推荐系统

·云计算时代会有更多的数据存储于“云端”。数据是资产,云是数据资产保管的场所和访问的渠道

·云计算的模式是业务模式,本质是数据处理技术。

·数据是资产,云为数据资产提供存储、访问、计算。

·当前云计算更偏重海量存储和计算,以及提供的云服务,运行云应用,但是缺乏盘活数据资产的能力,挖掘价值性信息和预测性分析,为国家、企业、个人提供决策和服务,是大数据核心议题,也是云计算的最终方向。

技术分享图片

 

数据从何而来:人人都是数据源

·人在街上走,数据被采集

·人在家中坐,数据被上传

只要你活人,有行为,就会产生数据。

比如,你在街上走,你就会被摄像头拍到。据说你每次上街平均会被拍8次;

只要你看电视、用电脑、玩手机、打电话,数据就会被上传

 

谁拥有大数据

A.政府:政府尝试数据开放(将条数据脱敏后向企业开放)交通、人口、医疗……

B.电信:客户数据(实名制)通信数据

C.银行:客户数据(实名制)金融数据(信用)

 

网络平台

搜索平台、电商平台、门户网站

百度、阿里(淘宝)、腾讯(QQ、微信)、搜狐、新浪

你喜欢上网、喜欢百度搜索,告诉你,你的每一次点击都有记录。输入了什么“不雅”词汇,有什么特殊爱好。你会想,它不知道我是谁。但它知道你的使用电脑的IP地址……。很多程序要求你用手机号注册……所以很容易知道你是谁。

 

大数据有什么用

大数据的有用性在于:发现逻辑关联,得出科学结论。

马云说:做淘宝不是卖货,而是为了获得大数据,获得零售和制造业数据。电脑会比你更了解你,大数据的核心不是对昨天的总结,而是对未来的预测和预判。

 

A商用大数据

有效制造(预判消费,减少库存)

精准广告(特定群体投放)

信用兑现(方便信用调查)

B公用大数据

智能电网(有效调解发电量)

智能交通(缓解拥堵)

疾病预防(方便就诊)

生态监控(空气、水质、土壤)

 

20210203-1 大数据云计算介绍和基础(下)

原文:https://www.cnblogs.com/azxsdcv/p/14368045.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!