大数据简单引入

时间：2016-03-17 14:34:29 阅读：344 评论：0 收藏：0 [点我收藏+]

2012年本站曾对大数据预测：如果说2012年是大数据概念为人所知、引人瞩目、小试牛刀的一年，

那么2013年大数据将会实现产品部署，早期投资获得回报，一小部分的产业被颠覆。

到了2014年，各种大数据项目和系统很可能成为标准配置，到处可见。

2017年：云和大数据、数据仓库合并起来，成为了一项服务，"分析即服务"和"数据即服务"成为主流

　　"大数据"作为时下最火热的IT行业的词汇，随之数据仓库、数据安全、数据分析、数据挖掘等等围绕大数量的商业价值的利用逐渐成为行业人士争相追捧的利润焦点。

　　谈到大数据不只是云计算Hadoop这类底层技术，而是基于其构建的组件或引擎，如Shark或Hive/Pig。从大数据的定义通常和速率（数据移动得快），体积（数据规模庞大），和种类（非结构化和结构化的信息）三点有关。

　　对于"大数据"（Big data）研究机构Gartner给出了这样的定义。"大数据"是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

　　大数据分析相比于传统的BI OLAP或数据仓库应用，具有数据量大、查询分析复杂等特点。如果说云计算提供了业务数据处理能力，那么大数据提供了业务数据的挖掘分析能力，数据科学家是对那些专门从事大数据分析者的称谓。

　　大数据架构由下面几个部分组成。

　　平台：

　　数据：

数据传输和聚合：Hive, Pig, ETL, Storm, Java MapReduce ，考虑的是数据存储和数据访问技术，如何从数据原始状态转为可用的支持业务用例的状态(类似DDD的仓储)。
元数据管理：Custom, HCatalog，建立如何寻找到数据和数据如何被定义消费两者的联系。
低延迟的数据访问: Cassandra, ElasticSearch, Solr, HBase, MongoDB，数据不只是被利用来进行批处理分析，还要考虑数据是否需要服务于：交互式应用访问，随机访问和顺序访问。
数据管制：Hadoop工具，物理访问策略，校订Auditing 等。

　　应用：

开发工具：用于执行数据处理的语言和工具，Hive, Pig, MapReduce, Streaming, Cascading
数据采集：将数据输入集群系统，Messaging, ETL, Flume, Kafka, Storm, Sqoop，需要考虑的是数据是否需要持久，丢失怎么办，采取批处理还是流式？
数据发布：将数据从集群输出，Messaging, ETL，需要考虑的是数据管道，如何回滚和重放。
工作流管理：企业工具 (UC4, Control-M), Oozie, Azkaban, Stampede

　　报表和分析：

数据科学和算法：Mahout, RHadoop, R, Weka，机器学习的工具和库，支持并行分布式分析，
weka是一个机器学习和数据挖掘的Java库。
BI和报表： Tableau, Pentaho, Datameer, Karmasphere, Traditional BI Tools ，传统的BI业务报告，和传统数据仓库中的关系数据结合的工具。