教学工作的资源分享

大数据技术介绍

职教高考

职教高考

大数据技术介绍

01大数据概要

02大数据领域的关键技术

目录内容

03大数据行业状况及典型APP

04大数据产业未来发展趋势

1

PART ONE

大数据概要

大数据发展的背景

大数据的定义

大数据的特征

大数据面临的问题

Instagram Email

推特应用存储

用户发送

100000多个用户共享3600张204166667封

照片

条内容邮件APP被下载了47000次

Flickr谷歌

用户添加了3125张照片,收到了2000000次以上的咨询

一分钟

脸书帐户

用户上传到700000条在线消费272070美

容元(双笑) )

YouTube Website

WordPress用户

用户上传48小时视频建设571个新站

用户发布347章217名移动联系新

用户生日

1.1大数据发展背景

)1)数据爆炸

随着互联网、物联、电子商务、社交媒体、现代物流、络融等行业的发展,全球数量

根据总量以怎样的级数增长,过去一年生产的数据总量超过了同类历史数据的总和,事先

2020年世界数据总量将达到35.2ZB,类将进入zb(zb )时代(1ZB=兆字节)

纽约证券交易所淘宝

每天产生1TB的事务性数据,每天产生一次以上的数据

50TB

推特百度

每天7TB的数据所拥有的数据总量

100PB

欧洲的物理实验室很大

典型碰撞加速器Facebook

每年生成15PB的数据,每天生成的数据是

100TB

1.1大数据发展背景

)感知化、物联化、智能化

感知化:指数据源的变化。 传感器、RFID标签

签名、芯片、照相机遍布世界的每个角落,物理

世界上本来感知不到的东西现在可以感知到了

那些通过各种技术连接着世界。

物联化:指数据传输公式的变化。 跟在and之后

、与机器相互连接后,机器与机器的相互连接

联已成为目前的发展趋势。 未来的数据是

车、电、道路、自来水,非常食物

的方框。

智能:指数据使用方式的变化。 “没有

说明没有价值”。 感知和互联不是最终的

目的:数据只能经过处理、分析和计算,从中提取

只有把有价值的东西拿出来,才能实现真正的价值。

1.1大数据发展背景

)3)大数据在各个领域的应用中逐渐崭露头角

传统的面向APP应用的开发模式大数据推动着业务的发展

公式逐渐由数据驱动

(DDD )的模式。 Netflix精心打造品牌家居

引起了商业、科研、政治(Cinematch,AWS )

服务、社会服务等领域的深度

牢记变革大数据,支持政务工作

奥巴马竞选中的舆论预测

保存和分析选民资料,

资金筹措,刊登广告)

大数据提高社会服务能力

洛杉矶智能交通

(ATSAC,用传感器收集车

速度、流量等信息,实时处理)

大数据提高商业决策水平

US Xpress的物流运输

用大数据分析车辆状况

合理安排车辆人员)

1.1大数据发展背景

)4)大数据是各界争夺的概念

联合国

发布白皮书《大数据促发展:挑战与机遇》 2012.07

奥巴马政权

投资2亿美元开始“大数据研究和传播”

展示计划”

2012.03

达沃斯论坛

发布报告《大数据,大影响》 2012.01

麦肯锡

2011.05“大数据:创新、竞争力、生产”

Nature力量的下一个前沿”,对大数据的影响

对关键技术和应用领域进行了详细分析

发表BigData特辑,请研究者和企业

业界预测大数据带来的创新2008.09

1.2大数据定义

麦肯锡:数据是指超越常规数据库的小型 • Gartner公司。 数据需要新的护理模式

可以检索、存储、管理和分析的数据集。 可以有更强的决策、洞察、发现、过程

(这并不是说,为了计算优化的大容量、增长率和多样化的信息资产,需要超出特定的TB数据集

数据(生产。

数据是指相关数据量的规模美国国家标准技术研究院(NIST )。 数据

巨至法通过目前主流的软件工具,在合理的时间量、获取速度快或形态多样的数据上存在难度

之间达成获取、管理、处理,为企业通过传统关系型数据分析法有效得分而进行整理

经营决策更积极目的的信息。 要解决,需要规模的平坦扩张

处理。

从国际数据公司(IDC )数据的4个特征进行定义。 即,巨大的数据大小(Volume )、数据处理的速度

速度(Velocity )、多种数据类型(Variety )、数据价值密度低),即4V特性。 IBM

我们认为数据也应该有真实性(Veracity )。

1.3大数据特征

Volume (巨大性)及时性Velocity

数据量巨大,数据规模从GB持续增长到数据的生成、处理和分析速度

从TB开始计数为PB,甚至EB和ZB。 速度快,数据流量大,处理能力从批处理开始

转向流程处理

多样性)高价值、低价值密度Value

大数据的类型很复杂。 大量异构数据、数据量增大、单位数据价格

多源数据、半结构化数据、非结构化值密度下降,数据总体价格

化学数据的大量出现值正在上升

1.4大数据面临的问题

大数据问题分类大数据问题的说明

导入问题

统计分析问题

速度问题

获取查询的问题

实时响应问题

多源问题

种类和结构问题异种问题

系统的底层体系结构问题

线性扩张问题

体量和灵活性问题

动态调度问题

大型飞机和小型服务器的成本比较

成本问题

控制现有系统改造的成本

数据分析和挖掘问题

价值挖掘问题

数据挖掘后的实际插件问题

结构和非结构

存储和安全问题数据安全

隐私安全

数据标准和接口

互连和数据共享问题共享协议

访问权限

2

部件世贸组织

大数据领域的关键技术

从传统的数据处理到大数据处理

数据的收集、处理和保存

理解数据

数据分析和挖掘技术

总结

大数据处理框架

• Hadoop

• Spark

2.1从传统数据处理转向大数据处理

传统数据分析(数据挖掘、利用)的过程

0. 1:4 279 *

1:4 7FC? b8 ) *

0. 0; ' ) *

%7//-$509'(#0,*

:=@ 5 % '

-8% '

! ' 4,* '

$ 2-6

#$ ' -() () ) ) ) ) )。

79:=; 9A$4C@? (5) )。

' '

33 #$

' 4C@? $,$ 5美元

09B9#$ '6*6$6466$

29@=9: # '

' '

2.1从传统数据处理转向大数据处理

大数据是旧瓶子里有新酒

旧瓶是原始数据分析的框架;

那么新酒是什么?

2.1从传统数据处理转向大数据处理

从4V的角度看“新酒”

%

- 8 - 8 .1 7

# $ ) 37

6 (,%*! 0 8

- 8 - 8 H 2I # 7

' $.1$(378

- 4@B@5 - 8 .1 $

! “$ 9@B@;=; 86 '

、处理和存储——数据收集#!

2.1从传统数据处理转向大数据处理数据收集、处理和保存——数据收集3354问题数据类型:网络日志、视频、图片、GPS、物联网等类型复杂数据速度:收集速度快数据规模:卷庞大,用传统的数据库、ETL很难处理。2.1从传统数据处理转向大数据处理

数据收集、处理和保存——数据收集3354工具工具(工业领域) :flume(cloudera公司) )。密码(脸书)。• Kafka (领英)。

• Time Tunnel ) )。2.1从传统数据处理转向大数据处理数据收集、处理和保存——数据收集——Flume三种类型的节点:主节点(管理节点) )

收集器、代理(日志收集节点,代理用于数据收集,收集器用于多个代理的然后,将数据加载到存储系统中)一个概念:

数据传输管道• Data Flow描述了从日志数据生成到最终目标的数据传输过程。

职教本科

职教本科

数据在这里传输。来源: flume.apache.org2.1从传统数据处理转向大数据处理

数据收集、处理和保存——数据收集——Flume如果可靠性——节点发生故障,数据将被转发到其他节点可扩展性——各层节点可扩展可管理性——主控管理

功能可扩展性添加3种节点以满足——需求2.1从传统数据处理转向大数据处理数据收集、处理和存储——数据处理没什么变化。 Python、r、Ruby、c、Perl等。2.1从传统数据处理转向大数据处理数据收集、处理、存储——数据存储

数据类型:网络日志、视频、图片、GPS、物联网等类型复杂;数据规模:海量卷、传统数据库和数据仓库存储数据模式:变化多端,传统的关系数据库无法满足。关系数据库(ACID )、DW 分布式关系数据库)屏蔽结构化数据)分布式文件系统(大量非结构化数据) )。NoSQL (大量非结构化数据) ) ) ) ) ) ) )。2.1从传统数据处理转向大数据处理数据收集、处理和存储——数据存储3354分布式文件系统CAP原理:

c :一致性a :可用性p :分区均衡

HDFS ) HadoopdistributedfileSystem )• Lustre (开源、基于对象的存储技术技术的集群并行文件系统,特点:大规模、安全性、高可用性)谷歌文件系统,大规模模分布

式数据,可扩展的分布式文件系统)

图片来源: http://www.runoob.com/mongodb/nosql.html 2.1 传统数据处理到大数据处理 数据采集、处理与存储——数据存储——NoSQL

类型 部分代表 特点

列存储 Hbase 顾名思义,是按列存储数据的。最大的特点是方便存储结构化和半结构化数

Cassandra 据,方便做数据压缩,对针对某一列或者某几列的查询有非常大的 IO 优势。 Hypertable 文档存储 MongoDB 文档存储一般用类似 json 的格式存储,存储的内容是文档型的。这样也就有 CouchDB 有机会对某些字段建立索引,实现关系数据库的某些功能。 key-value 存储 Tokyo Cabinet / Tyrant 可以通过 key 快速查询到其 value 。一般来说,存储不管 value 的格式,照单 Berkeley DB 全收。( Redis 包含了其他功能) MemcacheDB Redis

图存储 Neo4J 图形关系的最佳存储。使用传统关系数据库来解决的话性能低下,而且设计 FlockDB 使用不方便。 对象存储 db4o 通过类似面向对象语言的语法操作数据库,通过对象的方式存取数据。 Versant

xml 数据库 Berkeley DB XML 高效的存储 XML 数据,并支持 XML 的内部查询语法,比如 XQuery,Xpath 。 BaseX 2.1 传统数据处理到大数据处理

数据理解

!"%#!) *($'& 2.1 传统数据处理到大数据处理

数据理解

• 降维:解决维数灾难(上亿字段),传统的降维方法、流形学习。 • 可视化:基本没什么变化。 2.1 传统数据处理到大数据处理 数据分析与挖掘技术

'%!$#

& %" 2.1 传统数据处理到大数据处理

数据分析与挖掘技术

• 数据挖掘(数值型、分类型数据,一般是矩阵、向量这种结构化的数

据)→文本挖掘,NLP,图像,语音(非结构化的数据,转化为结构 化的矩阵)。

• 神经网络算法的崛起,深度神经网络在文本、图像领域的良好表现; 图像挖掘一般用(CNN),文本挖掘(RNN)。 2.1 传统数据处理到大数据处理 总结

传统数据分析 大数据分析 → 数据收集 DB、ETL、传感器、GPS等 数据类型、 数据 Flume 、 Scribe 、 Kafka 、 Time 量、数据速度; Tunnel、Chukwa等

数据准备 ( ETL、Python、R等; 数据类型、 数据 脚本:C,R,Python,Ruby等; 预处理) 、 DB、DW等; 量、数据速度; 分布式文件系统,分布式数据 数据存储 库,NoSQL 数据理解 数据降维(PCA、因子分析, 数据类型、 数据 流形学习受到钟爱;可视化工 奇异值分解、MDS等),可视 量、 具变化不大 化(D3, Tableau,Python, R 等)

训练 、 测 算法(分类 、聚类、 回归、 数据类型、 数据 深度神经网络效果较好 试 、 使用 NN 、 关联 等 ) , 脚本 量、 算法 (Python,C系,R,Java), 工具(SAS,SPSS,Matlab等) 2.2 大数据处理框架 Hadoop Spark 2.2 大数据处理框架

Hadoop

• Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

Doug Cutting借鉴了GFS系统和Google Map-reduce思想来实现的。

• Hadoop是一个大数据生态系统,提供了一个能够对大量数据进行 数据存储、数据管理、数据分析的可靠、高效、可伸缩的分布式基 础架构。 2.2 大数据处理框架

Hadoop

图片来源:http://blog.csdn.net/woshiwanxin102213/article/details/19688393 2.2 大数据处理框架 HDFS——节点

• NameNode:是管理节点,存放文件元数据,包括:文件与数据块的映射表,数据块与数 据节点的映射表。(独立节点) • DataNode:是工作节点,存放数据块。(多个独立节点)

• SecondaryNameNode:确保在NameNode发生故障时,保证高可用性。(NameNode备 份节点,分小规模和大规模) • Block:数据块单元,每个64Mb。 2.2 大数据处理框架

HDFS——文件读取

1. 文件读写请求。客户端向NameNode发 出文件读取请求,客户端可能是python程 序或者java程序等。并把文件名告诉 NameNode。

高职高专是什么学历

高职高专是什么学历

NameNode查询元数据, 返回文件包含哪些块,分别在哪些 DataNode中能找到。 3.读取Block。客户端到相应的DataNode 中找相应的Block。 2.2 大数据处理框架 HDFS——文件写入

1.文件拆分成块。拆分成Block。客户端 然后通知NameNode。 2.NameNode会返回一些可用的、当前在 线的、有足够空间的Datenode。 3.客户端写入Block。

4.流水线复制。通过数据通道来进行数据 的复制,数据复制到其他的DataNode中。 5.更新NameNode中的元数据。 2.2 大数据处理框架

MapReduce

• JobTracker:与集群中的节点通信,将Map和Reduce的任务安排给一

个活多个TaskTrackerder的可用节点;记录所有Job和Task的状态、 进行情况。(大规模下为独立节点,小规模下可以与NameNode共享 节点)

• TaskTracker:监视所在节点的资源情况,记录Task的运算情况,返

回给JobTracter。(与对应的DataNode在同一个节点上) 2.2 大数据处理框架 MapReduce

图片来源:http://szjian.iteye.com/blog/2100848 2.2 大数据处理框架 Spark

• 分布式的计算框架:功能与Map-Reduce类似。 • 优势:速度更快;更好用的库;更容易使用。 3

PART THREE 大数据的行业状况与典型应用 • 大数据产业链 • 大数据市场状况

• 典型大数据厂商解决方案 • 大数据的应用 3.1大数据产业链

1 政府机构、电网、石油公司(拥有大量数据,却难以 从数据中提取价值或催生创新思想) 2 咨询公司、技术供应商(有开源技术公司加入) 3 数据分析服务机构 4 基于模式创新思维的公司 3.2大数据市场状况

2013年大数据市场收益

服务 硬件 40% 38%

软件 22%

2015年收入排名前10大厂商(单位:百万美元)

这里有几个有趣的名字:Palantir(得到CIA支持的大数据公司)、Splunk以及埃森 哲(咨询公司)从传统的IT供应商中脱颖而出。 3.2大数据市场状况

• IBM以较大优势领跑

• SAP、Oracle和HPE分列第二、第 三和第四的位置,Palantir位列第五 • 还有67%来自其它厂商

2015前十大厂商份额图 3.2大数据市场状况

全球大数据与商业分析收入将

全球大数据市场将从2014年的 50% 从2015年的1220亿美元增长到 2019年的1870多亿美元,在这 183亿美元增长到2026年的922 亿美元,平均每年增长14.4% 五年中会增长50%多。 14.4%

4.5 从现在到2020年,基于 云的大数据与分析技术 2015年业务分析的市场领袖 的增长速度将比本地解 分别是: TOP5 决方案快4.5x倍。 Oracle (16.4%)、 SAP (13.1%)、

IBM (10.3%)、 到2020年,预测性与 Microsoft (9.1%) 、 40% 指定的分析 将吸引企 SAS (6.1%) 业在商业智能与分析 方面新投资的40% 3.3典型大数据厂商解决方案

解决方案 提供大数据技术、工具、一整套软件、系统和业务战略组成的完整解决方案

大数据产品 (1)InfoSphere BigInsights、InfoSphere Streams和InfoSphere Warehouse,可用于处理静态数据和流动数据,用于快速分析非结构化或 半结构化的海量数据 IBM (2)业务分析产品(Cognos,SPSS,ClarltySystem等) (3)商业分析、优化顾问及研发专家提供解决方案 应用价值 在云计算架构上整合软、硬件技术,强大全面的信息管理、数据分析软件、专业的咨询服务、为客户提供更加简易、及时的数据分析、 挖掘、决策服务 解决方案 为用户提供高度集成、端到端的大数据解决方案

大数据产品 (1)大数据一体机、Oracle Exalogic中间件云服务器、Oracle Exadata数据库云服务器、Oracle Exalytics商务智能云服务器等构成的高度 Oracle 集成化产品组合 (2)为以上大数据产品提供一线支持服务 应用价值 通过软硬一体化的集成产品,为客户提供洞察数据及挖掘数据的商业价值 解决方案 提供云计算开放式、分布式和集群技术处理的大数据解决方案

EMC 大数据产品 统一的大数据分析平台UAP,融合了EMC Greenplum关系数据库、EMC Greenplum HD Hadoop发行版和EMC GreenplumChorus等产品 应用价值 充分发挥存储、管理和安全方面的优势,针对大数据提供分析工具、服务,具有强大的扩展性和开源的生态系统 解决方案 能够提供快速高效地处理海量数据的HANA,及实时大数据平台的解决方案 大数据产品 (1)具有内存计算技术的HANA SAP

(2)SAP ERP、SAP Business One、SAP Suite on HANA等针对行业应用的产品 应用价值 帮助用户以便捷的方式快速获取实时信息,即时获取大数据洞察,并提高预测和规划能力 解决方案 拥有国内最具商业价值的海量数据,为商家提供各类数据服务 大数据产品 (1)数据魔方平台:首个基于全站数据的数据产品,是淘宝从电子商务公司向深度数据服务公司转型的里程碑式的产品 (2)量子恒道统计:致力于为各个电商、淘宝卖家提供精准实时的数据统计、多维的数据分析、权威的数据解决方案 淘宝 (3)淘宝指数:淘宝官方的免费的数据分享平台,用户可以窥探淘宝购物数据,了解淘宝购物趋势 (4)阿里巴巴金融:专注于小微企业的融资服务提供商,提供阿里信用贷款 APP价值利用大量的交易数据,可以为用户提供数据服务,了解市场和客户的需求,改善产品和运营战略3.4大数据应用互联网

网络广告、用户行为分析、内容推荐、个性化营销、搜索引擎优化等

定向广告(亚马逊、Facebook、腾讯)是互联网大数据APP应用最主要的商业模式。包括映射用户行为数据、系统日志数据、用户交易数据等各种大数据的创新对策使用商业价值:改善社交网络体验,提高网络用户忠诚度,为目标用户提供针对性的商品和服务

3.4大数据应用金融业

洗钱、反欺诈、客户价值分析、目标市场客户聚类、贷款偿付能力预测、股票投资组合趋势分析

传统的数据分析手段已经不能满足新的业务需求。 向金融业人士询问了新的商业需求。 是的海量数据的处理计算能力、现有的数据分析速度能力不足商业价值:降低金融风险、提高整体收入、增加市场份额3.4大数据应用

电报

应用:业务设计优化、用户行为分析、个性化推荐、用户流失预测、网络质量优化商业价值:提高运营效率、定制服务、优化产品包装3.4大数据应用医疗卫生

非结构化数据的增长持续加速,传统的关系数据库在存储大数据集时没有性能和成本在处理和查询大型数据集时,此优点不起作用。应用:临床数据比对、决策支持、传染病蔓延预防、就诊行为分析、疾病模式分析商业价值:改善诊疗质量,加快诊疗速度

大数据在医疗领域最有价值的应用之一是个性化医疗。 医务人员通过检测DNA来预测特性决定患者的药物反应,提供最有效的治疗方法,实现个性化医疗。 另外,也可以利用个体的遗传信息和基因片段预测遗传病携带概率和癌症患病风险,早期发现病情并实施诊治。Counsyl是一家提供基因检测的健康科技公司。 基于基因数据库,使用户包括怀孕基因检测,包括孕前基因筛查、产前筛查、癌症家族病史基因筛查等项目医疗研究人员可以根据历史医疗数据和疗效记录进行药物开发3.4大数据应用公共安全

应用:嫌疑人行为预测分析、恐怖检查、危险性分析、利益相关者分析商业价值:更好地对外提供公共服务、舆论分析和安全威胁结合身份信息(身份证、指纹、血型、出生地等)连接着以手机为中心的电子设备接收、发送的信息、摄像机监视信息、导航定位信息案件侦查更容易,嫌疑人更难逃脱法网3.4大数据应用

聪明的交通

应用:集成传感器、监测视频和GPS等设备产生的大量数据,并与气象监测设备耦合的天气状况数据、人口分布数据、移动通信数据,实现智能交通公共信息服务实时分发和快速响应交通事故分析、交通信息研判、交通拥挤状况分析、交通督查交叉控制4

部件福

大数据的未来趋势大数据思维大数据技术大数据的应用

4.1大数据思维4.2大数据技术基础数据体系结构治理演示文稿数据数据数据分析

开采、储存、共享

大数据技术将与云计算、物联网、人工智能等其他技术紧密结合4.3大数据应用数据资源化从互联网走向传统生产精准营销

行业数据垂直整合数据服务正在成为基于收益手段大数据的智能化整合产业链数据,利润数据本身就是竞争力,通过大数据提及机器学习等技术通过业务系统发生的数量控制、分析、销售数据和供应数据的基础,促进人工智能通过更好的服务生产、相关服务成为直接的收益手段的发展经营、决策基于大数据的智能物联网也是会繁荣起来吧讨论的问题

1、大数据分析在哪些领域可能有创新应用?

2、大数据分析和应用可能冲击哪些领域,谁将被替代; 什么样的领子?域中人的创造力是必不可少的吗?3、大数据时代的人没有隐私吗?……

随机看看

NEW ARTICLE

标签

Tag