大数据导论
2022年11月7日大约 20 分钟
大数据导论
第一章 大数据与大数据时代
- 经典案例:准确预测地震
1.1 什么是大数据
当前是一个信息大爆炸的时代
按产生数据的主题划分
少量企业应用产生的数据
如关系型数据中的数据和数据仓库中的数据等
大量人产生的数据
如推特,微博,通信软件,移动通信数据,电子商务在线交易,日志数据,企业应用的相关评论数据等;
巨量机器产生的数据
如应用服务器日志,各类传感器数据,图像和视频监控数据,二维码和条形码(条码)扫描数据等
按数据来源的行业来分
- 以BAT为代表的互联网公司
- 电信,金融,保险,电力,石化系统
- 公共安全,医疗,交通领域
- 气象,地理,政务等领域
- 制造业和其他传统行业
按数据存储的形式划分
- 结构化数据简单来说就是数据库,如企业ERP,财务系统,
- 非结构化数据包括所有格式的办公文档,文本,图片,XML,HTML,各类报表,图像
常用的大数据获取途径
- 系统日志采集
- 互联网数据采集
- APP移动数据采集
- 与数据服务机构进行合作
1.1.2 大数据的定义
- 所谓大数据,狭义上可以定义为:用现有的一般技术哪一管理的大量数据的集合对大量数据进行分析,并从中获得有用的观点,这种做法在一部分研究机构和企业中,过去就已经存在了,现在和过去相比,主要有三点区别:
- 随着社交媒体和传感器网络等的发展,在我们身边正产生大量且多样的数据
- 随着硬件和软件技术的发展,数据的存储,处理成本大幅下降
- 随着云计算的兴起,大数据的存储,处理环境已经没有必要自行搭建
- 所谓"用一般技术难以管理",例如是指用目前在企业数据库占据主流地位的关系型数据库无法进行管理的,具有复杂结构的数据.或者也可以说,是指由于数据量的增大,导致非结构化的数据
1.1.3用3V描述大数据特征
- 3V:数量(Volume),种类(Variety),速度(Velocity)
- IBM在3V基础上有归纳总结了第四个V->Veracity(真实和准确)
- 4V->数量(Volume),种类(Variety),速度(Velocity),Value(价值)
1.1.4 广义的大数据
- "所谓大数据,是一个总和概念,他包括具备3V特征而难以进行管理的数据,对这些数据进行存储,处理分析的技术,以及能够通过分析这些数据获得实用意义和观点的人才和组织"
- "存储,处理分析的技术",值得是用于大规模数据分布式处理的框架Hadoop,具备良好扩展性的NoSQL数据库,以及机器学习和统计分析等;"能够通过分析这些数据获得实用意义和观点的人才和组织",指的是目前十分紧俏的"数据科学家"这类人才,以及能够对大数据进行有效的运用的组织
1.2 大数据变革思维
- 今天,人们不再认为数据时精致和陈旧的;
- 大数据是人们获得新的知识,创造新的价值的源泉,大数据还是改变市场,组织结构以及政府与公民的关系的方法.大数据时代对我们的生活,以及世界交流的方式都提出了挑战.
1.3 大数据的结构类型
- 大数据有多种形式,从高度结构化的财务数据,到文本文件,多媒体文件和基因定位图的任何数据,都可以成为大数据.数据量大师大数据的意志特征;引起数据自身的复杂性,作为一个必然的结果,处理大数据的首选方法就是在并行计算的环境中进行大规模并行处理,这使得同时发生的并行摄取,并行数据装在和分析成为可能,实际上,大多数的大数据都是非结构化或半结构化的,这需要不同的技术和工具来处理和分析.
- 大数据最突出的特征是他的结构.未来数据增长的80%~90%将来自于不是结构化的数据类型;
大数据的表现形态
- 大数据在当今社会非常时髦,大数据的信息量是海量的,这个海量并不是某个时间端点的量级总结,而是持续更新,持续增量。由于大数据产生的过程中诸多的不确定性,使得大数据的表现形态多种多样。
- 多源性
- 大数据来源的复杂性。网络技术的迅猛发展使得数据产生的途径多样化。大数据结构的复杂性。非结构化数据的格式多样化,而这些非结构化数据中可能蕴藏着非常有价值的信息。
- 实时性
- 大数据的实时性,体现在数据更新的实时性。如何及时、有效、全面的捕获到互联网、物联网、云计算上产生的大量的不同来源的数据是会直接影响数据价值体现的关键因素。
- 不确定性
- 体现的是数据的不确定性。原始数据的不准确以及数据采集处理粒度、应用需求与数据集成和展示等因素使得数据在不同尺度、不同维度上都有不同程度的不确定性。
1.4 大数据的发展
大数据技术的支撑
- 存储:存储成本的下降
- 云计算出现之前
- 在云计算出现之前,数据存储的成本是非常高的。
- 例如,公司要建设网站,需要购置和部署服务器,安排技术人员维护服务器,保证数据存储的安全性和数据传输的畅通性,还会定期清理数据,腾出空间以便存储新的数据,机房整体的人力和管理成本都很高。
- 云计算出现之后
- 云计算出现后,数据存储服务衍生出了新的商业模式,数据中心的出现降低了公司的计算和存储成本。
- 例如,公司现在要建设网站,不需要去购买服务器,不需要去雇用技术人员维护服务器,可以通过租用硬件设备的方式解决问题。
- 存储成本的下降,也改变了大家对数据的看法,更加愿意把1年、2年甚至更久远的历史数据保存下来,有了历史数据的沉淀,才可以通过对比,发现数据之间的关联和价值。正是由于存储成本的下降,才能为大数据搭建最好的基础设施。
- 云计算出现之前
- 计算:运算速度越来越快
- 海量数据从原始数据源到产生价值,期间会经过存储、清洗、挖掘、分析等多个环节,如果计算速度不够快,很多事情是无法实现的。所以,在大数据的发展过程中,计算速度是非常关键的因素。
- 分布式系统基础架构Hadoop的出现,为大数据带来了新的曙光;
- HDFS为海量的数据提供了存储;
- HDFS:分布式文件系统
- MapReduce则为海量的数据提供了并行计算,从而大大提高了计算效率;
- Spark、Storm、Impala等各种各样的技术进入人们的视野。
- Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎
- 如果仅仅是从数据量的角度来看的话,大数据在过去就已经存在了。例如,波音的喷气发动机每30分钟就会产生10TB的运行信息数据,安装有4台发动机的大型客机,每次飞越大西洋就会产生640TB的数据。世界各地每天有超过2.5万架的飞机在工作,可见其数据量是何等庞大。生物技术领域中的基因组分析,以及以NASA(美国国家航空航天局) 为中心的太空开发领域,从很早就开始使用十分昂贵的高端超级计算机来对庞大的数据进行分析和处理了。
- 现在和过去的区别之一,就是大数据已经不仅产生于特定领域中,而且还产生于我们每天的日常生活中,Facebook、推特、领英(LinkedIn) 、微信、QQ等社交媒体上的文本数据就是最好的例子。而且,尽管我们无法得到全部数据,但大部分数据可以通过公开的API(应用程序编程接口) 相对容易地进行采集。在B2C(商家对顾客) 企业中,使用文本挖掘(text mining) 和情感分析等技术,就可以分析消费者对于自家产品的评价。
- 计算机性价比的提高,磁盘价格的下降,利用通用服务器对大量数据进行高速处理的软件技术Hadoop的诞生,以及随着云计算的兴起,甚至已经无需自行搭建这样的大规模环境——上述这些因素,大幅降低了大数据存储和处理的门槛。因此,过去只有像NASA这样的研究机构以及屈指可数的几家特大企业才能做到的对大量数据的深入分析,现在只要极小的成本和时间就可以完成。无论是刚刚创业的公司还是存在多年的公司,也无论是中小企业还是大企业,都可以对大数据进行充分的利用。
1.4.1 硬件性价比提高与软件技术进步
- 计算机性价比的提高
- 承担数据处理任务的计算机,其处理能力遵循摩尔定律,一直在不断进化。所谓摩尔定律,是美国英特尔公司共同创始人之一的高登•摩尔(Gordon Moore,1929- ) 于1965年提出的一个观点,即“半导体芯片的集成度,大约每18个月会翻一番”。从家电卖场中所陈列的电脑规格指标就可以一目了然地看出,现在以同样的价格能够买到的计算机,其处理能力已经和过去不可同日而语了。
- 磁盘价格的下降
- 除了CPU性能的提高,硬盘等存储器(数据的存储装置) 的价格也明显下降。2000年的硬盘驱动器平均每GB容量的单价约为16美元到19美元,而现在却只有7美分(换算成人民币的话,就相当于4~5毛钱的样子) ,相当于下降到了10年前的230~270分之一。
- 变化的不仅仅是价格,存储器在重量方面也产生了巨大的进步。1982年日立最早开发的超1 GB级硬盘驱动器(容量为1.2GB) ,重量约为250磅(约合113千克) 。而现在,32GB的微型SD卡重量却只有0.5克左右,技术进步的速度相当惊人。
- 大规模数据分布式处理技术Hadoop的诞生
- Hadoop是一种可以在通用服务器上运行的开源分布式处理技术,它的诞生成为了目前大数据浪潮的第一推动力。如果只是结构化数据不断增长,用传统的关系型数据库和数据仓库,或者是其衍生技术,就可以进行存储和处理了,但这样的技术无法对非结构化数据进行处理。Hadoop的最大特征,就是能够对大量非结构化数据进行高速处理。
1.4.2 云计算的普及
- 大数据的处理环境现在在很多情况下并不一定要自行搭建了。例如,使用亚马逊的云计算服务EC2(Elastic Compute Cloud) 和S3(Simple Storage Service) ,就可以在无需自行搭建大规模数据处理环境的前提下,以按用量付费的方式,来使用由计算机集群组成的计算处理环境和大规模数据存储环境了。此外,在EC2和S3上还利用预先配置的Hadoop工作环境提供了“EMR”(Elastic Map Reduce) 服务。利用这样的云计算环境,即使是资金不太充裕的创业型公司,也可以进行大数据的分析了。
- 实际上,在美国,新的IT创业公司如雨后春笋般不断出现,它们通过利用亚马逊的云计算环境,对大数据进行处理,从而催生出新型的服务。这些公司如网络广告公司Razorfish、提供预测航班起飞晚点等“航班预报”服务的FlightCaster、对消费电子产品价格走势进行预测的Decide.com等。
1.4.3 大数据作为BI的进化形式
- 认识大数据,我们还需要理解BI(Business Intelligence,商业智能) 的潮流和大数据之间的关系。对企业内外所存储的数据进行组织性、系统性的集中、整理和分析,从而获得对各种商务决策有价值的知识和观点,这样的概念、技术及行为称为BI。大数据作为BI的进化形式,充分利用后不仅能够高效地预测未来,也能够提高预测的准确率。
- BI这个概念,是1989年由时任美国高德纳(Gartner) 咨询公司的分析师Howard Dresner所提出的。Dresner当时提出的观点是,应该将过去100%依赖信息系统部门来完成的销售分析、客户分析等业务,通过让作为数据使用者的管理人员以及一般商务人员等最终用户来亲自参与,从而实现决策的迅速化以及生产效率的提高。
- BI的主要目的是分析从过去到现在发生了什么、为什么会发生,并做出报告。也就是说,是将过去和现在进行可视化的一种方式。例如,过去一年中商品A的销售额如何,它在各个门店中的销售额又分别如何。
- 然而,现在的商业环境变化十分剧烈。对于企业今后的活动来说,在将过去和现在进行可视化的基础上,预测出接下来会发生什么显得更为重要。也就是说,从看到现在到预测未来,BI也正在经历着不断的进化。
- 要对未来进行预测,从庞大的数据中发现有价值的规则和模式的数据挖掘(Data Mining) 是一种非常有用的手段。为了让数据挖掘的执行更加高效,就要使用能够从大量数据中自动学习知识和有用规则的机器学习技术。从特性上来说,机器学习对数据的要求是越多越好。也就是说,它和大数据可谓是天生一对。一直以来,机器学习的瓶颈在于如何存储并高效处理学习所需的大量数据。然而,随着硬盘单价的大幅下降、Hadoop的诞生,以及云计算的普及,这些问题正逐步得以解决。现实中,对大数据应用机器学习的实例正在不断涌现。
1.4.4 从交易数据分析到交互数据分析
- 对从像“卖出了一件商品”、“一位客户解除了合同”这样的交易数据中得到的“点”信息进行统计还不够,我们想要得到的是“为什么卖出了这件商品”、“为什么这个客户离开了”这样的上下文(背景) 信息。而这样的信息,需要从与客户之间产生的交互数据这种“线”信息中来探索。以非结构化数据为中心的大数据分析需求的不断高涨,也正是这种趋势的一个反映。
- 例如,像亚马逊这样运营电商网站的企业,可以通过网站的点击流数据,追踪用户在网站内的行为,从而对用户从访问网站到最终购买商品的行为路线进行分析。这种点击流数据,正是表现客户与公司网站之间相互作用的一种交互数据。
- 举个例子,如果知道通过点击站内广告最终购买产品的客户比例较高,那么针对其他客户,就可以根据其过去的点击记录来展示他可能感兴趣的商品广告,从而提高其最终购买商品的概率。或者,如果知道很多用户都会从某一个特定的页面离开网站,就可以下功夫来改善这个页面的可用性。通过交互数据分析所得到的价值是非常之大的。
- 对于消费品公司来说,可以通过客户的会员数据、购物记录、呼叫中心通话记录等数据来寻找客户解约的原因。最近,随着“社交化CRM”呼声的高涨,越来越多的企业都开始利用微信、推特等社交媒体来提供客户支持服务了。上述这些都是表现与客户之间交流的交互数据,只要推进对这些交互数据的分析,就可以越来越清晰地掌握客户离开的原因。
- 一般来说,网络上的数据比真实世界中的数据更加容易收集,因此来自网络的交互数据也得到了越来越多的利用。不过,今后随着传感器等物态探测技术的发展和普及,在真实世界中对交互数据的利用也将不断推进。
- 例如,在超市中,可以将由植入购物车中的IC标签收集到的顾客行动路线数据和POS等销售数据相结合,从而分析出顾客买或不买某种商品的理由,这样的应用现在已经开始出现了。或者,也可以像前面讲过的那样,通过分析监控摄像机的视频资料,来分析店内顾客的行为。以前也并不是没有对店内的购买行为进行分析的方法,不过,那种分析大多是由调查员肉眼观察并记录的,这种记录是非数字化的,成本很高,而且收集到的数据也比较有限。
- 进一步讲,今后更为重要的是对连接网络世界和真实世界的交互数据进行分析。在市场营销的世界中,O2O(Online to Offline,线上与线下的结合) 已经逐步成为一个热门的关键词。所谓O2O,就是指网络上的信息(在线) 对真实世界(线下) 的购买行为产生的影响。举例来说,很多人在准备购买一种商品时会先到评论网站去查询商品的价格和评价,然后再到实体店去购买该商品。
- 在O2O中,网络上的哪些信息会对实际来店顾客的消费行为产生关联,对这种线索的分析,即对交互数据的分析,显得尤为重要。
- 大数据的7个应用场景
环境
- 借助于大数据技术,天气预报的准确性和实效性将会大大提高,预报的及时性将会大大提升,同时对于重大自然灾害如龙卷风,通过大数据计算平台,人们将会更加精确地了解其运动轨迹和危害的等级,有利于帮助人们提高应对自然灾害的能力。
教育行业
- 信息技术已在教育领域有了越来越广泛的应用,教学、考试、师生互动、校园安全、家校关系等,只要技术达到的地方,各个环节都被数据包裹。
- 通过大数据的分析来优化教育机制,也可以作出更科学的决策,这将带来潜在的教育革命,在不久的将来,个性化学习终端将会更多地融入学习资源云平台,根据每个学生的不同兴趣爱好和特长,推送相关领域的前沿技术、资讯、资源乃至未来职业发展方向。
医疗行业
- 医疗行业拥有大量的病例、病理报告、治愈方案、药物报告等,通过对这些数据进行整理和分析将会极大地辅助医生提出治疗方案,帮助病人早日康复。可以构建大数据平台来收集不同病例和治疗方案,以及病人的基本特征,建立针对疾病特点的数据库,帮助医生进行疾病诊断。
- 医疗行业的大数据应用一直在进行,但是数据并没有完全打通,基本都是孤岛数据,没办法进行大规模的应用。未来可以将这些数据统一采集起来,纳入统一的大数据平台,为人类健康造福。
农业
- 借助于大数据提供的消费能力和趋势报告,政府可为农业生产进行合理引导,依据需求进行生产,避免产能过剩造成不必要的资源和社会财富浪费。
- 通过大数据的分析将会更精确地预测未来的天气,帮助农民做好自然灾害的预防工作,帮助政府实现农业的精细化管理和科学决策。
智慧城市
- 大数据技术可以了解经济发展情况、各产业发展情况、消费支出和产品销售情况等,依据分析结果,科学地制定宏观政策,平衡各产业发展,避免产能过剩,有效利用自然资源和社会资源,提高社会生产效率。大数据技术也能帮助政府进行支出管理,透明合理的财政支出将有利于提高公信力和监督财政支出。
零售行业
- 零售行业大数据应用有两个层面,一个层面是零售行业可以了解客户的消费喜好和趋势,进行商品的精准营销,降低营销成本。另一个层面是依据客户购买的产品,为客户提供可能购买的其他产品,扩大销售额,也属于精准营销范畴。
- 未来考验零售企业的是如何挖掘消费者需求,以及高效整合供应链满足其需求的能力,因此,信息技术水平的高低成为获得竞争优势的关键要素。
金融行业
- 银行数据应用场景
利用数据挖掘来分析出一些交易数据背后的商业价值。 - 保险数据应用场景
用数据来提升保险产品的精算水平,提高利润水平和投资收益。 - 证券数据应用场景
对客户交易习惯和行为分析可以帮助证券公司获得更多的收益。
- 银行数据应用场景
第4章 大数据时代的思维变革
4.2 转变之一:样本->总体
- 以往由于种种原因,人们无法穷举所有的事件情况所以常用采样法分析问题;
- 现在信息技术的条件已经有了非常大的提高,可以处理的数据量已经大大增加;