大数据的权威定义

2024-05-10

1. 大数据的权威定义

、国内外开展的相关工作

近年来,大数据成为新兴的热点问题,在科 技、商业领域得到了日益广泛的关注和研究,有 一些相关的研究成果。早在1980 年,阿尔文·托夫勒等人就前瞻性地指出过大数据时代即将 到来。此后经过几十年的发展,特别是移动互联网络和云计算的出现,人们逐渐认识到大数据的重大意义,国际顶级学术刊物相继出版大数据方面的专刊,讨论大数据的特征、技术与应用, 2008 年 Nature 出版专刊 “Big Data”,分析了大量快速涌现数据给数据分析处理带来的巨大挑 战,大数据的影响遍及互联网技术、电子商务、超级计算、环境科学、生物医药等多个领域。 2011 年 Science 推 出 关于 数 据 处 理的 专 刊 “Dealing with data ”, 讨论 了 数 据 洪流 ( Data Deluge) 所带来的挑战,提出了对大数据进行有 效的分析、组织、利用可以对社会发展起到巨大推动作用。在大数据领域,国内学者也有大量的相关工作,李国杰等人阐述了大数据的研究现状与意义,介绍了大数据应用与研究所面临的问题与挑战并对大数据发展战略提出了建议。文献主要关注大数据分析、查询方面的理论、 技术,对大数据基本概念进行了剖析,列举了大数据分析平台需要具备的几个重要特性,阐述了大数据处理的基本框架,并对当前的主流实现平台进行了分析归纳。

大数据的权威定义

2. 数据标准

为确保系统各数据库与各功能模块之间的数据分类、编码及数据文件命名的系统性和唯一性,满足系统正常高效运行以及与其他相关系统协同运作的要求,实现系统之间相互兼容、信息共享,数据库建设时必须遵循有关的标准规范。需参照的标准规范如下:
GB/T2260—98 中华人民共和国行政区划代码
GB/T2808—81 全数字式日期表示法
GB/T9649—88 地质矿产术语分类代码
GB/T13923—92 国土基础信息数据分类代码
DZ/T0001—91 区域地质调查总则(1:50000)
DZ/T0157—95 1:50000地质图地理底图编绘规范
DZ/T0160—95 1:200000地质图地理底图编绘规范及图式
DDB9702 GIS图层描述数据内容标准
地质图空间数据库建设工作指南 中国地质调查局
DDZ9701 资源评价工作中地理信息系统工作细则
DZ/T 0179—1997 地质图用色标准及用色原则
DD2005—01 多目标区域地球化学调查规范(1:25万)中国地质调查局
DD2005—02 区域生态地球化学评价技术要求 中国地质调查局
DD2005—03 生态地球化学评价样品分析技术要求 中国地质调查局
GB/T17296—2000 中国土壤分类与代码
GB/T13989—92 国家基本比例尺地形图分幅编号
DZ/T0167—1995 区域地球化学勘查规范(1:200000)
GB/T18507—2001 城镇土地分等定级规程
GB/T17296—2000 中国土壤分类代码

3. 大数据的定义

一分钟了解大数据的特征

大数据的定义

4. 数据标准化

区划指标选定后,由于指标的量纲、数量级和数量变化幅度的差异,就会将不同性质、不同量纲、不同数量变化幅度的数值统计在一起,将有可能突出某些数量级特别大的指标对分类的作用,而压低甚至排除了某些数量级较小的指标对分类的作用,从而使各指标以不等权参加运算分析。为了避免这些弊病,常对数据进行适当和必要的处理以及变换,从而消除量纲的不同,并使每一指标都统一在某种共同的、相对均匀化的数值范围内,即对数据进行标准化处理。
数据的标准化也叫数据的无量纲化、规格化,是通过简单的数学变换来消除各指标量纲影响的方法。由于本研究选取的生态水文区划指标来源不同,量纲和数量大小不一致的,变化幅度也不一样,所以不具有可比性。如果直接用指标值进行计算,就会突出绝对值大的变量的作用而减弱绝对值小的变量的作用。在进行统计分析计算前,必须对数据进行标准化变换,用以消除它们之间的差异,平衡各指标的作用。由于生态水文区划时需要尽量保留实际值中的数值关系,则通过以上研究,SP SS软件可用的指标标准化方法中最适合本研究的就是第二种——标准化方法,所以本研究选用此方法来进行数据标准化。

5. 大数据的定义

大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。 
在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。
大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。

大数据的价值体现在以下几个方面:
(1)对大量消费者提供产品或服务的企业可以利用大数据进行精准营销。
(2)做小而美模式的中小微企业可以利用大数据做服务转型。
(3)面临互联网压力之下必须转型的传统企业需要与时俱进充分利用大数据的价值。

大数据的定义

6. 数据标准化

据的标准化(normalization)是将数据按照一定规则缩放,使之落入一个小的特定区间。这样去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。其中最典型的就是0-1标准化和Z标准化,当然,也有一些其他的标准化方法,用在不同场景,这里主要介绍几种常用的方法。
  
  1、Min-Max标准化(Min-Max normalization) 
  
 也称离差标准化,是对原始数据的线性变换,使结果落到[0,1]区间,转换函数如下:
  
 yi=xi−min{xj}max{xj}−min{xj},(1≤i≤n,1≤j≤n)
  
 其中max{xj}为样本数据的最大值,min{xj}为样本数据的最小值。这种方法有一个缺陷就是当有新数据加入时,可能导致max和min的变化,需要重新定义。
  
  2、Z-score 标准化(zero-mean normalization) 
  
 也叫标准差标准化,经过处理的数据符合标准正态分布,即均值为0,标准差为1,其转化函数为:
  
 yi=xi−x¯s,(1≤i≤n)
  
 其中x¯为所有样本数据的均值,s 为所有样本数据的标准差。
  
 经过 Z-score 标准化后,各变量将有约一半观察值的数值小于0,另一半观察值的数值大于0,变量的平均数为0,标准差为1。经标准化的数据都是没有单位的纯数量。它是当前用得最多的数据标准化方法。如果特征非常稀疏,并且有大量的0(现实应用中很多特征都具有这个特点),Z-score 标准化的过程几乎就是一个除0的过程,结果不可预料。
  
  3、归一标准化 
  
 yi=xi∑n1x2i,(1≤i≤n)
  
 则新序列y1,y2,…,yn∈[0,1]且无量纲并且显然有∑niyi=1.
  
 归一化方法在确定权重时经常用到。针对实际情况,也可能有其他一些量化方法,或者要综合使用多种方法,总之最后的结果都是无量纲化。
最新文章
热门文章
推荐阅读