盘点 精选大数据相关用语

2024-05-16

1. 盘点 精选大数据相关用语

盘点:精选大数据相关用语
这时身处于“大数据时代”的我们,自然得对大数据有所认识,在这里为大家列出了一些经常跟大数据一起出现的陌生用语,认识了这些大数据相关字汇,下次看大数据的相关文章就不会一直“卡”了。
Algorithm演算法
出自于数学用语,在这里指的是在有限步骤内,分析数据的具体方法,而且通常由软件来执行。
AIDC自动识别技术
AIDC(Automatic Identification and Data Capture)是将讯息数据自动识读、自动输入电脑的重要方法和手段,它是以电脑技术和通信技术为基础的综合性科学技术。常见的AIDC例如条码(Bar codes)、磁条(magnetic strips)、生物识别(Biometrics)、RFID等技术。
AWS亚马逊网路服务系统
2006年Amazon开始以Web服务的形式向企业提供各种云端运算服务,包括运算、储存、数据库、分析、应用程式和部署服务。现在许多科学家、开发人员以及各企业的技术人员都在利用AWS (Amazon Web Services)进行大数据分析。
Avro序列化系统
Avro是Hadoop底下的子专案,是一个数据序列化系统(Data serialization system),被设计用来支援大量数据交换。
Behavioral analytics行为分析
行为分析是指用科学方法分析环境刺激与行为之间的因果关系,藉着系统性的观察来了解行为的变化原则,进而有系统的操作刺激,以达到行为的学习、塑造或改变。简单来说,就是用一个有系统的方法去观察、测量、收集客观数据来分析目标的表现行为。
Big Data大数据
大数据(or巨量数据),顾名思义是指大量的资讯,当数据量庞大到数据库系统无法在合理时间内进行储存、运算、处理,分析成能解读的资讯时,就称为大数据。
BI商业智慧
BI (Business Intelligence)指用现代数据仓储技术、线上分析处理技术、数据挖掘进行数据分析,再以图形化的界面或报表呈现以实现商业价值。
Cassandra数据库系统
是Apache软件基金会底下的开源分布式NoSQL数据库系统,适合用来管理巨量的结构化数据,由于其良好的可扩展性和性能,被Digg、Twitter、Hulu、Netflix等知名网站所采用。
CDR详细通联记录
CDRs (Call Detail Record)是电信网路的使用纪录,例如通话时间、通话长度等资讯。CDR是电信业者与企业分析网路营运和客户行为的重要资源。
Clickstream Analytics点击流分析
点击流(Clickstream)就是使用者的在网页间来来去去的点选记录,也可以分成Upstream––进入这个网站的“来源”,以及Downstream——拜访完这个网站之後的“去向”。对于网路行销跟搜寻引擎来说,点击流分析是十分重要的参考。
Cloud Computing云端运算
云端运算(Cloud Computing)是一种将数据、工具及程式放到网际网路上处理的资源利用方式,是一种分散式电脑运算(Distrubted computing)的概念,也就是让网路上不同的电脑同时帮你做一件事,可以大大的增加处理速度。
也因为所有资讯都被放置到网路的虚拟空间里,工程师在绘制示意图时常以一朵云来代表这个虚拟空间,因而有了“云端(Cloud)”一名。
Data Mining数据探勘
顾名思义,就好比在地球上从一堆粗糙的石头中进行地物探勘、寻找有价值的矿脉,数据探勘就是从巨量数据中提取出未知的、有价值的潜在资讯。
Data Modelling数据建模
数据模式(Data Model)在资讯系统中指的是数据如何被表达、储存及取用的方式,包括数据的格式、定义和属性,数据之间的关系,以及数据的限制,而数据模式的设计过程就称为“数据建模”。
Data Visualization数据视觉化
是关于数据之视觉表现形式的研究,数据视觉化的技术可以帮助不同背景的工程人员沟通、理解,以达良好的设计与分析结果。
Data Experts数据专家
数据专家就是能利用数据作出研究评估的专业人士,像是数据分析师、数据科学家、数据架构师等都可以被归类为数据专家。
Exploratory Data Analysis探索式分析
探索式数据分析是指在没有标准流程跟方法的情况下,在现有的数据中找寻数据的结构和特点、探索潜藏于数据中的讯息,这种数据分析方法强调的是探索式的分析而非严谨的模式确认。
Hadoop技术
Hadoop是一个能够储存并管理大量数据的云端平台,为Apache软件基金会底下的一个开放原始码、社群基础、而且完全免费的软件,Hadoop的两大核心功能——储存(Store)及处理(Process)数据所用到的分散式档案系统HDFS跟MapReduce平行运算架构。Hadoop被广泛应用于大数据储存和大数据分析,成为大数据的主流技术。
Internet of Things物联网
物联网(Iots)是一个全球化的网路基础建设,透过数据撷取以及通讯能力以连结实体与虚拟物件,透过网际网路的发展,物连网可透过特定的机制,将所有装置连结在一起,以供控制、侦测、识别,并交换所有的资讯。
NoSQL数据库系统
NoSQL最早是指“No SQL”,号称不使用SQL作为查询语言的数据库系统。但近来则普遍将NoSQL视为“Not Only SQL”,也就是“不只是SQL”的意思,希望结合SQL优点并混用关联式数据库和NoSQL数据库来达成最佳的储存效果。
在巨量数据所带动的潮流下,各种不同形态的NoSQL数据库如雨後春笋般窜起,其中MongoDB是众多NoSQL数据库软件中较为人熟知的一种。
Predictive Analytics预测分析
是指透过预测模型、机器学习、数据挖掘等技术来分析现有和历史的事实数据对未来作出预测的数据分析方法。
R语言
R是一个开放原始码统计软件,提供统计计算和绘图功能,类似Matlab跟SAS,而R不但免费而且简单易上手,近年来成为数据科学界里的重要工具。
SaaS软件即服务
SaaS (Software-As-A-Service)是随着网际网路技术和应用软件的成熟而兴起的一种软件应用模式。SaaS提供商将软件统一部署在自己的伺服器上,藉由网路提供软件给客户,所以客户不用购买软件,而是根据需求向提供商订购所需的服务,且客户无需对软件进行维护,服务提供商会全权管理和维护软件;软件厂商在向客户提供网际网路应用的同时,也提供软件的离线操作和本地数据存储,让客户随时随地都可以使用其定购的软件和服务。
对于许多小型企业来说,SaaS是采用先进技术的最好途径,它消除了企业购买、构建和维护基础设施和应用程式的需要。
Terabyte (1 000 000 000 000 Bytes)
TB为兆位元组,是数据量的分级,相当于10^12 bytes。其他数据量分级如下:
Bytes (8 Bits)
Kilobyte (1000 Bytes)
Megabyte (1 000 000 Bytes)
Gigabyte (1 000 000 000 Bytes)
Terabyte (1 000 000 000 000 Bytes)
Petabyte (1 000 000 000 000 000 Bytes)
Exabyte (1 000 000 000 000 000 000 Bytes)
Zettabyte (1 000 000 000 000 000 000 000 Bytes)
Yottabyte (1 000 000 000 000 000 000 000 000 Bytes)
以上是小编为大家分享的关于盘点 精选大数据相关用语的相关内容,更多信息可以关注环球青藤分享更多干货

盘点 精选大数据相关用语

2. 关于大数据你必须了解的几个关键词

关于大数据你必须了解的几个关键词
大数据分析的定义:大数据分析,即对规模巨大的数据进行分析,能够高效存储和处理海量数据、并有效达成多种分析目标的工具及技术的集合。Gartner将大数据分析定义为追求显露模式检测和发散模式检测,以及强化对过去未连接资产的使用的实践和方法,意即一套针对大数据进行知识发现的方法。通俗地讲,大数据分析技术就是大数据的收集、存储、分析和可视化的技术,是一套能够解决大数据的4V【海量(Volume)、高速(Velocity)、多变(Variety)、真实(Veracity)】问题,分析出高价值(Value)的信息的工具集合。  
大数据的特点:数据量大、数据种类多、 要求实时性强、数据所蕴藏的价值大。在各行各业均存在大数据,但是众多的信息和咨询是纷繁复杂的,需要搜索、处理、分析、归纳、总结其深层次的规律。数据量:这个参数表示数据的数量,随着科学技术及互联网的发展,推动着大数据时代的来临,各行各业每天都在产生数量巨大的数据碎片,数据计量单位已从从Byte、KB、MB、GB、TB发展到PB、EB、ZB、YB甚至BB、NB、DB来衡量。数据类型:传统企业数据(Traditionalenterprisedata):包括CRMsystems的消费者数据,传统的ERP数据,库存数据以及账目数据等。机器和传感器数据(Machine-generated/sensordata):包括呼叫记录(CallDetailRecords),智能仪表,工业设备传感器,设备日志(通常是Digitalexhaust),交易数据等。社交数据(Socialdata):包括用户行为记录,反馈数据等。如Twitter,Facebook这样的社交媒体平台。处理速度: 1秒定律,这一点也是和传统的数据挖掘技术有着本质的不同,物联网,云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。大数据分析工具:数据来自各个方面,在面对庞大而复杂的大数据,选择一个合适的处理工具显得很有必要,几款好用的处理工具如Hadoop、HPCC、Storm、Apache Drill、RapidMiner和Pentaho BI。工欲善其事,必须利其器,一个好的工具不仅可以使我们的工作事半功倍,也可以让我们在竞争日益激烈的云计算时代,挖掘大数据价值,及时调整战略方向。大数据的应用:大数据可应用于各行各业,将人们收集到的庞大数据进行分析整理,实现资讯的有效利用。营销:主要用于管理和优化各种营销活动,如交叉销售、追加销售以及基于位置的一对一营销,并及时对客户需求进行完整评估等。财政:使用大数据技术可以预防欺诈检查、进行风险估计和管理、贸易监视、反洗钱、防止信贷风险等。保险:为规避风险,防止欺诈行为,由大数据分析师及时分析调整工作负荷,客户价值等。零售:1、分析商品2、供应链管理分析3、优化消费通讯:推进网络优化规划,满足不同客户需求,研发并推出新产品。分析引擎:提供连接器,处理数据库。支持大数据分析法:面对庞杂而复杂的数据,必须有许多有效的解决方案,普通分析和高级分析都可以轻松提供集成,集中分析数据,在一个单一的平台上,满足分析引擎对营销方案的需求。电子表格工具:ODBC连接器将客户与Microsoft Excel连接在一起,利用精湛的分析工具如Qlik,MicroStrategy,TIBCO、Jaspersoft,Tableau等,在ODBC/REST APIS的帮助下,将协调R统计编程语言添加到金属板。CRM和在线营销方案:Salesforce.com提供的着名的CRM和在线营销解决方案适合处理业务,并及时提供必要的网络分析对策。大数据的意义和前景:总的来说,大数据是对大量、动态、能持续的数据,通过运用新系统、新工具、新模型进行挖掘,从而获得具有洞察力和新价值的东西。以前,面对庞大的数据,我们可能会一叶障目、可见一斑,因此不能了解到事物的真正本质,从而在科学工作中得到错误的推断,而大数据时代的来临,一切真相将会展现在人们面前。

3. 大数据热门词汇汇总

大数据热门词汇汇总 
可以说,大数据是如今IT行业最热门的趋势之一,它催生出了处理大数据的一批全新技术。而新技术带来了新的热门词汇:首字母缩略词、专业术语和产品名称等。连"大数据"这个短语本身都让人犯晕。许多人一听到"大数据",觉得是指"大量数据",而大数据的涵义绝不仅仅涉及数据量的多寡。
   
下面是我们认为你要熟悉的几个热门词汇,按字母顺序排列。
   ACID
    ACID的全称是原子性、一致性、隔离性和持久性,这其实是一组需求或属性:如果这四个方面都得到遵守,就能在处理过程中确保数据库事务的数据完整性。虽然ACID问世已有一段时日,但是事务数据量的急剧增长把更多的注意力投向在处理大数据时需要满足ACID的规定。
   大数据三要素
    如今的IT系统在生成数量、速度和种类都很"庞大"的数据。
    数量:IDC公司估计,今年全球信息总量将达到2.7泽字节(这相当于27亿太字节),而且每两年就翻一番。
    速度:让IT管理人员们头痛的不仅仅是数据数量,还有数据从金融系统、零售系统、网站、传感器、无线射频识别(RFID)芯片以及Facebook和推特等社交网络源源而来的速度越来越快。
    种类:如果回到5年前或可能10年前,IT人员处理的主要是字母数字数据,它们很容易存储在关系数据库中整齐排列的行和列中。现在不再是这样了。如今,推特和Facebook上的帖子、各种文档及网页内容等非结构化数据都是大数据组合的一部分。
   列式(或列型)数据库
    一些新一代数据库(如开源Cassandra和惠普的Vertica数据库)被设计成了按列存储数据,而不是像传统的SQL数据库那样按行存储数据。这种设计提供了更快的磁盘访问速度,提高了处理大数据时的性能。对数据密集型业务分析应用系统而言,列式数据库尤其受到欢迎。
   数据仓库
    数据仓库这个概念存在至今已有大概25年了,具体指将数据从多个操作IT系统复制到面向业务分析应用系统的辅助离线数据库
    但是随着数据量急剧增长,数据仓库系统正在迅速改变。它们需要存储更多的数据以及更多种类的数据,因而数据仓库管理成为一大难题。10年或20年前,数据可能每周或每月复制到数据仓库系统中;而如今,数据仓库的更新要频繁得多,有的甚至实时更新。
   ETL
    将数据从一个数据库(比如支持银行应用事务处理系统的数据库)转移到另一个数据库(比如用于业务分析的数据仓库系统)时,就要用到提取、转换和加载(ETL)软件。数据从一个数据库传送到另一个数据库时,常常需要对数据进行重新格式化和清理操作。
    由于数据量急剧增长,数据处理速度大大加快,对ETL工具的性能要求也大大提高了。
   Flume
    Flume是属于Apache Hadoop大家族(其他技术包括HBase、Hive、Oozie、Pig和Whirr)的一项技术,这种框架用于为Hadoop填充数据。该技术使用散布于应用服务器、Web服务器、移动设备及其他系统上的软件代理,收集数据,并将数据传送到Hadoop系统。
    比如说,公司可以使用在Web服务器上运行的Apache Flume,收集来自推特帖子的数据,以便分析。
   地理空间分析
    推动大数据潮流的一个趋势是,由如今的IT系统生成和收集的地理空间数据越来越多。常言道,一幅图片的信息量抵得上1000个单词;所以难怪越来越多的地图、图表、照片及其他基于地理位置的内容是导致如今大数据呈爆炸式增长的主要动因。
    地理空间分析是一种特殊形式的数据可视化(参阅下面的"可视化"条目),在地理地图上覆盖数据,以帮助用户更清楚地理解大数据分析的结果。
   Hadoop
    Hadoop是一种开源平台,用于开发分布式、数据密集型的应用程序。它由Apache软件基金会控制。
    Hadoop的发明者是雅虎公司的开发者道格o卡廷(Doug Cutting),他在谷歌实验室的MapReduce概念这个基础上开发出了Hadoop,以他儿子的玩具象命名。
    另外,HBase是一种非关系数据库,它是作为Hadoop项目的一部分开发而成的。Hadoop分布式文件系统(HDFS)是Hadoop的一个关键组成部分。Hive则是建立在Hadoop基础上的数据仓库系统。
   内存中数据库
    计算机在处理事务或执行查询时,一般从磁盘驱动器获取数据。但是当IT系统处理大数据时,这个过程可能实在太慢。
    内存中数据库系统利用计算机的主内存来存储经常使用的数据,因而大大缩短了处理时间。内存中数据库产品包括SAP HANA和甲骨文Times Ten内存中数据库。
   Java
    Java是一种编程语言,由现隶属甲骨文公司的Sun开发,于1995年发布。Hadoop和其他许多大数据技术都是使用Java开发而成的,它仍是大数据领域一种主要的开发技术。
   Kafka
    Kafka是一种高吞吐量的分布式消息传送系统,最初是在LinkedIn开发而成,用于管理该服务网站的活动流(关于网站使用情况的数据)和操作数据处理流水线(关于服务器组件的性能)。
    Kafka在处理大量流式数据时很有效,而流式数据是许多大数据计算环境的一个关键问题。由推特开发的Storm是另一种大行其道的流处理技术。
    Apache软件基金会已将Kafka列为一个开源项目。所以,别以为这是有缺陷的软件。
   延迟时间
    延迟时间是指数据从一个点传送到另一个点过程中的延迟,或者是某个系统(如应用程序)响应另一个系统的延迟数量。
    虽然延迟时间不是什么新术语,但是随着数据量不断增长,IT系统竭力跟上步伐,如今你更常听到这个术语。简单地说,"低延迟"是好事,"高延迟"是坏事。
   映射/化简
    映射/化简(Map/Reduce)这种方法是指把一个复杂的问题分解成多个较小的部分,然后将它们分发到多台计算机上,最后把它们重新组装成一个答案。
    谷歌的搜索系统用到了映射/化简概念,这家公司有一个品牌名为MapReduce的框架。
    谷歌在2004年发布的一份白皮书描述了它使用映射/化简的情况。Hadoop之父道格o卡廷充分认识到了其潜力,开发出了同样借用映射/化简概念的第一个版本的Hadoop。
   NoSQL数据库
    大多数主流的数据库(如甲骨文数据库和微软SQL Server)基于关系型体系结构,使用结构化查询语言(SQL)用于开发和数据管理。
    但是名为"NoSQL"(有些人现在称NoSQL表示"不是只有SQL")的新一代数据库系统基于支持者们认为更适合处理大数据的体系结构。
    一些NoSQL数据库是为提高可扩展性和灵活性设计的,另一些NoSQL数据库在处理文档及其他非结构化数据方面比较有效。典型的NoSQL数据库包括Hadoop/HBase、Cassandra、MongoDB和CouchDB,而甲骨文等一些知名开发商已推出了各自的NoSQL产品。
   Oozie
    Apache Oozie是一种开源工作流引擎,用于帮助管理面向Hadoop的处理工作。使用Oozie,一系列工作可以用多种语言(如Pig和MapReduce)来加以定义,然后彼此关联起来。比如说,一旦从操作应用程序收集数据的作业已完成,程序员就可以启动数据分析查询任务。
   Pig
    Pig是Apache软件基金会的另一个项目,这个平台用于分析庞大的数据集。就其本质而言,Pig是一种编程语言,可用于开发在Hadoop上运行的并行计算查询。
   定量数据分析
    定量数据分析是指使用复杂的数学或统计模型,解释金融和商业行为,或者甚至预测未来的行为。
    由于如今收集的数据量急剧增加,定量数据分析已变得更加复杂。但是如果公司知道如何利用海量数据,获得更好的可视性,深入了解公司业务,并且洞察市场发展趋势,那么更多的数据也有望在数据分析方面带来更多的机会。
    一个问题是,拥有这种分析技能的人才严重匮乏。知名咨询公司麦肯锡表示,光美国就需要150万名拥有大数据分析技能的分析员和管理员。
   关系数据库
    关系数据库管理系统(RDBM)是如今使用最广泛的一种数据库,包括IBM的DB2、微软的SQL Server和甲骨文数据库。从银行应用系统、零售店的销售点系统到库存管理应用软件,大多数的企业事务处理系统都在RDBM上运行。
    但有些人认为,关系数据库可能跟不上如今数据量和种类都呈爆炸式增长的形势。比如说,RDBM当初在设计时着眼于处理字母数字数据,处理非结构化数据时不是同样有效。
   分片
    随着数据库变得越来越庞大,处理起来也变得越来越困难。分片(sharding)是一种数据库分区技术,把数据库分成了更小、更容易管理的部分。具体来说,数据库被横向分区,以便单独管理数据库表中的不同行。
    分片方法让庞大数据库的片段可以分布在多台服务器上,从而提高数据库的整体运行速度和性能。
    另外,Sqoop是一种开源工具,用于将来自非Hadoop来源(如关系数据库)的数据转移到Hadoop环境。
   文本分析
    导致大数据问题的因素之一是,从推特和Facebook等社交媒体网站、外部新闻源,甚至公司内部收集而来以便分析的文本数量越来越多。由于文本是非结构化数据(不像通常存储在关系数据库中的结构化数据),主流的业务分析工具面对文本时常常束手无策。
    文本分析采用了一系列方法(关键字搜索、统计分析法和语言研究法等),从基于文本的数据中获得洞察力。
   非结构化数据
    就在不久前,大部分数据还是结构化数据,这种字母数字信息(如来自销售交易的财务数据)很容易存储在关系数据库中,并由商业智能工具来分析。
    但是如今共计2.7泽字节的存储数据中很大一部分是非结构化数据,比如基于文本的文档、推特消息、发布在Flickr上的照片、发布在YouTube上的视频,等等。(颇有意思的是,每分钟有长达35个小时的视频内容上传到YouTube。)处理、存储和分析所有这些凌乱的非结构化数据常常是如今的IT系统面临的难题。
   可视化
    随着数据量的增长,人们使用静态的图表和图形来理解数据越来越困难了。这就导致开发新一代的数据可视化和分析工具,能够以新的方式呈现数据,从而帮助人们理解海量信息。
    这些工具包括:标以色码的热图,三维图形,显示一段时间内变化的动画可视化,以及在地理地图上覆盖数据的地理空间呈现。今天的先进数据可视化工具还具有更强的互动性,比如允许用户放大某个数据子集,进行更仔细的检查。
   Whirr
    Apache Whirr是一组Java类库,用于运行大数据云服务。更确切地说,它可以加快在亚马逊弹性计算云(EC2)和Rackspace等虚拟基础设施上开发Hadoop集群的过程。
   XML
    可扩展标记语言(XML)用来传输和存储数据(别与HTML混为一谈,后者用来显示数据)。借助XML,程序员们就可以创建通用的数据格式,并通过互联网共享信息和格式。
    由于XML文档可能非常庞大、复杂,它们往往被认为导致IT部门面临大数据挑战。
   尧字节
    尧字节(yottabyte)是一种数据存储度量指标,相当于1000泽字节。据知名调研机构IDC公司估计,今年全球存储的数据总量预计将达到2.7泽字节,比2011年增长48%。所以,我们离达到尧字节这个大关还有很长一段路,不过从目前大数据的增长速度来看,那一天的到来可能比我们想象的要快。
    顺便说一下,1泽字节相当于1021字节的数据。它相当于1000艾字节(EB)、100万拍字节(PB)和10亿太字节(TB)。
   ZooKeeper
    ZooKeeper是由Apache软件基金会创建的一项服务,旨在帮助Hadoop用户管理和协调跨分布式网络的Hadoop节点。
    ZooKeeper与HBase紧密集成,而HBase是与Hadoop有关的数据库。ZooKeeper是一项集中式服务,用于维护配置信息、命名服务、分布式同步及其他群组服务。IT管理人员用它来实现可靠的消息传递机制、同步流程执行及实施冗余服务。

大数据热门词汇汇总

4. 一份常见的大数据术语表?

  常见的大数据术语表(中英对照简版):

  A

  聚合(Aggregation) – 搜索、合并、显示数据的过程

  算法(Algorithms) – 可以完成某种数据分析的数学公式

  分析法(Analytics) – 用于发现数据的内在涵义

  异常检测(Anomaly detection) – 
在数据集中搜索与预期模式或行为不匹配的数据项。除了“Anomalies”,用来表示异常的词有以下几种:outliers, exceptions, 
surprises, contaminants.他们通常可提供关键的可执行信息

  匿名化(Anonymization) – 使数据匿名,即移除所有与个人隐私相关的数据

  应用(Application) – 实现某种特定功能的计算机软件

  人工智能(Artificial Intelligence) – 
研发智能机器和智能软件,这些智能设备能够感知周遭的环境,并根据要求作出相应的反应,甚至能自我学习

  B

  行为分析法(Behavioural Analytics) – 
这种分析法是根据用户的行为如“怎么做”,“为什么这么做”,以及“做了什么”来得出结论,而不是仅仅针对人物和时间的一门分析学科,它着眼于数据中的人性化模式

  大数据科学家(Big Data Scientist) – 能够设计大数据算法使得大数据变得有用的人

  大数据创业公司(Big data startup) – 指研发最新大数据技术的新兴公司

  生物测定术(Biometrics) – 根据个人的特征进行身份识别

  B字节 (BB: Brontobytes) – 约等于1000 YB(Yottabytes),相当于未来数字化宇宙的大小。1 
B字节包含了27个0!

  商业智能(Business Intelligence) – 是一系列理论、方法学和过程,使得数据更容易被理解

  C

  分类分析(Classification analysis) – 从数据中获得重要的相关性信息的系统化过程; 这类数据也被称为元数据(meta 
data),是描述数据的数据

  云计算(Cloud computing) – 构建在网络上的分布式计算系统,数据是存储于机房外的(即云端)

  聚类分析(Clustering analysis) – 
它是将相似的对象聚合在一起,每类相似的对象组合成一个聚类(也叫作簇)的过程。这种分析方法的目的在于分析数据间的差异和相似性

  冷数据存储(Cold data storage) – 在低功耗服务器上存储那些几乎不被使用的旧数据。但这些数据检索起来将会很耗时

  对比分析(Comparative analysis) – 在非常大的数据集中进行模式匹配时,进行一步步的对比和计算过程得到分析结果

  复杂结构的数据(Complex structured data) – 
由两个或多个复杂而相互关联部分组成的数据,这类数据不能简单地由结构化查询语言或工具(SQL)解析

  计算机产生的数据(Computer generated data) – 如日志文件这类由计算机生成的数据

  并发(Concurrency) – 同时执行多个任务或运行多个进程

  相关性分析(Correlation analysis) – 是一种数据分析方法,用于分析变量之间是否存在正相关,或者负相关

  客户关系管理(CRM: Customer Relationship Management) – 
用于管理销售、业务过程的一种技术,大数据将影响公司的客户关系管理的策略

  D

  仪表板(Dashboard) – 使用算法分析数据,并将结果用图表方式显示于仪表板中

  数据聚合工具(Data aggregation tools) – 将分散于众多数据源的数据转化成一个全新数据源的过程

  数据分析师(Data analyst) – 从事数据分析、建模、清理、处理的专业人员

  数据库(Database) – 一个以某种特定的技术来存储数据集合的仓库

  数据库即服务(Database-as-a-Service) – 部署在云端的数据库,即用即付,例如亚马逊云服务(AWS: Amazon Web 
Services)

  数据库管理系统(DBMS: Database Management System) – 收集、存储数据,并提供数据的访问

  数据中心(Data centre) – 一个实体地点,放置了用来存储数据的服务器

  数据清洗(Data cleansing) – 对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性

  数据管理员(Data custodian) – 负责维护数据存储所需技术环境的专业技术人员

  数据道德准则(Data ethical guidelines) – 这些准则有助于组织机构使其数据透明化,保证数据的简洁、安全及隐私

  数据订阅(Data feed) – 一种数据流,例如Twitter订阅和RSS

  数据集市(Data marketplace) – 进行数据集买卖的在线交易场所

  数据挖掘(Data mining) – 从数据集中发掘特定模式或信息的过程

  数据建模(Data modelling) – 使用数据建模技术来分析数据对象,以此洞悉数据的内在涵义

  数据集(Data set) – 大量数据的集合

  数据虚拟化(Data virtualization) – 
数据整合的过程,以此获得更多的数据信息,这个过程通常会引入其他技术,例如数据库,应用程序,文件系统,网页技术,大数据技术等等

  去身份识别(De-identification) – 也称为匿名化(anonymization),确保个人不会通过数据被识别

  判别分析(Discriminant analysis) – 
将数据分类;按不同的分类方式,可将数据分配到不同的群组,类别或者目录。是一种统计分析法,可以对数据中某些群组或集群的已知信息进行分析,并从中获取分类规则。

  分布式文件系统(Distributed File System) – 提供简化的,高可用的方式来存储、分析、处理数据的系统

  文件存贮数据库(Document Store Databases) – 又称为文档数据库(document-oriented database), 
为存储、管理、恢复文档数据而专门设计的数据库,这类文档数据也称为半结构化数据

  E

  探索性分析(Exploratory analysis) – 
在没有标准的流程或方法的情况下从数据中发掘模式。是一种发掘数据和数据集主要特性的一种方法

  E字节(EB: Exabytes) – 约等于1000 PB(petabytes), 约等于1百万 GB。如今全球每天所制造的新信息量大约为1 
EB

  提取-转换-加载(ETL: Extract, Transform and Load) – 
是一种用于数据库或者数据仓库的处理过程。即从各种不同的数据源提取(E)数据,并转换(T)成能满足业务需要的数据,最后将其加载(L)到数据库

  F

  故障切换(Failover) – 当系统中某个服务器发生故障时,能自动地将运行任务切换到另一个可用服务器或节点上

  容错设计(Fault-tolerant design) – 一个支持容错设计的系统应该能够做到当某一部分出现故障也能继续运行

  G

  游戏化(Gamification) – 
在其他非游戏领域中运用游戏的思维和机制,这种方法可以以一种十分友好的方式进行数据的创建和侦测,非常有效。

  图形数据库(Graph Databases) – 
运用图形结构(例如,一组有限的有序对,或者某种实体)来存储数据,这种图形存储结构包括边缘、属性和节点。它提供了相邻节点间的自由索引功能,也就是说,数据库中每个元素间都与其他相邻元素直接关联。

  网格计算(Grid computing) – 将许多分布在不同地点的计算机连接在一起,用以处理某个特定问题,通常是通过云将计算机相连在一起。

  H

  Hadoop – 一个开源的分布式系统基础框架,可用于开发分布式程序,进行大数据的运算与存储。

  Hadoop数据库(HBase) – 一个开源的、非关系型、分布式数据库,与Hadoop框架共同使用

  HDFS – Hadoop分布式文件系统(Hadoop Distributed File 
System);是一个被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统

  高性能计算(HPC: High-Performance-Computing) – 使用超级计算机来解决极其复杂的计算问题

  I

  内存数据库(IMDB: In-memory) – 
一种数据库管理系统,与普通数据库管理系统不同之处在于,它用主存来存储数据,而非硬盘。其特点在于能高速地进行数据的处理和存取。

  物联网(Internet of Things) – 在普通的设备中装上传感器,使这些设备能够在任何时间任何地点与网络相连。

  J

  法律上的数据一致性(Juridical data compliance) – 
当你使用的云计算解决方案,将你的数据存储于不同的国家或不同的大陆时,就会与这个概念扯上关系了。你需要留意这些存储在不同国家的数据是否符合当地的法律。

  K

  键值数据库(KeyValue Databases) – 
数据的存储方式是使用一个特定的键,指向一个特定的数据记录,这种方式使得数据的查找更加方便快捷。键值数据库中所存的数据通常为编程语言中基本数据类型的数据。

  L

  延迟(Latency) – 表示系统时间的延迟

  遗留系统(Legacy system) – 是一种旧的应用程序,或是旧的技术,或是旧的计算系统,现在已经不再支持了。

  负载均衡(Load balancing) – 将工作量分配到多台电脑或服务器上,以获得最优结果和最大的系统利用率。

  位置信息(Location data) – GPS信息,即地理位置信息。

  日志文件(Log file) – 由计算机系统自动生成的文件,记录系统的运行过程。

  M

  M2M数据(Machine2Machine data) – 两台或多台机器间交流与传输的内容

  机器数据(Machine data) – 由传感器或算法在机器上产生的数据

  机器学习(Machine learning) – 
人工智能的一部分,指的是机器能够从它们所完成的任务中进行自我学习,通过长期的累积实现自我改进。

  MapReduce – 是处理大规模数据的一种软件框架(Map: 映射,Reduce: 归纳)。

  大规模并行处理(MPP: Massively Parallel Processing) – 
同时使用多个处理器(或多台计算机)处理同一个计算任务。

  元数据(Metadata) – 被称为描述数据的数据,即描述数据数据属性(数据是什么)的信息。

  MongoDB – 一种开源的非关系型数据库(NoSQL database)

  多维数据库(Multi-Dimensional Databases) – 用于优化数据联机分析处理(OLAP)程序,优化数据仓库的一种数据库。

  多值数据库(MultiValue Databases) – 是一种非关系型数据库(NoSQL), 
一种特殊的多维数据库:能处理3个维度的数据。主要针对非常长的字符串,能够完美地处理HTML和XML中的字串。

  N

  自然语言处理(Natural Language Processing) – 
是计算机科学的一个分支领域,它研究如何实现计算机与人类语言之间的交互。

  网络分析(Network analysis) – 分析网络或图论中节点间的关系,即分析网络中节点间的连接和强度关系。

  NewSQL – 一个优雅的、定义良好的数据库系统,比SQL更易学习和使用,比NoSQL更晚提出的新型数据库

  NoSQL – 
顾名思义,就是“不使用SQL”的数据库。这类数据库泛指传统关系型数据库以外的其他类型的数据库。这类数据库有更强的一致性,能处理超大规模和高并发的数据。

  O

  对象数据库(Object Databases) – 
(也称为面象对象数据库)以对象的形式存储数据,用于面向对象编程。它不同于关系型数据库和图形数据库,大部分对象数据库都提供一种查询语言,允许使用声明式编程(declarative 
programming)访问对象.

  基于对象图像分析(Object-based Image Analysis) – 
数字图像分析方法是对每一个像素的数据进行分析,而基于对象的图像分析方法则只分析相关像素的数据,这些相关像素被称为对象或图像对象。

  操作型数据库(Operational Databases) – 
这类数据库可以完成一个组织机构的常规操作,对商业运营非常重要,一般使用在线事务处理,允许用户访问 、收集、检索公司内部的具体信息。

  优化分析(Optimization analysis) – 
在产品设计周期依靠算法来实现的优化过程,在这一过程中,公司可以设计各种各样的产品并测试这些产品是否满足预设值。

  本体论(Ontology) – 表示知识本体,用于定义一个领域中的概念集及概念之间的关系的一种哲学思想。(译者注: 
数据被提高到哲学的高度,被赋予了世界本体的意义,成为一个独立的客观数据世界)

  异常值检测(Outlier detection) – 
异常值是指严重偏离一个数据集或一个数据组合总平均值的对象,该对象与数据集中的其他它相去甚远,因此,异常值的出现意味着系统发生问题,需要对此另加分析。

  P

  模式识别(Pattern Recognition) – 通过算法来识别数据中的模式,并对同一数据源中的新数据作出预测

  P字节(PB: Petabytes) – 约等于1000 TB(terabytes), 约等于1百万 GB 
(gigabytes)。欧洲核子研究中心(CERN)大型强子对撞机每秒产生的粒子个数就约为1 PB

  平台即服务(PaaS: Platform-as-a-Service) – 为云计算解决方案提供所有必需的基础平台的一种服务

  预测分析(Predictive analysis) – 
大数据分析方法中最有价值的一种分析方法,这种方法有助于预测个人未来(近期)的行为,例如某人很可能会买某些商品,可能会访问某些网站,做某些事情或者产生某种行为。通过使用各种不同的数据集,例如历史数据,事务数据,社交数据,或者客户的个人信息数据,来识别风险和机遇

  隐私(Privacy) – 把具有可识别出个人信息的数据与其他数据分离开,以确保用户隐私。

  公共数据(Public data) – 由公共基金创建的公共信息或公共数据集。

  Q

  数字化自我(Quantified Self) – 使用应用程序跟踪用户一天的一举一动,从而更好地理解其相关的行为

  查询(Query) – 查找某个问题答案的相关信息

  R

  再识别(Re-identification) – 将多个数据集合并在一起,从匿名化的数据中识别出个人信息

  回归分析(Regression analysis) – 
确定两个变量间的依赖关系。这种方法假设两个变量之间存在单向的因果关系(译者注:自变量,因变量,二者不可互换)

  RFID – 射频识别; 这种识别技术使用一种无线非接触式射频电磁场传感器来传输数据

  实时数据(Real-time data) – 指在几毫秒内被创建、处理、存储、分析并显示的数据

  推荐引擎(Recommendation engine) – 推荐引擎算法根据用户之前的购买行为或其他购买行为向用户推荐某种产品

  路径分析(Routing analysis) – 
针对某种运输方法通过使用多种不同的变量分析从而找到一条最优路径,以达到降低燃料费用,提高效率的目的

  S

  半结构化数据(Semi-structured data) – 
半结构化数据并不具有结构化数据严格的存储结构,但它可以使用标签或其他形式的标记方式以保证数据的层次结构

  情感分析(Sentiment Analysis) – 通过算法分析出人们是如何看待某些话题

  信号分析(Signal analysis) – 指通过度量随时间或空间变化的物理量来分析产品的性能。特别是使用传感器数据。

  相似性搜索(Similarity searches) – 在数据库中查询最相似的对象,这里所说的数据对象可以是任意类型的数据

  仿真分析(Simulation analysis) – 
仿真是指模拟真实环境中进程或系统的操作。仿真分析可以在仿真时考虑多种不同的变量,确保产品性能达到最优

  智能网格(Smart grid) – 是指在能源网中使用传感器实时监控其运行状态,有助于提高效率

  软件即服务(SaaS: Software-as-a-Service) – 基于Web的通过浏览器使用的一种应用软件

  空间分析(Spatial analysis) – 空间分析法分析地理信息或拓扑信息这类空间数据,从中得出分布在地理空间中的数据的模式和规律

  SQL – 在关系型数据库中,用于检索数据的一种编程语言

  结构化数据(Structured data) 
-可以组织成行列结构,可识别的数据。这类数据通常是一条记录,或者一个文件,或者是被正确标记过的数据中的某一个字段,并且可以被精确地定位到。

  T

  T字节(TB: Terabytes) – 约等于1000 GB(gigabytes)。1 TB容量可以存储约300小时的高清视频。

  时序分析(Time series analysis) – 
分析在重复测量时间里获得的定义良好的数据。分析的数据必须是良好定义的,并且要取自相同时间间隔的连续时间点。

  拓扑数据分析(Topological Data Analysis) – 
拓扑数据分析主要关注三点:复合数据模型、集群的识别、以及数据的统计学意义。

  交易数据(Transactional data) – 随时间变化的动态数据

  透明性(Transparency) – 消费者想要知道他们的数据有什么作用、被作何处理,而组织机构则把这些信息都透明化了。

  U

  非结构化数据(Un-structured data) – 非结构化数据一般被认为是大量纯文本数据,其中还可能包含日期,数字和实例。

  V

  价值(Value) – (译者注:大数据4V特点之一) 
所有可用的数据,能为组织机构、社会、消费者创造出巨大的价值。这意味着各大企业及整个产业都将从大数据中获益。

  可变性(Variability) – 也就是说,数据的含义总是在(快速)变化的。例如,一个词在相同的推文中可以有完全不同的意思。

  多样(Variety) – (译者注:大数据4V特点之一) 
数据总是以各种不同的形式呈现,如结构化数据,半结构化数据,非结构化数据,甚至还有复杂结构化数据

  高速(Velocity) – (译者注:大数据4V特点之一) 在大数据时代,数据的创建、存储、分析、虚拟化都要求被高速处理。

  真实性(Veracity) – 组织机构需要确保数据的真实性,才能保证数据分析的正确性。因此,真实性(Veracity)是指数据的正确性。

  可视化(Visualization) – 
只有正确的可视化,原始数据才可被投入使用。这里的“可视化”并非普通的图型或饼图,可视化指是的复杂的图表,图表中包含大量的数据信息,但可以被很容易地理解和阅读。

  大量(Volume) – (译者注:大数据4V特点之一) 指数据量,范围从Megabytes至Brontobytes

  W

  天气数据(Weather data) – 是一种重要的开放公共数据来源,如果与其他数据来源合成在一起,可以为相关组织机构提供深入分析的依据

  X

  XML数据库(XML Databases) – 
XML数据库是一种以XML格式存储数据的数据库。XML数据库通常与面向文档型数据库相关联,开发人员可以对XML数据库的数据进行查询,导出以及按指定的格式序列化

  Y

  Y字节 (Yottabytes) – 约等于1000 ZB (Zettabytes), 
约等于250万亿张DVD的数据容量。现今,整个数字化宇宙的数据量为1 YB, 并且将每18年翻一番。

  Z

  Z字节 (ZB: Zettabytes) – 约等于1000 EB (Exabytes), 约等于1百万 
TB。据预测,到2016年全球范围内每天网络上通过的信息大约能达到1 ZB。

  附:存储容量单位换算表:

  1 Bit(比特) = Binary Digit

  8 Bits = 1 Byte(字节)

  1,000 Bytes = 1 Kilobyte

  1,000 Kilobytes = 1 Megabyte

  1,000 Megabytes = 1 Gigabyte

  1,000 Gigabytes = 1 Terabyte

  1,000 Terabytes = 1 Petabyte

  1,000 Petabytes = 1 Exabyte

  1,000 Exabytes = 1 Zettabyte

  1,000 Zettabytes = 1 Yottabyte

  1,000 Yottabytes = 1 Brontobyte

  1,000 Brontobytes = 1 Geopbyte

5. 大数据的通俗解释

大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
数据可以以多种形式被记录,记录的方式也是多种多样,走过的路是否被导航软件记录,在外面吃东西使用手机点单或者支付那么吃什么就被记录了,所有被记录的数据最终都会以机器代码存储于服务器,用于后续分析和查询。

扩展资料
大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。
从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。

大数据的通俗解释

6. 名词:大数据是什么意思?

大数据指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。通过大量的统计了解大家的喜好,想要的东西,从而得到他们想要的,比如精准营销,征信分析,消费分析等等

7. 有一个热门词语叫“大数据”,它的特点包括(+)。

亲亲,您好,很高兴为您解答您咨询的问题已为您找到:大数据的特征有大量化、多样化、快速化、价值密度低。大数据(Big data),或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。大数据具有数据规模大、数据类型多样、数据处理速度快和数据价值密度高。在维克托迈尔-舍恩伯格及肯尼斯库克耶编写的《大数据时代》提到了大数据的4个特点:1大量大数据的特征首先就体现为“大”,强大的数据处理平台和新的数据处理技术,来统计、分析、预测和实时处理如此大规模的数据。2高速就是通过算法对数据的逻辑处理速度非常快,1秒定律,可从各种类型的数据中快速获得高价值的信息,这一点也是和传统的数据挖掘技术有着本质的不同.3多样广泛的数据来源,决定了大数据形式的多样性。任何形式的数据都可以产生作用,目前应用最广泛的就是推荐系统,如淘宝,网易云音乐、今日头条等,这些平台都会通过对用户的日志数据进行分析.4价值这也是大数据的核心特征。现实世界所产生的数据中,有价值的数据所占比例很小。你如果有1PB以上的全国所有20-35年轻人的上网数据的时候,那么它自然就有了商业价值.与其说是大数据,不如说是大数据时代,一是人类处理数据的能力显著增强。过去也有数据,但数据散乱,没有强大的处理能力,所以发挥不了作用。现在之所以说已经进入了大数据时代,就是因为人类的处理数据能力大大增强了。云计算和大数据是两个方面,如果没有云计算,也就无所谓大数据,云计算能够把海量的、零散的、有价值的数据进行快速处理并释放出价值。二是数据整合的形式愈发明显。一般来讲,政府掌控了大约80%的公共数据。而在企业数据方面,像阿里巴巴、百度、腾讯等互联网巨头掌握了海量数据。 不管是政府数据,还是企业数据,抑或是社会数据,整合的趋势愈发明显。打通政务流、企业流、社会流,技术整合趋势是必然的。由于老百姓的消费行为可以影响政府决策,所以政府希望老百姓刷卡消费,让数据归集到政府这边。三是大数据应用领域不断扩散。大数据在政治、经济、社会、文化、生态等几乎每一个领域都有着广阔的应用前景。四是围绕大数据应用的创新持续活跃。我们看到新业态、新模式、新体制不断出现,市场的活力也在得到不断地释放,个人的创造性也被大大地激活【摘要】
有一个热门词语叫“大数据”,它的特点包括(+)。【提问】
亲亲,您好,很高兴为您解答您咨询的问题已为您找到:大数据的特征有大量化、多样化、快速化、价值密度低。大数据(Big data),或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。大数据具有数据规模大、数据类型多样、数据处理速度快和数据价值密度高。在维克托迈尔-舍恩伯格及肯尼斯库克耶编写的《大数据时代》提到了大数据的4个特点:1大量大数据的特征首先就体现为“大”,强大的数据处理平台和新的数据处理技术,来统计、分析、预测和实时处理如此大规模的数据。2高速就是通过算法对数据的逻辑处理速度非常快,1秒定律,可从各种类型的数据中快速获得高价值的信息,这一点也是和传统的数据挖掘技术有着本质的不同.3多样广泛的数据来源,决定了大数据形式的多样性。任何形式的数据都可以产生作用,目前应用最广泛的就是推荐系统,如淘宝,网易云音乐、今日头条等,这些平台都会通过对用户的日志数据进行分析.4价值这也是大数据的核心特征。现实世界所产生的数据中,有价值的数据所占比例很小。你如果有1PB以上的全国所有20-35年轻人的上网数据的时候,那么它自然就有了商业价值.与其说是大数据,不如说是大数据时代,一是人类处理数据的能力显著增强。过去也有数据,但数据散乱,没有强大的处理能力,所以发挥不了作用。现在之所以说已经进入了大数据时代,就是因为人类的处理数据能力大大增强了。云计算和大数据是两个方面,如果没有云计算,也就无所谓大数据,云计算能够把海量的、零散的、有价值的数据进行快速处理并释放出价值。二是数据整合的形式愈发明显。一般来讲,政府掌控了大约80%的公共数据。而在企业数据方面,像阿里巴巴、百度、腾讯等互联网巨头掌握了海量数据。 不管是政府数据,还是企业数据,抑或是社会数据,整合的趋势愈发明显。打通政务流、企业流、社会流,技术整合趋势是必然的。由于老百姓的消费行为可以影响政府决策,所以政府希望老百姓刷卡消费,让数据归集到政府这边。三是大数据应用领域不断扩散。大数据在政治、经济、社会、文化、生态等几乎每一个领域都有着广阔的应用前景。四是围绕大数据应用的创新持续活跃。我们看到新业态、新模式、新体制不断出现,市场的活力也在得到不断地释放,个人的创造性也被大大地激活【回答】

有一个热门词语叫“大数据”,它的特点包括(+)。

8. 大数据是什么 大数据专业术语

1、大数据(big data),IT行业术语,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
 
 2、在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》 中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。
最新文章
热门文章
推荐阅读