并行数据库有哪些特点呢,teradata与SQL server有什么区别
来源:整理 编辑:黑码技术 2024-01-29 11:12:36
本文目录一览
1,teradata与SQL server有什么区别
1 面向领域不同,sql server和其他大多数熟知的数据库,是面向操行型系统的,特点是数据量不大,要求实时性极高。 而teradata是面向分析型应用和仓库的,特点是数据量极大,任务复杂,但实时性要求不是太高。2 处理方式不同。TD是并行数据库,SQL SERVER一般情况下不是。3 处理能力不同。TD处理数据多为海量,TB甚至PB级以上。SQL SERVER一般是最多几百个G。4 扩展能力不同。TD数据库节点翻一倍,处理能力就翻一倍。可扩展到1024个节点,甚至更多。SQL SERVER用作集群的时候,会有扩展瓶颈,扩展到一点节点数目,性能基本不提升。还有很多不同,上网查查就知道啦~1没什么区别,实现的东西都是一样的,只不过适用于不同的数据库,比如第一条适用于sqlserver,access等,而第二条适用于oracle等 2,这样试试create table 新表 as 旧表 with data;
2,什么是并行数据挖掘
并行数据挖掘技术不同于其它并行算法的地方在于它需要处理的数据的规模很大。在并行算法中有一点是不可取的,那就是:算法主要是把磁盘和处理器之间以及各个处理器之间的数据规模尽量减少到最小。人们知道,对于并行而言,交互之间的消耗(即内存的使用)是比执行时间(计算阶段)重要得多的因素。数据挖掘算法已经给出了一系列的例子和学习概念(使例子的特征更简单)。并且概念很容易用谓词来表示,在一些事件中,算法的目的是把这些概念嵌入到一个分类器中,决策树就是这样一个例子。而在其它的事件中,算法的目的是自己定义这些概念,因为它们提供了数据的结构。串行数据挖掘算法对于规模很小的数据也需要大量的运行时间,而且可用于分析的数据增长得很快,这样就需要寻找用于数据挖掘的并行算法,目前并行数据挖掘算法已有了充分的研究并行数据挖掘的策略一个算法的复杂性可以表示为空间复杂性和时间复杂性两个方面。并行算法的目标是尽可能减少时间复杂性,但其代价是通过增加空间复杂性(如增加空间的维数及增加处理器的台数)来实现的。从算法树的结构来看,通常的串行算法树“深而窄”;而并行算法树的结构截然不同。为了达到把时间复杂性转化为空间复杂性的目的,并行算法树采用“浅而宽”的结构即每个时刻可容纳的计算量相应增加,使整个算法的步数尽可能减少。常用的三种并行策略:朴素并行典型并行逻辑并行
3,Sun Grid Engine 和 hadoop 是什么关系
就我的了解SGE大致相当于Hadoop-YARN,多用于超级计算机集群的管理。Hadoop的最大贡献在于HDFS解决了,分布式文件系统,和Google的GFS一样。SGE好像没有强调这一点,而且超级计算机大多数都没有本地磁盘,可能也不需要文件系统管理吧。说白了就是不实用~numa全称为non-uniform memory access,是主流服务服务器为了提高smp的可扩展性而采用的一种体系结构。主流服务器一般由多个numa节点组成,每个numa节点是一个smp结构,一般由多个cpu组成,并且具有本地内存和io设备。numa节点可以直接访问本地内存,也可以通过numa互联模块访问其他numa节点的内存,但是访问本地内存的速度远远高于远程访问速度,因此,开发程序要尽量减少不同numa节点之间的信息交互。 mpp是一种海量数据实时分析架构。 mpp作为一种不共享架构,每个节点运行自己的操作系统和数据库等,节点之间信息交互只能通过网络连接实现。mpp架构目前被并行数据库广泛采用,一般通过scan、sort和merge等操作符实时返回查询结果。目前采用mpp架构的实时查询系统有emc greenplum、hp vertica和googl l,这些都是实时数据处理领域非常有特点的系统,尤其是dremel可以轻松扩展到上千台服务器,并在数秒内完成tb级数据的分析。 hadoop作为一个开源项目群本身和mpp并没有什么直接关系,hadoop中的子项目mapreduce虽然也是做数据分析处理的,但是一般只适用于离线数据分析,区别与mpp较为明显。因为map和reduce两个过程涉及到输出文件的存取和大量网络传输,... numa全称为non-uniform memory access,是主流服务服务器为了提高smp的可扩展性而采用的一种体系结构。主流服务器一般由多个numa节点组成,每个numa节点是一个smp结构,一般由多个cpu组成,并且具有本地内存和io设备。numa节点可以直接访问本地内存,也可以通过numa互联模块访问其他numa节点的内存,但是访问本地内存的速度远远高于远程访问速度,因此,开发程序要尽量减少不同numa节点之间的信息交互。 mpp是一种海量数据实时分析架构。 mpp作为一种不共享架构,每个节点运行自己的操作系统和数据库等,节点之间信息交互只能通过网络连接实现。mpp架构目前被并行数据库广泛采用,一般通过scan、sort和merge等操作符实时返回查询结果。目前采用mpp架构的实时查询系统有emc greenplum、hp vertica和googl l,这些都是实时数据处理领域非常有特点的系统,尤其是dremel可以轻松扩展到上千台服务器,并在数秒内完成tb级数据的分析。 hadoop作为一个开源项目群本身和mpp并没有什么直接关系,hadoop中的子项目mapreduce虽然也是做数据分析处理的,但是一般只适用于离线数据分析,区别与mpp较为明显。因为map和reduce两个过程涉及到输出文件的存取和大量网络传输,因此往往达不到实时处理的要求。与mapreduce 相似的系统还有microsoft dryad和google pregel。 综上所述,numa是一种体系结构,mpp是一种实时海量数据分析架构,而hadoop是一个关于数据存储处理的项目群,其中的mapreduce是一种离线海量数据分析架构。 实测对比greenplum和hive,gp比hive性能高出至少一个数量级,但是大部分场景下,依然是秒级甚至分钟级的延迟,距离具体通常意义的实时毫秒级,差距巨大。 另外说一句,广义的hadoop包括 impala, presto | distributed sql query engine for big data 这些mpp架构的sql引擎。hadoop社区还在持续发展,spark还在持续给人们带来惊喜,开源软件的迷人之处也在于此。
4,什么是软件系统
软件系统(Software Systems)是指由系统软件、支撑软件和应用软件组成的计算机软件系统,它是计算机系统中由软件组成的部分。它包括操作系统、语言处理系统、数据库系统、分布式软件系统和人机交互系统等。软件系统作用 操作系统用于管理计算机的资源和控制程序的运行。语言处理系统是用于处理软件语言等的软件,如编 译程序等。数据库系统是用于支持数据管理和存取的软件,它包括数据库、数据库管理系统等。数据库是常驻在计算机系统内的一组数据,它们之间的关系用数据模式来定义,并用数据定义语言来描述;数据库管理系统是使用户可以把数据作为轴象项进行存取、使用和修改的软件。分布式软件系统包括分布式操作系统、分布式程序设计系统、分布式文件系统、分布式数据库系统等。人机交互系统是提供用户与计算机系统之间按照一定的约定进行信息交互的软件系统,可为用户提供一个友善的人机界面。操作系统的功能包括处理器管理、存储管理、文件管理、设备管理和作业管理。其主要研究内容包括:操作系统的结构、进程(任务)调度、同步机制、死锁防止、内存分配、设备分配、并行机制、容错和恢复机制等。编辑本段软件系统功能 语言处理系统的功能是各种软件语言的处理程序,它把用户用软件语言书写的各种源程序转换成为可为计算机识别和运行的目标程序,从而获得预期结果。其主要研究内容包括:语言的翻译技术和翻译程序的构造方法与工具,此外,它还涉及正文编辑技术、连接编辑技术和装入技术等。 数据库系统的主要功能包括数据库的定义和操纵、共享数据的并发控制、数据的安全和保密等。按数据定义模块划分,数据库系统可分为关系数据库、层次数据库和网状数据库。按控制方式划分,可分为集中式数据库系统、分布式数据库系统和并行数据库系统。数据库系统研究的主要内容包括:数据库设计、数据模式、数据定义和操作语言、关系数据库理论、数据完整性和相容性、数据库恢复与容错、死锁控制和防止、数据安全性等。 分布式软件系统的功能是管理分布式计算机系统资源和控制分布式程序的运行,提供分布式程序设计语言和工具,提供分布式文件系统管理和分布式数据库管理关系等。分布式软件系统的主要研究内容包括分布式操作系统和网络操作系统、分布式程序设计、分布式文件系统和分布式数据库系统。 人机交互系统的主要功能是在人和计算机之间提供一个友善的人机接口。其主要研究内容包括人机交互原理、人机接口分析及规约、认知复杂性理论、数据输入、显示和检索接口、计算机控制接口等。编辑本段分布式软件系统 (Distributed Software Systems)是支持分布式处理的软件系统,是在由通信网络互联的多处理机体系结构上执行任务的系统。它包括分布式操作系统、分布式程序设计语言及其编译(解释)系统、分布式文件系统和分布式数据库系统等。 分布式操作系统负责管理分布式处理系统资源和控制分布式程序运行。它和集中式操作系统的区别在于资源管理、进程通信和系统结构等方面。 分布式程序设计语言用于编写运行于分布式计算机系统上的分布式程序。一个分布式程序由若干个可以独立执行的程序模块组成,它们分布于一个分布式处理系统的多台计算机上被同时执行。它与集中式的程序设计语言相比有三个特点:分布性、通信性和稳健性。 分布式文件系统具有执行远程文件存取的能力,并以透明方式对分布在网络上的文件进行管理和存取。 分布式数据库系统由分布于多个计算机结点上的若干个数据库系统组成,它提供有效的存取手段来操纵这些结点上的子数据库。分布式数据库在使用上可视为一个完整的数据库,而实际上它是分布在地理分散的各个结点上。当然,分布在各个结点上的子数据库在逻辑上是相关的。软件系统就是安装在电脑上能让你操控电脑的一个界面文件 这么说吧 你的鼠标点在界面的位置能打开和关闭就好像是录音机的按钮 放音就按下放音键 倒带就按下倒带键 那电脑的显示器上没有按键怎么办呢 这就需要通过系统操作软件与鼠标键盘的组合让你达到啦软件:计算机,或其他智能机器(手机等等)里面的所有东西统称为软件。说白了,软件就是不是实质性的东西,是看得见摸不着的。硬件:反正,硬件就是看得见摸得着的,比如电脑的显示器,键盘,鼠标机箱,机箱里面的配件,甚至是桌子椅子锅碗瓢盆之类的都可称为硬件。就是实质性的东西。系统:其实系统就是软件,因为他也不是实质性的东西,可以把系统理解为:由多个软件组成的可执行程序,比如QQ,可以说它是一个聊天系统,是由多个软件组成的一个程序。硬件系统:当然就是有硬件组成的了。。电脑不就是硬件系统么,由多个硬件组成的一个可使用的东西。软件和硬件的区分就是:非实质物体与实质物体。软件系统(software systems)是指由系统软件、支撑软件和应用软件组成的计算机软件系统,它是计算机系统中由软件组成的部分。它包括操作系统、语言处理系统、数据库系统、分布式软件系统和人机交互系统等。操作系统用于管理计算机的资源和控制程序的运行。语言处理系统是用于处理软件语言等的软件,如编 译程序等。数据库系统是用于支持数据管理和存取的软件,它包括数据库、数据库管理系统等。数据库是常驻在计算机系统内的一组数据,它们之间的关系用数据模式来定义,并用数据定义语言来描述;数据库管理系统是使用户可以把数据作为轴象项进行存取、使用和修改的软件。分布式软件系统包括分布式操作系统、分布式程序设计系统、分布式文件系统、分布式数据库系统等。人机交互系统是提供用户与计算机系统之间按照一定的约定进行信息交互的软件系统,可为用户提供一个友善的人机界面。操作系统的功能包括处理器管理、存储管理、文件管理、设备管理和作业管理。其主要研究内容包括:操作系统的结构、进程(任务)调度、同步机制、死锁防止、内存分配、设备分配、并行机制、容错和恢复机制等。 楼主~~~笑纳啊
5,什么是并行数据库
并行数据库系统(Parallel Database System)是新一代高性能的数据库系统,是在MPP和集群并行计算环境的基础上建立的数据库系统。 并行数据库技术起源于20世纪70年代的数据库机(Database Machine)研究,,研究的内容主要集中在关系代数操作的并行化和实现关系操作的专用硬件设计上,希望通过硬件实现关系数据库操作的某些功能,该研究以失败而告终。80年代后期,并行数据库技术的研究方向逐步转到了通用并行机方面,研究的重点是并行数据库的物理组织、操作算法、优化和调度策络。从90年代至今,随着处理器、存储、网络等相关基础技术的发展,并行数据库技术的研究上升到一个新的水平,研究的重点也转移到数据操作的时间并行性和空间并行性上。 并行数据库系统的目标是高性能(High Performance)和高可用性(High Availability),通过多个处理节点并行执行数据库任务,提高整个数据库系统的性能和可用性。 性能指标关注的是并行数据库系统的处理能力,具体的表现可以统一总结为数据库系统处理事务的响应时间。并行数据库系统的高性能可以从两个方面理解,一个是速度提升(SpeedUp),一个是范围提升(ScaleUp)。速度提升是指,通过并行处理,可以使用更少的时间完成两样多的数据库事务。范围提升是指,通过并行处理,在相同的处理时间内,可以完成更多的数据库事务。并行数据库系统基于多处理节点的物理结构,将数据库管理技术与并行处理技术有机结合,来实现系统的高性能。 可用性指标关注的是并行数据库系统的健壮性,也就是当并行处理节点中的一个节点或多个节点部分失效或完全失效时,整个系统对外持续响应的能力。高可用性可以同时在硬件和软件两个方面提供保障。在硬件方面,通过冗余的处理节点、存储设备、网络链路等硬件措施,可以保证当系统中某节点部分或完全失效时,其它的硬件设备可以接手其处理,对外提供持续服务。在软件方面,通过状态监控与跟踪、互相备份、日志等技术手段,可以保证当前系统中某节点部分或完全失效时,由它所进行的处理或由它所掌控的资源可以无损失或基本无损失地转移到其它节点,并由其它节点继续对外提供服务。 为了实现和保证高性能和高可用性,可扩充性也成为并行数据库系统的一个重要指标。可扩充性是指,并行数据库系统通过增加处理节点或者硬件资源(处理器、内存等),使其可以平滑地或线性地扩展其整体处理能力的特性。 随着对并行计算技术研究的深入和SMP、MPP等处理机技术的发展,并行数据库的研究也进入了一个新的领域,集群已经成为了并行数据库系统中最受关注的热点。目前,并行数据库领域主要还有下列问题需要进一步地研究和解决。 (1)并行体系结构及其应用,这是并行数据库系统的基础问题。为了达到并行处理的目的,参与并行处理的各个处理节点之间是否要共享资源、共享哪些资源、需要多大程度的共享,这些就需要研究并行处理的体系结构及有关实现技术。 (2)并行数据库的物理设计,主要是在并行处理的环境下,数据分布的算法的研究、数据库设计工具与管理工具的研究。 (3)处理节点间通讯机制的研究。为了实现并行数据库的高性能,并行处理节点要最大程度地协同处理数据库事务,因此,节点间必不可少地存在通讯问题,如何支持大量节点之间消息和数据的高效通讯,也成为了并行数据库系统中一个重要的研究课题。 (4)并行操作算法,为提高并行处理的效率,需要在数据分布算法研究的基础上,深入研究联接、聚集、统计、排序等具体的数据操作在多节点上的并行操作算法。 (5)并行操作的优化和同步,为获得高性能,如何将一个数据库处理事务合理地分解成相对独立的并行操作步骤、如何将这些步骤以最优的方式在多个处理节点间进行分配、如何在多个处理节点的同一个步骤和不同步骤之间进行消息和数据的同步,这些问题都值得深入研究。 (6)并行数据库中数据的加载和再组织技术,为了保证高性能和高可用性,并行数据库系统中的处理节点可能需要进行扩充(或者调整),这就需要考虑如何对原有数据进行卸载、加载,以及如何合理地在各个节点是重新组织数据。并行数据库系统(Parallel Database System)是新一代高性能的数据库系统,是在MPP和集群并行计算环境的基础上建立的数据库系统。 并行数据库系统的目标是高性能(High Performance)和高可用性(High Availability),通过多个处理节点并行执行数据库任务,提高整个数据库系统的性能和可用性。并行数据库: 并行数据库系统是在并行机上运行的具有并行处理能力的数据库系统。并行数据库系统是数据库技术与并行计算技术相结合的产物。 并行计算技术利用多处理机并行处理产生的规模效益来提高系统的整体性能,为数据系统提供了一个良好的硬件平台。研究和开发适应于并行计算机系统的并行数据库系统成为数据学术界和工业界的研究热点,形成了并行处理技术与数据库技术相结合的并行数据库新技术。 并行处理技术与数据库技术的结合,具有潜在的可行性。因为关系数据库模型本身就有极大的并行可能性。关系数据模型中,数据库是元组的集合,数据库操作实际是集合操作,许多情况下可分解为一系列对子集的操作,许多子操作不具有数据相关性,因而具有潜在的并行性。 一个并行数据库系统应该实现如下目标: 1.高性能 并行数据库系统通过将数据库管理技术与并行处理技术有机结合,发挥多处理机结构的优势,从而提供比相应的大型机系统要高得多的性能价格比和可用性。例如,通过将数据库在多个磁盘上分布存储,利用多个处理机对磁盘数据进行并行处理,从而解决磁盘“I/O”瓶颈问题。通过开发查询间并行性(不同查询并行执行)、查询内并行性(同一查询内的操作并行执行)以及操作内并行性(子操作并行执行)大大提高查询效率。 2.高可用性 并行数据库系统可通过数据复制来增强数据库的可用性。这样,当一个磁盘损坏时,该盘上的数据在其他磁盘上的副本仍可供使用,且无需额外开销(与基于日志的恢复不同)。数据复制还应与数据划分技术相结合以保证当磁盘损坏时系统仍能并行访问数据。 3.可扩充性 这里,数据库系统的可扩充性指系统通过增加处理和存储能力而平滑地扩展性能的能力。理想情况下,并行数据库系统应具有两个方面的可扩充性优势:线性伸缩和线性加速。
文章TAG:
并行 并行数据库 数据 数据库 并行数据库有哪些特点呢 server有什么区别