并行数据库有哪些特点，并发技术是怎样实现的

本文目录一览

1，并发技术是怎样实现的
2，GreenPlum和Hadoop什么关系
3，MPP 与 Hadoop是什么关系
4，Sun Grid Engine 和 hadoop 是什么关系
5，什么是并行数据库

1，并发技术是怎样实现的

数据库的特点就是数据的集中管理和共享。在通常情况下总是有若干个事务并发地运行，这些并行的事务可能并发地存取相同的数据。因此，数据库管理系统的一个重要任务就是要有一种机制去保证这种并发的存取和修改不破坏数据的完整性，确保这些事务能正确地运行并取得正确的结果。我们知道，事务并发执行时若不加控制的话将导致不正确的结果和数据库的不一致状态。为保证数据库数据正确地反映所有事务的更新以及在一事务修改数据时其它事务不同时修改这个数据，数据库系统用锁来控制对数据的并发存取。

并发技术是怎样实现的

2，GreenPlum和Hadoop什么关系

GreenPlum采取的是PostgreSql框架，是PostgreSql系的重要应用。从这个角度上可以知道GreenPlum是关系型数据库。Hadoop框架是一种分布式的平台设计理念。它本身不是数据库。其中Impala可以认为是一种非关系型的数据库, Hive相当于SQL。

GreenPlum采取的是PostgreSql框架，是PostgreSql系的重要应用。从这个角度上可以知道GreenPlum是关系型数据库。Hadoop框架是一种分布式的平台设计理念。它本身不是数据库。其中Impala可以认为是一种非关系型的数据库, Hive相当于SQL。分布式，是多个方面的，最主要是存储方面。GreenPlum的分布式主要体现在多个机器文件存储，授权等方面。而Hadoop的文件管理方面，也是分布式的，因为只有分布式的部署才能最大效力的发回Hadoop的功能。因此可以认为GreenPlum和Hadoop没有直接关系。

mpp是一种海量数据实时分析架构。 mpp作为一种不共享架构，每个节点运行自己的操作系统和数据库等，节点之间信息交互只能通过网络连接实现。mpp架构目前被并行数据库广泛采用，一般通过scan、sort和merge等操作符实时返回查询结果。目前采用mpp架构的实时查询系统有emc greenplum、hp vertica和googl e dremel，这些都是实时数据处理领域非常有特点的系统，尤其是dremel可以轻松扩展到上千台服务器，并在数秒内完成tb级数据的分析。

GreenPlum和Hadoop什么关系

3，MPP 与 Hadoop是什么关系

先从NUMA说起吧，NUMA全称为Non-Uniform Memory Access，是主流服务服务器为了提高SMP的可扩展性而采用的一种体系结构。主流服务器一般由多个NUMA节点组成，每个NUMA节点是一个SMP结构，一般由多个CPU组成，并且具有本地内存和IO设备。NUMA节点可以直接访问本地内存，也可以通过NUMA互联模块访问其他NUMA节点的内存，但是访问本地内存的速度远远高于远程访问速度，因此，开发程序要尽量减少不同NUMA节点之间的信息交互。 MPP是一种海量数据实时分析架构。MPP作为一种不共享架构，每个节点运行自己的操作系统和数据库等，节点之间信息交互只能通过网络连接实现。MPP架构目前被并行数据库广泛采用，一般通过scan、sort和merge等操作符实时返回查询结果。目前采用MPP架构的实时查询系统有EMC Greenplum、HP Vertica和Google Dremel，这些都是实时数据处理领域非常有特点的系统，尤其是Dremel可以轻松扩展到上千台服务器，并在数秒内完成TB级数据的分析。 Hadoop作为一个开源项目群本身和MPP并没有什么直接关系，Hadoop中的子项目MapReduce虽然也是做数据分析处理的，但是一般只适用于离线数据分析，区别与MPP较为明显。因为Map和Reduce两个过程涉及到输出文件的存取和大量网络传输，因此往往达不到实时处理的要求。与MapReduce相似的系统还有Microsoft Dryad和Google pregel。综上所述，NUMA是一种体系结构，MPP是一种实时海量数据分析架构，而Hadoop是一个关于数据存储处理的项目群，其中的MapReduce是一种离线海量数据分析架构。

MPP 与 Hadoop是什么关系

4，Sun Grid Engine 和 hadoop 是什么关系

就我的了解SGE大致相当于Hadoop-YARN，多用于超级计算机集群的管理。Hadoop的最大贡献在于HDFS解决了，分布式文件系统，和Google的GFS一样。SGE好像没有强调这一点，而且超级计算机大多数都没有本地磁盘，可能也不需要文件系统管理吧。说白了就是不实用~

numa全称为non-uniform memory access，是主流服务服务器为了提高smp的可扩展性而采用的一种体系结构。主流服务器一般由多个numa节点组成，每个numa节点是一个smp结构，一般由多个cpu组成，并且具有本地内存和io设备。numa节点可以直接访问本地内存，也可以通过numa互联模块访问其他numa节点的内存，但是访问本地内存的速度远远高于远程访问速度，因此，开发程序要尽量减少不同numa节点之间的信息交互。　　mpp是一种海量数据实时分析架构。 mpp作为一种不共享架构，每个节点运行自己的操作系统和数据库等，节点之间信息交互只能通过网络连接实现。mpp架构目前被并行数据库广泛采用，一般通过scan、sort和merge等操作符实时返回查询结果。目前采用mpp架构的实时查询系统有emc greenplum、hp vertica和googl l，这些都是实时数据处理领域非常有特点的系统，尤其是dremel可以轻松扩展到上千台服务器，并在数秒内完成tb级数据的分析。　　hadoop作为一个开源项目群本身和mpp并没有什么直接关系，hadoop中的子项目mapreduce虽然也是做数据分析处理的，但是一般只适用于离线数据分析，区别与mpp较为明显。因为map和reduce两个过程涉及到输出文件的存取和大量网络传输，...　　numa全称为non-uniform memory access，是主流服务服务器为了提高smp的可扩展性而采用的一种体系结构。主流服务器一般由多个numa节点组成，每个numa节点是一个smp结构，一般由多个cpu组成，并且具有本地内存和io设备。numa节点可以直接访问本地内存，也可以通过numa互联模块访问其他numa节点的内存，但是访问本地内存的速度远远高于远程访问速度，因此，开发程序要尽量减少不同numa节点之间的信息交互。　　mpp是一种海量数据实时分析架构。 mpp作为一种不共享架构，每个节点运行自己的操作系统和数据库等，节点之间信息交互只能通过网络连接实现。mpp架构目前被并行数据库广泛采用，一般通过scan、sort和merge等操作符实时返回查询结果。目前采用mpp架构的实时查询系统有emc greenplum、hp vertica和googl l，这些都是实时数据处理领域非常有特点的系统，尤其是dremel可以轻松扩展到上千台服务器，并在数秒内完成tb级数据的分析。　　hadoop作为一个开源项目群本身和mpp并没有什么直接关系，hadoop中的子项目mapreduce虽然也是做数据分析处理的，但是一般只适用于离线数据分析，区别与mpp较为明显。因为map和reduce两个过程涉及到输出文件的存取和大量网络传输，因此往往达不到实时处理的要求。与mapreduce 相似的系统还有microsoft dryad和google pregel。　　综上所述，numa是一种体系结构，mpp是一种实时海量数据分析架构，而hadoop是一个关于数据存储处理的项目群，其中的mapreduce是一种离线海量数据分析架构。　　实测对比greenplum和hive，gp比hive性能高出至少一个数量级，但是大部分场景下，依然是秒级甚至分钟级的延迟，距离具体通常意义的实时毫秒级，差距巨大。　　另外说一句，广义的hadoop包括 impala, presto | distributed sql query engine for big data 这些mpp架构的sql引擎。hadoop社区还在持续发展，spark还在持续给人们带来惊喜，开源软件的迷人之处也在于此。

5，什么是并行数据库

并行数据库系统（Parallel Database System）是新一代高性能的数据库系统，是在MPP和集群并行计算环境的基础上建立的数据库系统。并行数据库技术起源于20世纪70年代的数据库机（Database Machine）研究，，研究的内容主要集中在关系代数操作的并行化和实现关系操作的专用硬件设计上，希望通过硬件实现关系数据库操作的某些功能，该研究以失败而告终。80年代后期，并行数据库技术的研究方向逐步转到了通用并行机方面，研究的重点是并行数据库的物理组织、操作算法、优化和调度策络。从90年代至今，随着处理器、存储、网络等相关基础技术的发展，并行数据库技术的研究上升到一个新的水平，研究的重点也转移到数据操作的时间并行性和空间并行性上。并行数据库系统的目标是高性能（High Performance）和高可用性（High Availability），通过多个处理节点并行执行数据库任务，提高整个数据库系统的性能和可用性。性能指标关注的是并行数据库系统的处理能力，具体的表现可以统一总结为数据库系统处理事务的响应时间。并行数据库系统的高性能可以从两个方面理解，一个是速度提升（SpeedUp），一个是范围提升（ScaleUp）。速度提升是指，通过并行处理，可以使用更少的时间完成两样多的数据库事务。范围提升是指，通过并行处理，在相同的处理时间内，可以完成更多的数据库事务。并行数据库系统基于多处理节点的物理结构，将数据库管理技术与并行处理技术有机结合，来实现系统的高性能。可用性指标关注的是并行数据库系统的健壮性，也就是当并行处理节点中的一个节点或多个节点部分失效或完全失效时，整个系统对外持续响应的能力。高可用性可以同时在硬件和软件两个方面提供保障。在硬件方面，通过冗余的处理节点、存储设备、网络链路等硬件措施，可以保证当系统中某节点部分或完全失效时，其它的硬件设备可以接手其处理，对外提供持续服务。在软件方面，通过状态监控与跟踪、互相备份、日志等技术手段，可以保证当前系统中某节点部分或完全失效时，由它所进行的处理或由它所掌控的资源可以无损失或基本无损失地转移到其它节点，并由其它节点继续对外提供服务。为了实现和保证高性能和高可用性，可扩充性也成为并行数据库系统的一个重要指标。可扩充性是指，并行数据库系统通过增加处理节点或者硬件资源（处理器、内存等），使其可以平滑地或线性地扩展其整体处理能力的特性。随着对并行计算技术研究的深入和SMP、MPP等处理机技术的发展，并行数据库的研究也进入了一个新的领域，集群已经成为了并行数据库系统中最受关注的热点。目前，并行数据库领域主要还有下列问题需要进一步地研究和解决。（1）并行体系结构及其应用，这是并行数据库系统的基础问题。为了达到并行处理的目的，参与并行处理的各个处理节点之间是否要共享资源、共享哪些资源、需要多大程度的共享，这些就需要研究并行处理的体系结构及有关实现技术。（2）并行数据库的物理设计，主要是在并行处理的环境下，数据分布的算法的研究、数据库设计工具与管理工具的研究。（3）处理节点间通讯机制的研究。为了实现并行数据库的高性能，并行处理节点要最大程度地协同处理数据库事务，因此，节点间必不可少地存在通讯问题，如何支持大量节点之间消息和数据的高效通讯，也成为了并行数据库系统中一个重要的研究课题。（4）并行操作算法，为提高并行处理的效率，需要在数据分布算法研究的基础上，深入研究联接、聚集、统计、排序等具体的数据操作在多节点上的并行操作算法。（5）并行操作的优化和同步，为获得高性能，如何将一个数据库处理事务合理地分解成相对独立的并行操作步骤、如何将这些步骤以最优的方式在多个处理节点间进行分配、如何在多个处理节点的同一个步骤和不同步骤之间进行消息和数据的同步，这些问题都值得深入研究。（6）并行数据库中数据的加载和再组织技术，为了保证高性能和高可用性，并行数据库系统中的处理节点可能需要进行扩充（或者调整），这就需要考虑如何对原有数据进行卸载、加载，以及如何合理地在各个节点是重新组织数据。

并行数据库系统（Parallel Database System）是新一代高性能的数据库系统，是在MPP和集群并行计算环境的基础上建立的数据库系统。　　并行数据库系统的目标是高性能（High Performance）和高可用性（High Availability），通过多个处理节点并行执行数据库任务，提高整个数据库系统的性能和可用性。

并行数据库：并行数据库系统是在并行机上运行的具有并行处理能力的数据库系统。并行数据库系统是数据库技术与并行计算技术相结合的产物。并行计算技术利用多处理机并行处理产生的规模效益来提高系统的整体性能，为数据系统提供了一个良好的硬件平台。研究和开发适应于并行计算机系统的并行数据库系统成为数据学术界和工业界的研究热点，形成了并行处理技术与数据库技术相结合的并行数据库新技术。并行处理技术与数据库技术的结合，具有潜在的可行性。因为关系数据库模型本身就有极大的并行可能性。关系数据模型中，数据库是元组的集合，数据库操作实际是集合操作，许多情况下可分解为一系列对子集的操作，许多子操作不具有数据相关性，因而具有潜在的并行性。一个并行数据库系统应该实现如下目标： 1．高性能并行数据库系统通过将数据库管理技术与并行处理技术有机结合，发挥多处理机结构的优势，从而提供比相应的大型机系统要高得多的性能价格比和可用性。例如，通过将数据库在多个磁盘上分布存储，利用多个处理机对磁盘数据进行并行处理，从而解决磁盘“I/O”瓶颈问题。通过开发查询间并行性(不同查询并行执行)、查询内并行性(同一查询内的操作并行执行)以及操作内并行性(子操作并行执行)大大提高查询效率。 2．高可用性并行数据库系统可通过数据复制来增强数据库的可用性。这样，当一个磁盘损坏时，该盘上的数据在其他磁盘上的副本仍可供使用，且无需额外开销(与基于日志的恢复不同)。数据复制还应与数据划分技术相结合以保证当磁盘损坏时系统仍能并行访问数据。 3．可扩充性这里，数据库系统的可扩充性指系统通过增加处理和存储能力而平滑地扩展性能的能力。理想情况下，并行数据库系统应具有两个方面的可扩充性优势：线性伸缩和线性加速。

文章TAG：并行并行数据库数据数据库并行数据库有哪些特点