hdfs支持哪些数据库，hadoop 和Oracle 的关系

本文目录一览

1，hadoop 和Oracle 的关系
2，HDFS分布式文件系统具有哪些优点
3，hadoop能使用哪些数据库
4，HBase和oracleHadoop的区别
5，Hadoop Hbase适合存储哪类数据转

1，hadoop 和Oracle 的关系

hadoop是分布式文件系统，单机或分布式安装都可以；oracle是数据库，支持多节点，说是支持到128个；都支持linux 集群服务器，可以同时存在一台机器上

hadoop的hdfs支持海量数据量存储 mapreduce支持对海量数据的分布式处理oracle虽然可以搭建集群但是当数据量达到一定限度之后查询处理速度会变得很慢且对机器性能要求很高其实这两个东西不是同类 hadoop是一个分布式云处理架构，倾向于数据计算而oracle是一个关系型数据库，倾向于数据存储。要说比较可以比较hbase与oracle。hbase是一种nosql数据库，列式数据库，支持海量数据存储，支持列的扩展，但是查询操作较复杂，不如oracle这类关系型数据库简单，且只支持一个索引，但是hbase在表结构设置合理情况下，查询速度跟数据量大小没有太大关系，即数据量的大小不会影响到查询速度，顺便说句hbase查询速度可以达到ms级

hadoop 和Oracle 的关系

2，HDFS分布式文件系统具有哪些优点

HDFS分布式文件系统具有以下优点：支持超大文件支持超大文件。超大文件在这里指的是几百M，几百GB，甚至几TB大小的文件。一般来说hadoop的文件系统会存储TB级别或者PB级别的数据。所以在企业的应用中，数据节点有可能有上千个。检测和快速应对硬件故障在集群的环境中，硬件故障是常见的问题。因为有上千台服务器连接在一起，这样会导致高故障率。因此故障检测和自动恢复是hdfs文件系统的一个设计目标。流式数据访问Hdfs的数据处理规模比较大，应用一次需要访问大量的数据，同时这些应用一般都是批量处理，而不是用户交互式处理。应用程序能以流的形式访问数据集。主要的是数据的吞吐量，而不是访问速度。简化的一致性模型大部分hdfs操作文件时，需要一次写入，多次读取。在hdfs中，一个文件一旦经过创建、写入、关闭后，一般就不需要修改了。这样简单的一致性模型，有利于提高吞吐量。缺点低延迟数据访问低延迟数据。如和用户进行交互的应用，需要数据在毫秒或秒的范围内得到响应。由于hadoop针对高数据吞吐量做了优化，牺牲了获取数据的延迟，所以对于低延迟来说，不适合用hadoop来做。大量的小文件Hdfs支持超大的文件，是通过数据分布在数据节点，数据的元数据保存在名字节点上。名字节点的内存大小，决定了hdfs文件系统可保存的文件数量。虽然现在的系统内存都比较大，但大量的小文件还是会影响名字节点的性能。多用户写入文件、修改文件Hdfs的文件只能有一次写入，不支持写入，也不支持修改。只有这样数据的吞吐量才能大。不支持超强的事务没有像关系型数据库那样，对事务有强有力的支持。

HDFS分布式文件系统具有哪些优点

3，hadoop能使用哪些数据库

框架本身提供一个DBInputFormat。支持MySql和PostgreSQL（需要自己提供驱动jar包）。需要使用其他数据库可以自己实现相应的InputFormat；实现起来也不难参照DBInputFormat即可。只要将拼接的sql语句改成适用的语法即可。

选择开始菜单中→程序→【management sql server 2008】→【sql server management studio】命令，打开【sql server management studio】窗口，并使用windows或 sql server身份验证建立连接。在【对象资源管理器】窗口中展开服务器，然后选择【数据库】节点右键单击【数据库】节点，从弹出来的快捷菜单中选择【新建数据库】命令。执行上述操作后，会弹出【新建数据库】对话框。在对话框、左侧有3个选项，分别是【常规】、【选项】和【文件组】。完成这三个选项中的设置会后，就完成了数据库的创建工作，在【数据库名称】文本框中输入要新建数据库的名称。例如，这里以“新建的数据库”。在【所有者】文本框中输入新建数据库的所有者，如sa。根据数据库的使用情况，选择启用或者禁用【使用全文索引】复选框。在【数据库文件】列表中包括两行，一行是数据库文件，而另一行是日记文件。通过单击下面的【添加】、【删除】按钮添加或删除数据库文件。切换到【选项页】、在这里可以设置数据库的排序规则、恢复模式、兼容级别和其他属性。切换到【文件组】页，在这里可以添加或删除文件组。完成以上操作后，单击【确定】按钮关闭【新建数据库】对话框。至此“新建的数据”数据库创建成功。新建的数据库可以再【对象资源管理器】窗口看到。

hadoop能使用哪些数据库

4，HBase和oracleHadoop的区别

hadoop的hdfs支持海量数据量存储 mapreduce支持对海量数据的分布式处理oracle虽然可以搭建集群但是当数据量达到一定限度之后查询处理速度会变得很慢且对机器性能要求很高其实这两个东西不是同类 hadoop是一个分布式云处理架构，倾向于数据计算而oracle是一个关系型数据库，倾向于数据存储。要说比较可以比较hbase与oracle。hbase是一种nosql数据库，列式数据库，支持海量数据存储，支持列的扩展，但是查询操作较复杂，不如oracle这类关系型数据库简单，且只支持一个索引，但是Hbase在表结构设置合理情况下，查询速度跟数据量大小没有太大关系，即数据量的大小不会影响到查询速度，顺便说句Hbase查询速度可以达到ms级

Hbase作为Hadoop下的一个子项目，目前发展比较强大，和传统的关系型数据库oracle来比，两者各有优缺点，我们先看一个简单的表格。　　数据维护：比如更新，只是按照key值插入新的记录，旧版本还在，会在storefile合并过程中进行删除数据维护：增删查改非常方便，直接修改　　以上简单罗列了Hbase和Oracle两者的区别，还有其他更细节的地方这里就没有描述，可以从上面的对比看出，两者完全应用于不同个场景。　　在Hbase架构中，由于底层的HDFS不支持追加，更新。所以在Hbase中，所有的操作都是写入，写操作都是先写入Memstore内存中，当达到阀值时，才穷flashcache进程写入storefile，每次写入都会形成一个新的storefile，当需要更新，删除的时候，根据key值按照时间戳插入一个新的记录，老版本记录依旧存在，可以通过时间戳查询老版本的记录，当storefile达到一定的阀值，系统会进行合并，合并过程中会进行版本合并和删除工作，形成更大的storefile。　　Oracle在插入，写操作的时候，一般情况下也会先写入内存，然后由DBWR进程调度写入到数据文件，如果在插入的时候使用append追加，则数据不会通过SGA，直接追加到数据文件，在Hbase中没有此功能。

5，Hadoop Hbase适合存储哪类数据转

行导向的存储机制（郁闷的是我看过N本关于关系数据库的介绍从来没有提到过row- oriented行导向存储这个概念）。在列导向的存储机制下对于Null值得存储是不占用任何空间的。比如，如果某个表 UserTable有10列，但在存储时只有一列有数据，那么其他空值的9列是不占用存储空间的（普通的数据库MySql是如何占用存储空间的呢？）。Hbase适合存储非结构化的稀疏数据的另一原因是他对列集合 column families 处理机制。打个比方，ruby和python这样的动态语言和c++、java类的编译语言有什么不同？对于我来说，最显然的不同就是你不需要为变量预先指定一个类型。Ok ，现在Hbase为未来的DBA也带来了这个激动人心的特性，你只需要告诉你的数据存储到Hbase的那个column families 就可以了，不需要指定它的具体类型：char,varchar,int,tinyint,text等等。Hbase还有很多特性，比如不支持join查询，但你存储时可以用：parent-child tuple（不是很懂）的方式来变相解决。由于它是Google BigTable的 Java 实现，你可以参考一下：google bigtable。下面3副图是Hbase的架构、数据模型和一个表格例子，你也可以从：Hadoop summit 上

最适合使用hbase存储的数据是非常稀疏的数据(非结构化或者半结构化的数据)。hbase之所以擅长存储这类数据，是因为hbase是column-oriented列导向的存储机制，而我们熟知的rdbms都是row- oriented行导向的存储机制(郁闷的是我看过n本关于关系数据库的介绍从来没有提到过row- oriented行导向存储这个概念)。在列导向的存储机制下对于null值得存储是不占用任何空间的。比如，如果某个表 usertable有10列，但在存储时只有一列有数据，那么其他空值的9列是不占用存储空间的(普通的数据库mysql是如何占用存储空间的呢?)。 hbase适合存储非结构化的稀疏数据的另一原因是他对列集合 column families 处理机制。打个比方，ruby和python这样的动态语言和c++、java类的编译语言有什么不同? 对于我来说，最显然的不同就是你不需要为变量预先指定一个类型。ok ，现在hbase为未来的dba也带来了这个激动人心的特性，你只需要告诉你的数据存储到hbase的那个column families 就可以了，不需要指定它的具体类型：char,varchar,int,tinyint,text等等。 hbase还有很多特性，比如不支持join查询，但你存储时可以用：parent-child tuple 的方式来变相解决。由于它是google bigtable的 java 实现，你可以参考一下：google bigtable 。

文章TAG：支持哪些数据数据库 hdfs支持哪些数据库和Oracle 的关系