本文目录一览

1,hadoop 和Oracle 的关系

hadoop是分布式文件系统,单机或分布式安装都可以;oracle是数据库,支持多节点,说是支持到128个;都支持linux 集群服务器,可以同时存在一台机器上
hadoop的hdfs支持海量数据量存储 mapreduce支持对海量数据的分布式处理oracle虽然可以搭建集群 但是当数据量达到一定限度之后查询处理速度会变得很慢 且对机器性能要求很高其实这两个东西不是同类 hadoop是一个分布式云处理架构,倾向于数据计算 而oracle是一个关系型数据库,倾向于数据存储。要说比较可以比较hbase与oracle。hbase是一种nosql数据库,列式数据库,支持海量数据存储,支持列的扩展,但是查询操作较复杂,不如oracle这类关系型数据库简单,且只支持一个索引,但是hbase在表结构设置合理情况下,查询速度跟数据量大小没有太大关系,即数据量的大小不会影响到查询速度,顺便说句hbase查询速度可以达到ms级

hadoop 和Oracle 的关系

2,HDFS分布式文件系统具有哪些优点

HDFS分布式文件系统具有以下优点:支持超大文件支持超大文件。超大文件在这里指的是几百M,几百GB,甚至几TB大小的文件。一般来说hadoop的文件系统会存储TB级别或者PB级别的数据。所以在企业的应用中,数据节点有可能有上千个。检测和快速应对硬件故障在集群的环境中,硬件故障是常见的问题。因为有上千台服务器连接在一起,这样会导致高故障率。因此故障检测和自动恢复是hdfs文件系统的一个设计目标。流式数据访问Hdfs的数据处理规模比较大,应用一次需要访问大量的数据,同时这些应用一般都是批量处理,而不是用户交互式处理。应用程序能以流的形式访问数据集。主要的是数据的吞吐量,而不是访问速度。简化的一致性模型大部分hdfs操作文件时,需要一次写入,多次读取。在hdfs中,一个文件一旦经过创建、写入、关闭后,一般就不需要修改了。这样简单的一致性模型,有利于提高吞吐量。缺点低延迟数据访问低延迟数据。如和用户进行交互的应用,需要数据在毫秒或秒的范围内得到响应。由于hadoop针对高数据吞吐量做了优化,牺牲了获取数据的延迟,所以对于低延迟来说,不适合用hadoop来做。大量的小文件Hdfs支持超大的文件,是通过数据分布在数据节点,数据的元数据保存在名字节点上。名字节点的内存大小,决定了hdfs文件系统可保存的文件数量。虽然现在的系统内存都比较大,但大量的小文件还是会影响名字节点的性能。多用户写入文件、修改文件Hdfs的文件只能有一次写入,不支持写入,也不支持修改。只有这样数据的吞吐量才能大。不支持超强的事务没有像关系型数据库那样,对事务有强有力的支持。

HDFS分布式文件系统具有哪些优点

3,hadoop能使用哪些数据库

框架本身提供一个DBInputFormat。支持MySql和PostgreSQL(需要自己提供驱动jar包)。需要使用其他数据库可以自己实现相应的InputFormat;实现起来也不难参照DBInputFormat即可。只要将拼接的sql语句改成适用的语法即可。
选择开始菜单中→程序→【management sql server 2008】→【sql server management studio】命令,打开【sql server management studio】窗口,并使用windows或 sql server身份验证建立连接。在【对象资源管理器】窗口中展开服务器,然后选择【数据库】节点右键单击【数据库】节点,从弹出来的快捷菜单中选择【新建数据库】命令。执行上述操作后,会弹出【新建数据库】对话框。在对话框、左侧有3个选项,分别是【常规】、【选项】和【文件组】。完成这三个选项中的设置会后,就完成了数据库的创建工作,在【数据库名称】文本框中输入要新建数据库的名称。例如,这里以“新建的数据库”。在【所有者】文本框中输入新建数据库的所有者,如sa。根据数据库的使用情况,选择启用或者禁用【使用全文索引】复选框。在【数据库文件】列表中包括两行,一行是数据库文件,而另一行是日记文件。通过单击下面的【添加】、【删除】按钮添加或删除数据库文件。切换到【选项页】、在这里可以设置数据库的排序规则、恢复模式、兼容级别和其他属性。切换到【文件组】页,在这里可以添加或删除文件组。完成以上操作后,单击【确定】按钮关闭【新建数据库】对话框。至此“新建的数据”数据库创建成功。新建的数据库可以再【对象资源管理器】窗口看到。

hadoop能使用哪些数据库

4,HBase和oracleHadoop的区别

hadoop的hdfs支持海量数据量存储 mapreduce支持对海量数据的分布式处理oracle虽然可以搭建集群 但是当数据量达到一定限度之后查询处理速度会变得很慢 且对机器性能要求很高其实这两个东西不是同类 hadoop是一个分布式云处理架构,倾向于数据计算 而oracle是一个关系型数据库,倾向于数据存储。要说比较可以比较hbase与oracle。hbase是一种nosql数据库,列式数据库,支持海量数据存储,支持列的扩展,但是查询操作较复杂,不如oracle这类关系型数据库简单,且只支持一个索引,但是Hbase在表结构设置合理情况下,查询速度跟数据量大小没有太大关系,即数据量的大小不会影响到查询速度,顺便说句Hbase查询速度可以达到ms级
Hbase作为Hadoop下的一个子项目,目前发展比较强大,和传统的关系型数据库oracle来比,两者各有优缺点,我们先看一个简单的表格。  数据维护:比如更新,只是按照key值插入新的记录,旧版本还在,会在storefile合并过程中进行删除数据维护:增删查改非常方便,直接修改  以上简单罗列了Hbase和Oracle两者的区别,还有其他更细节的地方这里就没有描述,可以从上面的对比看出,两者完全应用于不同个场景。  在Hbase架构中,由于底层的HDFS不支持追加,更新。所以在Hbase中,所有的操作都是写入,写操作都是先写入Memstore内存中,当达到阀值时,才穷flashcache进程写入storefile,每次写入都会形成一个新的storefile,当需要更新,删除的时候,根据key值按照时间戳插入一个新的记录,老版本记录依旧存在,可以通过时间戳查询老版本的记录,当storefile达到一定的阀值,系统会进行合并,合并过程中会进行版本合并和删除工作,形成更大的storefile。  Oracle在插入,写操作的时候,一般情况下也会先写入内存,然后由DBWR进程调度写入到数据文件,如果在插入的时候使用append追加,则数据不会通过SGA,直接追加到数据文件,在Hbase中没有此功能。

5,Hadoop Hbase适合存储哪类数据转

行导向的存储机制(郁闷的是我看过N本关于关系数据库的介绍从来没有提到过row- oriented行导向存储这个概念)。在列导向的存储机制下对于Null值得存储是不占用任何空间的。比如,如果某个表 UserTable有10列,但在存储时只有一列有数据,那么其他空值的9列是不占用存储空间的(普通的数据库MySql是如何占用存储空间的呢?)。Hbase适合存储非结构化的稀疏数据的另一原因是他对列集合 column families 处理机制。 打个比方,ruby和python这样的动态语言和c++、java类的编译语言有什么不同? 对于我来说,最显然的不同就是你不需要为变量预先指定一个类型。Ok ,现在Hbase为未来的DBA也带来了这个激动人心的特性,你只需要告诉你的数据存储到Hbase的那个column families 就可以了,不需要指定它的具体类型:char,varchar,int,tinyint,text等等。Hbase还有很多特性,比如不支持join查询,但你存储时可以用:parent-child tuple(不是很懂) 的方式来变相解决。由于它是Google BigTable的 Java 实现,你可以参考一下:google bigtable。下面3副图是Hbase的架构、数据模型和一个表格例子,你也可以从:Hadoop summit 上
最适合使用hbase存储的数据是非常稀疏的数据(非结构化或者半结构化的数据)。hbase之所以擅长存储这类数据,是因为hbase是column-oriented列导向的存储机制,而我们熟知的rdbms都是row- oriented行导向的存储机制(郁闷的是我看过n本关于关系数据库的介绍从来没有提到过row- oriented行导向存储这个概念)。在列导向的存储机制下对于null值得存储是不占用任何空间的。比如,如果某个表 usertable有10列,但在存储时只有一列有数据,那么其他空值的9列是不占用存储空间的(普通的数据库mysql是如何占用存储空间的呢?)。 hbase适合存储非结构化的稀疏数据的另一原因是他对列集合 column families 处理机制。 打个比方,ruby和python这样的动态语言和c++、java类的编译语言有什么不同? 对于我来说,最显然的不同就是你不需要为变量预先指定一个类型。ok ,现在hbase为未来的dba也带来了这个激动人心的特性,你只需要告诉你的数据存储到hbase的那个column families 就可以了,不需要指定它的具体类型:char,varchar,int,tinyint,text等等。 hbase还有很多特性,比如不支持join查询,但你存储时可以用:parent-child tuple 的方式来变相解决。 由于它是google bigtable的 java 实现,你可以参考一下:google bigtable 。

文章TAG:支持  哪些  数据  数据库  hdfs支持哪些数据库  和Oracle  的关系  
下一篇