开源数据库分析有哪些，大数据分析一般用什么工具分析

本文目录一览

1，大数据分析一般用什么工具分析
2，有哪些科学计算的开源库
3，python数据分析的包哪些

1，大数据分析一般用什么工具分析

大数据魔镜，简单好用，操作简单，值得一用！

Hadoop，spark，storm

大数据分析一般用什么工具分析

2，有哪些科学计算的开源库

说起科学计算，首先会被提到的可能是MATLAB。然而除了MATLAB的一些专业性很强的工具箱还无法替代之外，MATLAB的大部分常用功能都可以在Python世界中找到相应的扩展库。和MATLAB相比，用Python做科学计算有如下优点：● 首先，MATLAB是一款商用软件，并且价格不菲。而Python完全，众多开源的科学计算库都提供了Python的调用接口。用户可以在任何计算机上安装Python及其绝大多数扩展库。● 其次，与MATLAB相比，Python是一门更易学、更严谨的程序设计语言。它能让用户编写出更易读、易维护的代码。● 最后，MATLAB主要专注于工程和科学计算。然而即使在计算领域，也经常会遇到文件管理、界面设计、网络通信等各种需求。而Python有着丰富的扩展库，可以轻易完成各种高级任务，开发者可以用Python实现完整应用程序所需的各种功能。

比较火爆的android开源库有以下：1、volley 主要有以下模块：(1) json，图像等的异步下载；(2) 网络请求的排序（scheduling）(3) 网络请求的优先级处理(4) 缓存(5) 多级别取消请求(6) 和activity和生命周期的联动（activity结束时同时取消所有网络请求）2、android-async-http 主要有以下模块：(1) 在匿名回调中处理请求结果(2) 在ui线程外进行http请求(3) 文件断点上传(4) 智能重试(5) 默认gzip压缩(6) 支持解析成json格式(7) 可将cookies持久化到sharedpreferences 3、afinal框架主要有四大模块：(1) 数据库模块：android中的orm框架，使用了线程池对sqlite进行操作。(2) 注解模块：android中的ioc框架，完全注解方式就可以进行ui绑定和事件绑定。无需findviewbyid和setclicklistener等。(3) 网络模块：通过httpclient进行封装http数据请求，支持ajax方式加载，支持下载、上传文件功能。(4) 图片缓存模块：通过finalbitmap，imageview加载bitmap的时候无需考虑bitmap加载过程中出现的oom和android容器快速滑动时候出现的图片错位等现象。4、xutils框架主要有四大模块：(1) 数据库模块：android中的orm框架，一行代码就可以进行增删改查；(2) 注解模块：android中的ioc框架，完全注解方式就可以进行ui，资源和事件绑定；(3) 网络模块：支持同步，异步方式的请求；(4) 图片缓存模块：加载bitmap的时候无需考虑bitmap加载过程中出现的oom和android容器快速滑动时候出现的图片错位等现象；5、thinkandroid主要有以下模块：(1) mvc模块：实现视图与模型的分离。(2) ioc模块：android中的ioc模块，完全注解方式就可以进行ui绑定、res中的资源的读取、以及对象的初始化。 (3) 数据库模块：android中的orm框架，使用了线程池对sqlite进行操作。(4) http模块：通过httpclient进行封装http数据请求，支持异步及同步方式加载。(5) 缓存模块：通过简单的配置及设计可以很好的实现缓存，对缓存可以随意的配置(6) 图片缓存模块：imageview加载图片的时候无需考虑图片加载过程中出现的oom和android容器快速滑动时候出现的图片错位等现象。(7) 配置器模块：可以对简易的实现配对配置的操作，目前配置文件可以支持preference、properties对配置进行存取。(8) 日志打印模块：可以较快的轻易的是实现日志打印，支持日志打印的扩展，目前支持对sdcard写入本地打印、以及控制台打印(9) 下载器模块:可以简单的实现多线程下载、后台下载、断点续传、对下载进行控制、如开始、暂停、删除等等。(10) 网络状态检测模块：当网络状态改变时，对其进行检6、loonandroid 主要有以下模块：(1) 自动注入框架（只需要继承框架内的application既可）(2) 图片加载框架（多重缓存，自动回收，最大限度保证内存的安全性）(3) 网络请求模块（继承了基本上现在所有的http请求）(4) eventbus（集成一个开源的框架）(5) 验证框架（集成开源框架）(6) json解析（支持解析成集合或者对象）(7) 数据库（不知道是哪位写的忘记了）(8) 多线程断点下载（自动判断是否支持多线程，判断是否是重定向）(9) 自动更新模块(10) 一系列工具类

有哪些科学计算的开源库

3，python数据分析的包哪些

IPython　　IPython 是一个在多种编程语言之间进行交互计算的命令行 shell，最开始是用 python 开发的，提供增强的内省，富媒体，扩展的 shell语法，tab 补全，丰富的历史等功能。IPython 提供了如下特性：　　更强的交互 shell(基于 Qt 的终端)　　一个基于浏览器的记事本，支持代码，纯文本，数学公式，内置图表和其他富媒体　　支持交互数据可视化和图形界面工具　　灵活，可嵌入解释器加载到任意一个自有工程里　　简单易用，用于并行计算的高性能工具　　由数据分析总监，Galvanize 专家 Nir Kaldero 提供。　　GraphLab Greate 是一个 Python 库，由 C++ 引擎支持，可以快速构建大型高性能数据产品。　　这有一些关于 GraphLab Greate 的特点：　　可以在您的计算机上以交互的速度分析以 T 为计量单位的数据量。　　在单一平台上可以分析表格数据、曲线、文字、图像。　　最新的机器学习算法包括深度学习，进化树和 factorization machines 理论。　　可以用 Hadoop Yarn 或者 EC2 聚类在你的笔记本或者分布系统上运行同样的代码。　　借助于灵活的 API 函数专注于任务或者机器学习。　　在云上用预测服务便捷地配置数据产品。　　为探索和产品监测创建可视化的数据。　　由 Galvanize 数据科学家 Benjamin Skrainka 提供。　　Pandas　　pandas 是一个开源的软件，它具有 BSD 的开源许可，为 Python编程语言提供高性能，易用数据结构和数据分析工具。在数据改动和数据预处理方面，Python 早已名声显赫，但是在数据分析与建模方面，Python是个短板。Pands 软件就填补了这个空白，能让你用 Python 方便地进行你所有数据的处理，而不用转而选择更主流的专业语言，例如 R 语言。　　整合了劲爆的 IPyton 工具包和其他的库，它在 Python 中进行数据分析的开发环境在处理性能，速度，和兼容方面都性能卓越。Pands不会执行重要的建模函数超出线性回归和面板回归;对于这些，参考 statsmodel 统计建模工具和 scikit-learn 库。为了把 Python打造成顶级的统计建模分析环境，我们需要进一步努力，但是我们已经奋斗在这条路上了。　　由 Galvanize 专家，数据科学家 Nir Kaldero 提供。　　PuLP　　线性编程是一种优化，其中一个对象函数被最大程度地限制了。PuLP 是一个用 Python编写的线性编程模型。它能产生线性文件，能调用高度优化的求解器，GLPK，COIN CLP/CBC，CPLEX，和GUROBI，来求解这些线性问题。　　由 Galvanize 数据科学家 Isaac Laughlin 提供　　Matplotlib　　matplotlib 是基于 Python 的2D(数据)绘图库，它产生(输出)出版级质量的图表，用于各种打印纸质的原件格式和跨平台的交互式环境。matplotlib 既可以用在 python 脚本，python 和 ipython 的 shell 界面 (ala MATLAB? 或 Mathematica?)，web 应用服务器，和6类 GUI工具箱。　　matplotlib 尝试使容易事情变得更容易，使困难事情变为可能。你只需要少量几行代码，就可以生成图表，直方图，能量光谱(powerspectra)，柱状图，errorcharts，散点图(scatterplots)等，。　　为简化数据绘图，pyplot 提供一个类 MATLAB 的接口界面，尤其是它与 IPython共同使用时。对于高级用户，你可以完全定制包括线型，字体属性，坐标属性等，借助面向对象接口界面，或项 MATLAB 用户提供类似(MATLAB)的界面。　　Galvanize 公司的首席科学官 Mike Tamir 供稿。　　Scikit-Learn　　Scikit-Learn 是一个简单有效地数据挖掘和数据分析工具(库)。关于最值得一提的是，它人人可用，重复用于多种语境。它基于NumPy，SciPy 和 mathplotlib 等构建。Scikit 采用开源的 BSD 授权协议，同时也可用于商业。Scikit-Learn具备如下特性：　　分类(Classification) – 识别鉴定一个对象属于哪一类别　　回归(Regression) – 预测对象关联的连续值属性　　聚类(Clustering) – 类似对象自动分组集合　　降维(Dimensionality Reduction) – 减少需要考虑的随机变量数量　　模型选择(Model Selection) –比较、验证和选择参数和模型　　预处理(Preprocessing) – 特征提取和规范化　　Galvanize 公司数据科学讲师，Isaac Laughlin提供　　Spark　　Spark 由一个驱动程序构成，它运行用户的 main 函数并在聚类上执行多个并行操作。Spark最吸引人的地方在于它提供的弹性分布数据集(RDD)，那是一个按照聚类的节点进行分区的元素的集合，它可以在并行计算中使用。RDDs 可以从一个 Hadoop文件系统中的文件(或者其他的 Hadoop 支持的文件系统的文件)来创建，或者是驱动程序中其他的已经存在的标量数据集合，把它进行变换。用户也许想要 Spark在内存中永久保存 RDD，来通过并行操作有效地对 RDD 进行复用。最终，RDDs 无法从节点中自动复原。　　Spark 中第二个吸引人的地方在并行操作中变量的共享。默认情况下，当 Spark在并行情况下运行一个函数作为一组不同节点上的任务时，它把每一个函数中用到的变量拷贝一份送到每一任务。有时，一个变量需要被许多任务和驱动程序共享。Spark支持两种方式的共享变量：广播变量，它可以用来在所有的节点上缓存数据。另一种方式是累加器，这是一种只能用作执行加法的变量，例如在计数器中和加法运算中。

ndarray.ndim数组轴的个数，在python的世界中，轴的个数被称作秩ndarray.shape数组的维度。这是一个指示数组在每个维度上大小的整数元组。例如一个n排m列的矩阵，它的shape属性将是(2,3),这个元组的长度显然是秩，即维度或者ndim属性ndarray.size数组元素的总个数，等于shape属性中元组元素的乘积。ndarray.dtype一个用来描述数组中元素类型的对象，可以通过创造或指定dtype使用标准python类型。另外numpy提供它自己的数据类型。ndarray.itemsize数组中每个元素的字节大小。例如，一个元素类型为float64的数组itemsiz属性值为8(=64/8),又如，一个元素类型为complex32的数组item属性为4(=32/8).ndarray.data包含实际数组元素的缓冲区，通常我们不需要使用这个属性，因为我们总是通过索引来使用数组中的元素。numpy-快速处理数据标准安装的python中用列表(list)保存一组值，可以用来当作数组使用，不过由于列表的元素可以是任何对象，因此列表中所保存的是对象的指针。这样为了保存一个简单的[1,2,3]，需要有3个指针和三个整数对象。对于数值运算来说这种结构显然比较浪费内存和cpu计算时间。此外python还提供了一个array模块，array对象和列表不同，它直接保存数值，和c语言的一维数组比较类似。但是由于它不支持多维，也没有各种运算函数，因此也不适合做数值运算。numpy的诞生弥补了这些不足，numpy提供了两种基本的对象：ndarray（n-dimensional array object）和 ufunc（universal function object）。ndarray(下文统一称之为数组)是存储单一数据类型的多维数组，而ufunc则是能够对数组进行处理的函数。

Python在科学计算领域，有两个重要的扩展模块：Numpy和Scipy。其中Numpy是一个用python实现的科学计算包。包括：一个强大的N维数组对象Array；比较成熟的（广播）函数库；用于整合C/C++和Fortran代码的工具包；实用的线性代数、傅里叶变换和随机数生成函数。 SciPy是一个开源的Python算法库和数学工具包，SciPy包含的模块有最优化、线性代数、积分、插值、特殊函数、快速傅里叶变换、信号处理和图像处理、常微分方程求解和其他科学与工程中常用的计算。其功能与软件MATLAB、Scilab和GNU Octave类似。Numpy和Scipy常常结合着使用，Python大多数机器学习库都依赖于这两个模块，绘图和可视化依赖于matplotlib模块

python数据分析的包哪些