8个常用python库从安装命令及应用程序

Python本身的数据分析功能并不强,需要安装一些第三方扩展库来增强其相应的功能 。本文将对NumPy、SciPy、Matplotlib、pandas、StatsModels、scikit-learn、Keras、Gensim等库的安装和使用进行简单的介绍 。
如果读者安装的是Anaconda发行版,那么它已经自带了以下库:NumPy、SciPy、Matplotlib、pandas、scikit-learn 。

8个常用python库从安装命令及应用程序

文章插图
本文主要是对这些库进行简单的介绍,读者也可以到官网阅读更加详细的使用教程 。
  • NumPy:提供数组支持以及相应的高效的处理函数
  • SciPy:提供矩阵支持以及矩阵相关的数值计算模块
  • Matplotlib:强大的数据可视化工具、作图库
  • pandas:强大、灵活的数据分析和探索工具
  • StatsModels:统计建模和计量经济学,包括描述统计、统计模型估计和推断
  • scikit-learn:支持回归、分类、聚类等强大的机器学习库
  • Keras:深度学习库,用于建立神经网络以及深度学习模型
  • Gensim:用来做文本主题模型的库,文本挖掘可能会用到
01 NumPyPython并没有提供数组功能 。虽然列表可以完成基本的数组功能,但它不是真正的数组,而且在数据量较大时,使用列表的速度就会很慢 。为此,NumPy提供了真正的数组功能以及对数据进行快速处理的函数 。
NumPy还是很多更高级的扩展库的依赖库,我们后面介绍的SciPy、Matplotlib、pandas等库都依赖于它 。值得强调的是,NumPy内置函数处理数据的速度是C语言级别的,因此在编写程序的时候,应当尽量使用其内置函数,避免效率瓶颈的(尤其是涉及循环的问题)出现 。
在Windows操作系统中,NumPy的安装跟普通第三方库的安装一样,可以通过pip命令进行,命令如下:
pip install numpy 也可以自行下载源代码,然后使用如下命令安装:
python setup.py install 在Linux操作系统下,上述方法也是可行的 。此外,很多Linux发行版的软件源中都有Python常见的库,因此还可以通过Linux系统自带的软件管理器安装,如在Ubuntu下可以用如下命令安装:
sudo apt-get install python-numpy 安装完成后,可以使用NumPy对数据进行操作,如代码清单2-27所示 。
  • 代码清单2-27 使用NumPy操作数组
# -*- coding: utf-8 -* import numpy as np                     # 一般以np作为NumPy库的别名 a = np.array([2, 0, 1, 5])             # 创建数组 print(a)                               # 输出数组 print(a[:3])                           # 引用前三个数字(切片) print(a.min())                         # 输出a的最小值 a.sort()                               # 将a的元素从小到大排序,此操作直接修改a,因此这时候a为[0, 1, 2, 5] b= np.array([[1, 2, 3], [4, 5, 6]])    # 创建二维数组 print(b*b)                             # 输出数组的平方阵,即[[1, 4, 9], [16, 25, 36]] 

推荐阅读