8个常用python库从安装命令及应用程序( 三 )


▲图2-5 Matplotlib的作图效果展示
如果读者使用的是中文标签,就会发现中文标签无法正常显示,这是因为Matplotlib的默认字体是英文字体,解决方法是在作图之前手动指定默认字体为中文字体,如黑体(Sim-Hei),命令如下:
plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签 其次,保存作图图像时,负号有可能不能显示,对此可以通过以下代码解决:
plt.rcParams['axes.unicode_minus'] = False    # 解决保存图像是负号'-'显示为方块的问题 这里有一个小建议:有时间多去Matplotlib提供的“画廊”欣赏用它做出的漂亮图片,也许你就会慢慢爱上Matplotlib作图了 。
画廊网址:
【8个常用python库从安装命令及应用程序】***/gallery.html
参考链接:
***
***/python/2012/09/07/matplotlib-tutorial
04 pandaspandas是Python下最强大的数据分析和探索工具 。它包含高级的数据结构和精巧的工具,使得用户在Python中处理数据非常快速和简单 。
pandas建造在NumPy之上,它使得以NumPy为中心的应用使用起来更容易 。pandas的名称来自于面板数据(Panel Data)和Python数据分析(Data Analysis),它最初作为金融数据分析工具被开发,由AQR Capital Management于2008年4月开发问世,并于2009年底开源出来 。
pandas的功能非常强大,支持类似SQL的数据增、删、查、改,并且带有丰富的数据处理函数;支持时间序列分析功能;支持灵活处理缺失数据;等等 。事实上,单纯地用pandas这个工具就足以写一本书,读者可以阅读pandas的主要作者之一Wes Mc-Kinney写的《利用Python进行数据分析》来学习更详细的内容 。
1. 安装
pandas的安装相对来说比较容易一些,只要安装好NumPy之后,就可以直接安装了,通过pip install pandas命令或下载源码后通过python setup.py install命令安装均可 。
由于我们频繁用到读取和写入Excel,但默认的pandas还不能读写Excel文件,需要安装xlrd(读)度和xlwt(写)库才能支持Excel的读写 。为Python添加读取/写入Excel功能的命令如下:
pip install xlrd # 为Python添加读取Excel的功能 pip install xlwt # 为Python添加写入Excel的功能 2. 使用
在后面的章节中,我们会逐步展示pandas的强大功能,而在本节,我们先以简单的例子一睹为快 。
首先,pandas基本的数据结构是Series和DataFrame 。Series顾名思义就是序列,类似一维数组;DataFrame则相当于一张二维的表格,类似二维数组,它的每一列都是一个Series 。
为了定位Series中的元素,pandas提供了Index这一对象,每个Series都会带有一个对应的Index,用来标记不同的元素,Index的内容不一定是数字,也可以是字母、中文等,它类似于SQL中的主键 。
类似的,DataFrame相当于多个带有同样Index的Series的组合(本质是Series的容器),每个Series都带有一个唯一的表头,用来标识不同的Series 。pandas中常用操作的示例如代码清单2-30所示 。

  • 代码清单2-30 pandas中的常用操作
# -*- coding: utf-8 -*- import numpy as np import pandas as pd # 通常用pd作为pandas的别名 。s = pd.Series([1,2,3], index=['a', 'b', 'c']) # 创建一个序列s # 创建一个表 d = pd.DataFrame([[1, 2, 3], [4, 5, 6]], columns=['a', 'b', 'c']) d2 = pd.DataFrame(s) # 也可以用已有的序列来创建数据框 d.head() # 预览前5行数据 d.describe() # 数据基本统计量 # 读取文件,注意文件的存储路径不能带有中文,否则读取可能出错 。pd.read_excel('data.xls') # 读取Excel文件,创建DataFrame 。pd.read_csv('data.csv', encoding='utf-8') # 读取文本格式的数据,一般用encoding指定编码 。

推荐阅读