Python 数据科学 (1)——NumPy(4.Arrays 数据结构化）

在 numpy 中，提供了基本的数据类型，如 int64、str。显然，基本数据类型是不能解决复杂的业务问题的，大多数情况下，我们使用的都是自定义的结构化数据。例如，描述一个人，用 str 存储其名字，int64 存储其地址等等。如果是一个公司，有很多员工，每一个属性将有大量的值。我们可以把这些值独立地存储在不同的 Arrays 中，用 numpy 仍然可以进行计算，但却把相关性给丢弃了，这显然得不偿失。我们需要呼唤更高级的数据结构。

类似于定义 np.zeros(4, dtype=int) 基本数据类型，我们可以在矩阵中定义复合类型：

In [3]: data = np.zeros(4, dtype={'names':('name', 'age', 'weight'),
   ...:                           'formats':('U10', 'i4', 'f8')})
In [4]: data
Out[4]:
array([('', 0,  0.), ('', 0,  0.), ('', 0,  0.), ('', 0,  0.)],
      dtype=[('name', '<U10'), ('age', '<i4'), ('weight', '<f8')])

紧接着，把数据导入到定义好的结构中

In [5]: name = ['Alice', 'Bob', 'Cathy', 'Doug']
   ...: age = [25, 45, 37, 19]
   ...: weight = [55.0, 85.5, 68.0, 61.5]

In [6]: data['name'] = name
   ...: data['age'] = age
   ...: data['weight'] = weight

作为结果，我们可以观察到 data 中存储了结构化的数据

In [7]: data
Out[7]:
array([('Alice', 25,  55. ), ('Bob', 45,  85.5), ('Cathy', 37,  68. ),
       ('Doug', 19,  61.5)],
      dtype=[('name', '<U10'), ('age', '<i4'), ('weight', '<f8')])

这方便了我们对数据的操作

In [8]: data['name']
Out[8]:
array(['Alice', 'Bob', 'Cathy', 'Doug'],
      dtype='<U10')

In [9]: data[0]
Out[9]: ('Alice', 25,  55.)

In [10]: data[-1]['name']
Out[10]: 'Doug'

创建结构化矩阵

使用字典

In [11]: np.dtype({'names':('name', 'age', 'weight'),
    ...:           'formats':('U10', 'i4', 'f8')})
Out[11]: dtype([('name', '<U10'), ('age', '<i4'), ('weight', '<f8')])

或者，为了清晰，使用 numpy 的指定类型

np.dtype({'names':('name', 'age', 'weight'),
          'formats':((np.str_, 10), int, np.float32)})

使用元组

In [12]: np.dtype([('name', 'S10'), ('age', 'i4'), ('weight', 'f8')])
Out[12]: dtype([('name', 'S10'), ('age', '<i4'), ('weight', '<f8')])

如过名称不重要的话，直接使用类型定义

In [13]: np.dtype('S10,i4,f8')
Out[13]: dtype([('f0', 'S10'), ('f1', '<i4'), ('f2', '<f8')])

以下是类型简写表：

字符	描述	例
`'b'`	字节	`np.dtype('b')`
`'i'`	有符号整数	`np.dtype('i4') == np.int32`
`'u'`	无符号整数	`np.dtype('u1') == np.uint8`
`'f'`	浮点	`np.dtype('f8') == np.int64`
`'c'`	复数	`np.dtype('c16') == np.complex128`
`'S'`，`'a'`	字符串	`np.dtype('S5')`
`'U'`	Unicode 字符串	`np.dtype('U') == np.str_`
`'V'`	原始数据（无效）	`np.dtype('V') == np.void`

更高级的复合类型

使用嵌套，可以创建出更高级高级的数据类型：

In [14]: tp = np.dtype([('id', 'i8'), ('mat', 'f8', (3, 3))])
In [15]: np.zeros(1, dtype=tp)
Out[15]:
array([(0, [[ 0.,  0.,  0.], [ 0.,  0.,  0.], [ 0.,  0.,  0.]])],
      dtype=[('id', '<i8'), ('mat', '<f8', (3, 3))])

记录矩阵

回顾之前的数据结构物 data，如果要获取所有的 age，我们只能

In [16]: data['age']
Out[16]: array([25, 45, 37, 19], dtype=int32)

此外，我们可以使用类 recarray 来创建视图，这样就可以像访问属性一样访问字典数据：

In [17]: data_rec = data.view(np.recarray)
    ...: data_rec.age
Out[17]: array([25, 45, 37, 19], dtype=int32)

此外，我们还将获得额外的效率提升：

In [18]: %timeit data['age']
    ...: %timeit data_rec['age']
    ...: %timeit data_rec.age
138 ns ± 1.25 ns per loop (mean ± std. dev. of 7 runs, 10000000 loops each)
2.92 µs ± 35.7 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
3.72 µs ± 18 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)

迎接 pandas

对于处理结构化数据，pandas 包是一个更好的选择。

ApacheCN 数据科学译文集 20210313 更新

新增了五个教程： [链接] [链接] [链接] [链接] [链接] [链接] [链接] 一、入门二、统计和概率回顾和 Python 实践三、Matplotlib 和高级概率概念四、预测模型五、Python 机器学习六、推荐系统七、更多数据挖掘和机器学习技术八、处理真实数据九、Apache Spark-大 ..

ApacheCN Pandas 教程（译文）集

[链接] [链接] [链接] [链接] [链接] [链接] [链接] 六、索引对齐七、分组以进行汇总，过滤和转换八、将数据重组为整齐的表格九、组合 Pandas 对象十、时间序列分析十一、Pandas，Matplotlib 和 Seaborn 的可视化 Pandas 学习手册中文第二版零、前言一、Pand ..

Python 数据科学 (1)——NumPy(3.Arrays 逻辑篇)

[图片] 比较和排序我们知道，在算法中，排序总是离不开比较的，那么在 numpy 中是否也是如此呢？让我们来看看。比较、掩码和布尔逻辑比较 In [1]: import numpy as np In [2]: a = np.array([3,4,5]) In [3]: a < 4 Out[3]: array ..

Python 数据科学 (1)——NumPy(2.Arrays 操作篇)

[图片] 本文主要讲述 NumPy 中 Arrays 的操作，包括基础属性操作（索引、切片、连接等）；基本计算（计算和广播概念）；聚合计算（最大值、均值等）。这和 Python 中基础数组的操作差不多，但还是有必要进行了解学习，因为很多 Pandas 库里工具都是围绕 NumPy 进行构建的。 Arrays 基础操作 ..

Python 数据科学 (1)——NumPy(1.Arrays 基础篇)

[图片] Python 数据科学中有两个很重要的扩展程序库，numpy 和 pandas。本文将首先介绍 numpy 的基本使用，本文假设你已经具有了一定的 python 基础，故而不会特别介绍 python 的语法。 NumPy(Numerical Python) 是 Python 语言的一个扩展程序库，支持大量的维 ..

Numpy 基础笔记

[图片] numpy 概述 Numerical Python，数值的 Python，补充了 Python 语言所欠缺的数值计算能力。 Numpy 是其数据分析及机器学习库的底层库。 Numpy 完全标准 C 语言实现，运行效率充分优化。 Numpy 开源免费。 numpy 历史 1995 年，Numeric，Pytho ..

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

关于