数据操作基础库 numpy 一

## 基本操作

numpy：数据分析和机器学习的底层库，完全由C语言实现，用于高效的操作数据。而且是开源的，经过了很多大牛的完善。

numpy.ndarray(numpy数组)：由实际数据和元数据组成，实际数据必须是数据类型相同的数据集，元数据则是存储数据的维度和长度。
例如：a = [[2 3] [4 5] [6 7]] 的实际数据是2 3 4 5 6 7,元数据(a.shape)是(3,2),不加逗号是为了区分python列表与numpy数组。

**0、创建数组**
numpy.arange(起始,终止,步长)  生成一维数组
numpy.array(一般为列表或数组,dtype=对数据类型的描述) 根据列表或数组生成新数组，dtype可以省略

**1、numpy内部基本数据类型**
布尔型：bool_     
有符号整数：int8(-128~127)/int16/int32/int64
无符号整数：unint8(0-255)/uint16/uint32/uint64
浮点型：float16/float32/float64
复数型：complex64/complex128
字符串：str_ , 每个字符用32位(四个字节)Unicode编码表示

**2、自定义复合类型**
1)类型字符码
? --- bool_  
b --- int8   
B --- uint8   
i1/i2/i4/i8 --- 有符号整型   
u1/2/4/8 -- 无符号整型   
f2/4/8 --- 浮点   
c8/16 --- 复数   
U<字符数> --- 字符串   
M8 --- 日期时间   
O --- Python对象
2)类型字符串
<字节序><维度><类型字符码><字节数>
字节序：> 大端字节序  < 小端字节序 = 根据硬件自动选择
比如：a = numpy.array(['abcdef'], dtype='6U1')
      # [['a' 'b' 'c' 'd' 'e' 'f']]
更多示例见：[dtype.py](https://gitee.com/kanadeblisst/CSDN/blob/master/dtype.py)
疑问：能不能将['abcdef']解读成这个数组['ab' 'cd' 'ef']

**3、切片**
数组[起始:终止:步长,起始:终止:步长,...]
除了有多维切片外，基本和Python切片一样
补充： a[0][1][2] 同a[0,1,2]
示例：[slice.py](https://gitee.com/kanadeblisst/CSDN/blob/master/slice.py)

**4、变维**
1)视图变维
reshape()(重新设置维度)、ravel()(展平,将数组变为一维的)、
transpose((2,1,0))(转置)原数组为(0,1,2),也就是把0,2轴数据对调
视图：返回一个具有新维度的新数组对象，数据还是原数组的数据，当原数组数据变化时，新数组数据也会变化
2)复制变维
flatten(展平，复制数据形成新数组)     
3)就地变维
在原数组之上，改变维度
a.shape = 新维度
a.resize(...)
示例：[reshape.py](https://gitee.com/kanadeblisst/CSDN/blob/master/reshape.py)

**5、np.ndarray的属性**
dtype 元素类型    
shape 数组维度
T 转置视图   
size 元素个数
ndim 数组维数   
itemsize 每个元素字节数
nbytes 数组总字节数 
real 实部数组 
imag 虚部数组 如果是整数或浮点数数组，则全为0，字符串数组则全为''
flat 扁平迭代器（展平后的迭代器）
tolist()  数组转列表
a1 = np.append(a, i)  向a中添加i并返回结果给a1


## 一、创建数组

**1.arange**
```
a = numpy.arange(0, 16)
# 生成0-16的数组
b = numpy.arange(0, 16).reshape(4, 4)
# 生成一个4x4的数组，数据为a的数据
a.shape = (2, 2, 2, 2)
# 修改a的维度为(2,2,2,2)
a.shape = (2,-1,2,2)
# -1表示自动计算该维度
a.resize = (4, 4)
# 修改a的维度为(4,4)
```
**2、array和asarray**
```
a = numpy.array([1,2,3,4])
b = numpy.array([1,2,3,4], dtype=numpy.float32)
c = numpy.array([[1, 2], [3, 4]])
d = numpy.array(numpy.arange(1,11))
e = numpy.array([numpy.arange(1,5), numpy.arange(11, 15)])
```
asarray用法同array，不过asarray接受的参数是numpy数组时，并不会拷贝一份，array则会拷贝，所以看实际需求吧。

**3、linspace和logspace**
1)numpy.linspace(start, stop, num=50, endpoint=True, retstep=False, dtype=None)
功能：生成一个num个数的等差数列(数组)，起始值为start，终止值为stop
endpoint：是否包含stop
retstep：为True时生成(ndarray, 间距)的元组,间距也就是数学上的公差
2)numpy.logspace(start, stop, num=50, endpoint=True, base=10.0, dtype=None)
功能：生成一个num个数的等比数列(数组)。起始值为base ** start，终止值为base ** stop。
示例：[llspace.py](https://gitee.com/kanadeblisst/CSDN/blob/master/llspace.py)

**4、empty、ones和zeros**
numpy.empty(shape, dtype = float, order = 'C')
功能： 生成一个维度为shape的空数组，不过因为是C语言写的，未被赋值的变量会是垃圾值。
numpy.zeros(shape, dtype = float, order = 'C')
功能： 生成一个维度为shape，值全为0的数组。
numpy.ones(shape, dtype = None, order = 'C')
功能： 生成一个维度为shape，值全为1的数组

**拓展：高级索引**
1)a[一维行索引列表或数组, 一维列索引列表或数组]
例如：

```
a = np.array([[1,  2],  [3,  4],  [5,  6]]) 
b = a[[0, 1, 2],  [0, 1, 0]] 
# 相对于b是由a[0, 0]、a[1, 1]、a[2, 0]组成的新数组，即[1 4 5]
```

2)a[多维行索引列表或数组, 多维列索引列表或数组]
例如：
```
a = np.array([[  0,  1,  2],[  3,  4,  5],[  6,  7,  8],[  9,  10,  11]]) 
b = a[np.array([0, 0, 3 3]), np.array([0, 2, 0, 2])]
会得到[0 2 9 11]
b = a[np.array([[0, 0], [3 3]]), np.array([[0, 2], [0, 2]])]
```

则会得到[[0 2] [9 11]],数据并没有变，只是结果的维度变化了。
3)布尔索引

```
b = [False, True, True]
a = numpy.array([1, 2, 3])
c = a[b]
```
你猜结果是啥

4)花式索引
a为一维数组，索引也为一维数组
```
a = numpy.arange(15)
b = a[range(5)]  # [0 1 2 3 4]
c = a[[-1,-2,-3,-4]]  # [14 13 12 11]
```
那么当a为二维数组，而索引只给一个一维数组，会得到什么？
```
a = numpy.arange(15).reshape(5, 3)
b = a[[-3,-1,-2]]
```

再高级一点，请看：
```
a = numpy.arange(15).reshape(5, 3)
b = a[numpy.ix_([1,3,3],[2,0,1])]
c = a[[1,3,3]][:,[2,0,1]]
```

这个索引的意思是先取a[[1,3,3]]得到a的第一行和两个第三行的数组，然后分别对每一行取[2,0,1]这个索引。
numpy.ix_函数将[1,3,3],[2,0,1]打包成一个这样([[1] [3] [3]], [[2 0 1]])的元组。也就是它的作用只是让你代码显得容易理解，否则写一个a[([[1] [3] [3]], [[2 0 1]])]谁知道结果是什么。当然你非要这样写也行，和写numpy.ix_一样。写成c的形式也比较容易理解。

个人理解： 如果可以不用花式索引，最好别用。因为花式索引并不是像切片和索引一样的视图，而是复制了一份新的数据。

## 二、数组操作

**1、基本操作(数组维度完全相同)**
```
a = numpy.arange(1, 11)
b = numpy.arange(11,21)
c = a + b
d = b - a
e = a * b # 和矩阵的操作不同，数组间的乘法只是对应元素相乘。
f = b / a
g = b // a
h = a > 5
j = a[a>5]   # 布尔索引的应用
k = a @ b  # 矩阵乘法，同A.dot(B)
```

**2、numpy广播（数组维度不同，但有限制）**
专业解释：广播的原则，如果两个数组的后缘维度（trailing dimension，即从末尾开始算起的维度）的轴长度相符，或其中的一方的长度为1，则认为它们是广播兼容的。广播会在缺失和（或）长度为1的维度上进行。

大概意思是：维度为(4,3,2)的数组是可以和维度为(3,2)的数组进行操作的，当然和(3,1)和(1,2)也是可以的。

```
a = numpy.arange(1, 25).reshape(4,3,2)
b = numpy.arange(1, 7).reshape(3,2)
print('a: ', a)
print('b: ', b)
print(a + b)
```




#

##

Numpy 基础笔记

[图片] numpy 概述 Numerical Python，数值的 Python，补充了 Python 语言所欠缺的数值计算能力。 Numpy 是其数据分析及机器学习库的底层库。 Numpy 完全标准 C 语言实现，运行效率充分优化。 Numpy 开源免费。 numpy 历史 1995 年，Numeric，Pytho ..

ApacheCN 数据科学译文集 20210313 更新

新增了五个教程： [链接] [链接] [链接] [链接] [链接] [链接] [链接] 一、入门二、统计和概率回顾和 Python 实践三、Matplotlib 和高级概率概念四、预测模型五、Python 机器学习六、推荐系统七、更多数据挖掘和机器学习技术八、处理真实数据九、Apache Spark-大 ..

Python 数据科学 (1)——NumPy(4.Arrays 数据结构化）

[图片] 在 numpy 中，提供了基本的数据类型，如 int64、str。显然，基本数据类型是不能解决复杂的业务问题的，大多数情况下，我们使用的都是自定义的结构化数据。例如，描述一个人，用 str 存储其名字，int64 存储其地址等等。如果是一个公司，有很多员工，每一个属性将有大量的值。我们可以把这些值独立地存储在 ..

Python 数据科学 (1)——NumPy(3.Arrays 逻辑篇)

[图片] 比较和排序我们知道，在算法中，排序总是离不开比较的，那么在 numpy 中是否也是如此呢？让我们来看看。比较、掩码和布尔逻辑比较 In [1]: import numpy as np In [2]: a = np.array([3,4,5]) In [3]: a < 4 Out[3]: array ..

Python 数据科学 (1)——NumPy(2.Arrays 操作篇)

[图片] 本文主要讲述 NumPy 中 Arrays 的操作，包括基础属性操作（索引、切片、连接等）；基本计算（计算和广播概念）；聚合计算（最大值、均值等）。这和 Python 中基础数组的操作差不多，但还是有必要进行了解学习，因为很多 Pandas 库里工具都是围绕 NumPy 进行构建的。 Arrays 基础操作 ..

Python 数据科学 (1)——NumPy(1.Arrays 基础篇)

[图片] Python 数据科学中有两个很重要的扩展程序库，numpy 和 pandas。本文将首先介绍 numpy 的基本使用，本文假设你已经具有了一定的 python 基础，故而不会特别介绍 python 的语法。 NumPy(Numerical Python) 是 Python 语言的一个扩展程序库，支持大量的维 ..

python ：invalid value encountered in true_divide。（除法遇到无效值）

假设有这样一个需求（不是假设，是真的）：给出历年的预算费用，求增长率。为方便后续计算，用 matrix 矩阵实现。 # 历史数据 his=matrix([[30000., 20000., 10000., 1000.], [ 0., 0., 0., 9000.], [ 0., 0., 10000., 0.], [ 0 ..

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

关于

数据操作基础库 numpy 一

相关帖子

Numpy 基础笔记

ApacheCN 数据科学译文集 20210313 更新

Python 数据科学 (1)——NumPy(4.Arrays 数据结构化）

Python 数据科学 (1)——NumPy(3.Arrays 逻辑篇)

Python 数据科学 (1)——NumPy(2.Arrays 操作篇)

Python 数据科学 (1)——NumPy(1.Arrays 基础篇)

python ：invalid value encountered in true_divide。（除法遇到无效值）

欢迎来到这里！

近期热议

推荐标签标签

组织简介

用爱发电组织的核心驱动力：

最新标签

数据操作基础库 numpy 一

相关帖子

Numpy 基础笔记

ApacheCN 数据科学译文集 20210313 更新

Python 数据科学 (1)——NumPy(4.Arrays 数据结构化）

Python 数据科学 (1)——NumPy(3.Arrays 逻辑篇)

Python 数据科学 (1)——NumPy(2.Arrays 操作篇)

Python 数据科学 (1)——NumPy(1.Arrays 基础篇)

python ：invalid value encountered in true_divide。（除法遇到无效值）

欢迎来到这里！

近期热议

推荐标签 标签

组织简介

用爱发电组织的核心驱动力：

最新标签

推荐标签标签