基本操作 numpy:数据分析和机器学习的底层库,完全由 C 语言实现,用于高效的操作数据。而且是开源的,经过了很多大牛的完善。 numpy.ndarray(numpy 数组):由实际数据和元数据组成,实际数据必须是数据类型相同的数据集,元数据则是存储数据的维度和长度。 例如:a = [[2 3] [4 5] [6 7 ..

数据操作基础库 numpy 一


基本操作

numpy:数据分析和机器学习的底层库,完全由 C 语言实现,用于高效的操作数据。而且是开源的,经过了很多大牛的完善。

numpy.ndarray(numpy 数组):由实际数据和元数据组成,实际数据必须是数据类型相同的数据集,元数据则是存储数据的维度和长度。
例如:a = [[2 3] [4 5] [6 7]] 的实际数据是 2 3 4 5 6 7, 元数据 (a.shape) 是 (3,2), 不加逗号是为了区分 python 列表与 numpy 数组。

0、创建数组
numpy.arange(起始, 终止, 步长) 生成一维数组
numpy.array(一般为列表或数组,dtype= 对数据类型的描述) 根据列表或数组生成新数组,dtype 可以省略

1、numpy 内部基本数据类型
布尔型:bool_
有符号整数:int8(-128~127)/int16/int32/int64
无符号整数:unint8(0-255)/uint16/uint32/uint64
浮点型:float16/float32/float64
复数型:complex64/complex128
字符串:str_ , 每个字符用 32 位 (四个字节)Unicode 编码表示

2、自定义复合类型
1) 类型字符码
? --- bool_
b --- int8
B --- uint8
i1/i2/i4/i8 --- 有符号整型
u1/2/4/8 -- 无符号整型
f2/4/8 --- 浮点
c8/16 --- 复数
U< 字符数 > --- 字符串
M8 --- 日期时间
O --- Python 对象
2) 类型字符串
< 字节序 >< 维度 >< 类型字符码 >< 字节数 >
字节序:> 大端字节序 < 小端字节序 = 根据硬件自动选择
比如:a = numpy.array(['abcdef'], dtype='6U1')
# [['a' 'b' 'c' 'd' 'e' 'f']]
更多示例见:dtype.py
疑问:能不能将 ['abcdef'] 解读成这个数组 ['ab' 'cd' 'ef']

3、切片
数组 [起始: 终止: 步长, 起始: 终止: 步长,...]
除了有多维切片外,基本和 Python 切片一样
补充: a[0][1][2] 同 a[0,1,2]
示例:slice.py

4、变维
1) 视图变维
reshape()(重新设置维度)、ravel()(展平, 将数组变为一维的)、
transpose((2,1,0))(转置) 原数组为 (0,1,2), 也就是把 0,2 轴数据对调
视图:返回一个具有新维度的新数组对象,数据还是原数组的数据,当原数组数据变化时,新数组数据也会变化
2) 复制变维
flatten(展平,复制数据形成新数组)
3) 就地变维
在原数组之上,改变维度
a.shape = 新维度
a.resize(...)
示例:reshape.py

5、np.ndarray 的属性
dtype 元素类型
shape 数组维度
T 转置视图
size 元素个数
ndim 数组维数
itemsize 每个元素字节数
nbytes 数组总字节数
real 实部数组
imag 虚部数组 如果是整数或浮点数数组,则全为 0,字符串数组则全为 ''
flat 扁平迭代器(展平后的迭代器)
tolist() 数组转列表
a1 = np.append(a, i) 向 a 中添加 i 并返回结果给 a1

一、创建数组

1.arange

a = numpy.arange(0, 16)
# 生成0-16的数组
b = numpy.arange(0, 16).reshape(4, 4)
# 生成一个4x4的数组,数据为a的数据
a.shape = (2, 2, 2, 2)
# 修改a的维度为(2,2,2,2)
a.shape = (2,-1,2,2)
# -1表示自动计算该维度
a.resize = (4, 4)
# 修改a的维度为(4,4)

2、array 和 asarray

a = numpy.array([1,2,3,4])
b = numpy.array([1,2,3,4], dtype=numpy.float32)
c = numpy.array([[1, 2], [3, 4]])
d = numpy.array(numpy.arange(1,11))
e = numpy.array([numpy.arange(1,5), numpy.arange(11, 15)])

asarray 用法同 array,不过 asarray 接受的参数是 numpy 数组时,并不会拷贝一份,array 则会拷贝,所以看实际需求吧。

3、linspace 和 logspace
1)numpy.linspace(start, stop, num=50, endpoint=True, retstep=False, dtype=None)
功能:生成一个 num 个数的等差数列 (数组),起始值为 start,终止值为 stop
endpoint:是否包含 stop
retstep:为 True 时生成 (ndarray, 间距) 的元组, 间距也就是数学上的公差
2)numpy.logspace(start, stop, num=50, endpoint=True, base=10.0, dtype=None)
功能:生成一个 num 个数的等比数列 (数组)。起始值为 base ** start,终止值为 base ** stop。
示例:llspace.py

4、empty、ones 和 zeros
numpy.empty(shape, dtype = float, order = 'C')
功能: 生成一个维度为 shape 的空数组,不过因为是 C 语言写的,未被赋值的变量会是垃圾值。
numpy.zeros(shape, dtype = float, order = 'C')
功能: 生成一个维度为 shape,值全为 0 的数组。
numpy.ones(shape, dtype = None, order = 'C')
功能: 生成一个维度为 shape,值全为 1 的数组

拓展:高级索引
1)a[ 一维行索引列表或数组, 一维列索引列表或数组]
例如:

a = np.array([[1,  2],  [3,  4],  [5,  6]]) 
b = a[[0, 1, 2],  [0, 1, 0]] 
# 相对于b是由a[0, 0]、a[1, 1]、a[2, 0]组成的新数组,即[1 4 5]

2)a[ 多维行索引列表或数组, 多维列索引列表或数组]
例如:

a = np.array([[  0,  1,  2],[  3,  4,  5],[  6,  7,  8],[  9,  10,  11]]) 
b = a[np.array([0, 0, 3 3]), np.array([0, 2, 0, 2])]
会得到[0 2 9 11]
b = a[np.array([[0, 0], [3 3]]), np.array([[0, 2], [0, 2]])]

则会得到 [[0 2] [9 11]], 数据并没有变,只是结果的维度变化了。
3) 布尔索引

b = [False, True, True]
a = numpy.array([1, 2, 3])
c = a[b]

你猜结果是啥

4) 花式索引
a 为一维数组,索引也为一维数组

a = numpy.arange(15)
b = a[range(5)]  # [0 1 2 3 4]
c = a[[-1,-2,-3,-4]]  # [14 13 12 11]

那么当 a 为二维数组,而索引只给一个一维数组,会得到什么?

a = numpy.arange(15).reshape(5, 3)
b = a[[-3,-1,-2]]

再高级一点,请看:

a = numpy.arange(15).reshape(5, 3)
b = a[numpy.ix_([1,3,3],[2,0,1])]
c = a[[1,3,3]][:,[2,0,1]]

这个索引的意思是先取 a[[1,3,3]] 得到 a 的第一行和两个第三行的数组,然后分别对每一行取 [2,0,1] 这个索引。
numpy.ix_ 函数将 [1,3,3],[2,0,1] 打包成一个这样 ([[1] [3] [3]], [[2 0 1]]) 的元组。也就是它的作用只是让你代码显得容易理解,否则写一个 a[([[1] [3] [3]], [[2 0 1]])] 谁知道结果是什么。当然你非要这样写也行,和写 numpy.ix_ 一样。写成 c 的形式也比较容易理解。

个人理解: 如果可以不用花式索引,最好别用。因为花式索引并不是像切片和索引一样的视图,而是复制了一份新的数据。

二、数组操作

1、基本操作 (数组维度完全相同)

a = numpy.arange(1, 11)
b = numpy.arange(11,21)
c = a + b
d = b - a
e = a * b # 和矩阵的操作不同,数组间的乘法只是对应元素相乘。
f = b / a
g = b // a
h = a > 5
j = a[a>5]   # 布尔索引的应用
k = a @ b  # 矩阵乘法,同A.dot(B)

2、numpy 广播(数组维度不同,但有限制)
专业解释:广播的原则,如果两个数组的后缘维度(trailing dimension,即从末尾开始算起的维度)的轴长度相符,或其中的一方的长度为 1,则认为它们是广播兼容的。广播会在缺失和(或)长度为 1 的维度上进行。

大概意思是:维度为 (4,3,2) 的数组是可以和维度为 (3,2) 的数组进行操作的,当然和 (3,1) 和 (1,2) 也是可以的。

a = numpy.arange(1, 25).reshape(4,3,2)
b = numpy.arange(1, 7).reshape(3,2)
print('a: ', a)
print('b: ', b)
print(a + b)

回帖   
请输入回帖内容...