Numpy
一,数据结构
数据类型: ndarray
import numpy
world_alchol = numpy.genfromtxt('world_alchol.txt',delimiter=',',dtype=str)
print(type(world_alchol))
print(world_alchol)
print(help(numpy.genfromtxt))
创建一维的数组:
vector = numpy.array([5,10,15,20])
创建二维的数组:
matrix = numpy.array([[5,10,15,20],[15,20,25,30]])
查看数据的结构:
vector.shape ------- (4,) 一行四列
matrix.shape ------- (2,4) 两行四列
在numpy.array中的数据类型是限定的,必须是一种数据结构;
数字,string,浮点数等等...
通过索引获取数组的值,行和列的开始都是0开始;
vector[2,] 的值是15;
matrix[1,2] 的值是25;
想取数组的某一列;
matrix[:,2] 的值是15 ,25
如果取两列的话;
matrix[:,0:2] 的值是:array([[ 5, 10],[15, 20]])
判断一个值是否在,返回值是bool类型;
vector == 10 ;返回:array([False, True, False, False])
matrix == 25;返回:array([[False, False, False, False], [False, False, True, False]])
把bool类型的值当成索引返回当前的值;
print(equal_to_ten) ----> [False True False False]
print(vector[equal_to_ten]) ----> [10] 当成索引返回数组中的值;
second_column_25 = (matrix[:,2] == 25
print(second_column_25) ----》 [False True] ; 有一行返回true ,说明这行有25的值;
print(matrix[second_column_25,:]) --》[[15 20 25 30]] 返回第二行数组; (second_column_25是行的索引)
二,矩阵常用操作;
b = np.arange(3)
print(b)
print(np.exp(b))
print(np.sqrt(b)) 根号
a = np.floor(10*np.random.random((3,4)))
print(a)
正常情况下向量a.shape查看数据的结构,但是矩阵可以用a.revel()把值给拉平了(变成列表)向量;
print(a.ravel())
a.shape也可以进行其他的组合,变化数组的结构;
a.shape = (6,2)
a.shape = (1,12)
a.T也可以进行转置(行和列变化);
a.reshape(3,-1) 可以变成3行,n列; -1 代表不要计算取多少列的值,a.reshape(3,-1)可以直接计算;
矩阵拼接:
np.hstack(a,b) 可以进行横向数据拼接;np.vstack(a,b) 可以进行横向数据拼接;
a = np.floor(10*np.random.random((2,2))) print(a)
b = np.floor(10*np.random.random((2,2))) print(b)
print(np.hstack(a,b)) ; print(np.vstack(a,b))
矩阵切分:
np.hsplit(a,3) 把a矩阵切横向分成3份;但是也可以传入元组进行指定切分np.hsplit(a,(3,4)) 把切的元素单独分出 ;
a.np.floor(10*np.random.random((2,12))) print(a)
print(np.hsplit(a,3)) ; print(np.hsplit(a,(3,4)))
np.vsplit(a,3) 把矩阵a纵向切分成3份;
不同复制操作对比:
(1) a = np.arange(12) ; b = a; print(bi is a) ; b.shape = 3,4 ; print(a.shape) ; print(a);print(b);
说明a和b的值是相等的;
(2) c = a.view() ; print(c is a); c.shape = 2,6 ; c[0,4] = 1234; print(a); print(id(a));print(id(c));
c是a的浅复制;c和a的id是并不相等的;他们公用了一套值;
(3) 即让他的id 不同,值也不同;
d = a.copy() --- 深复制 ; d is a ; d[0,0]=999 ; print(d) ; print(a) ;
数据索引
data = np.sin(np.arange(20)).reshape(5,4) ; print(data) ;
ind = data.argmax(axis=0) -- axis按列算; 哪个列是最大的值;print(ind)返回的是索引值;
data_max = data[ind. range(data.shape[1])] ;
print(data_max) ; 输出列最大值列表;
列扩展数据:
a = np.arange(0, 40, 10) ; print(a) ; b = np.tile(a , (3,5)) ; print(b)对列进行扩展;
对数组排序;
a = np.arrar([[4, 3, 5],[1, 2, 1]]) ; print(a) ; b = np.sort(a, axis=1) ; print(b) ;
a.sort(axis=1) ;print(a) ; a = np.array([4,3,1,2]) ; j = np.argsort(a) 求索引 ; print(j) ; print(a[j])