(AI Generated)NumPy速查指南：从入门到精通

2026-02-09

字数统计: 10.2k字 | 阅读时长≈ 46分

NumPy速查指南：从入门到精通

摘要

NumPy（Numerical Python）是Python科学计算生态系统的基石，提供了高性能的多维数组对象和丰富的数学函数库。本文作为一份全面的NumPy速查指南，系统性地介绍了NumPy的核心概念、常用操作和高级特性，每个部分都包含详细的说明、使用场景分析和实用注意事项。无论是数据科学、机器学习还是科学计算领域的研究人员和工程师，本文都能为您提供快速参考和深入指导。

1. 引言

简要说明：NumPy是Python中用于科学计算的基础包，几乎所有数据科学工具都构建于其上。它提供了高效的N维数组对象、复杂的广播功能以及整合低级语言代码的能力。

重要性评价：

性能优势：NumPy的数组操作在底层用C语言实现，比纯Python列表操作快10-100倍
内存效率：NumPy数组在内存中连续存储，相比Python列表节省大量内存
生态基础：Pandas、SciPy、Scikit-learn、TensorFlow等库都依赖NumPy

使用场景：

数值计算和数学运算
数据预处理和清洗
机器学习算法的实现
图像处理和多维数据操作
科学研究和工程计算

import numpy as np  # 行业标准导入方式

# 验证安装和版本
print(f"NumPy版本: {np.__version__}")
print(f"NumPy配置: {np.__config__.show()}")

注意事项:

始终使用import numpy as np约定，保证代码一致性
Numpy操作通常返回新数组，而非原地修改（除非特殊说明）
2. 数组创建
简要说明：NumPy提供了多种创建数组的方法，从简单的列表转换到复杂的特殊矩阵生成。
性能考量：
使用NumPy内置函数（如np.zeros()、np.ones()）比从Python列表转换更快
对于大型数组，使用np.empty()可以避免初始化开销，但要小心未初始化的值

2.1 基础创建方法

# 从Python列表/元组创建 - 最常用方法
list_data = [1, 2, 3, 4, 5]
tuple_data = (6, 7, 8, 9, 10)

arr_from_list = np.array(list_data)        # 一维数组
arr_from_tuple = np.array(tuple_data)      # 同样可以

# 创建二维数组
matrix = np.array([[1, 2, 3], [4, 5, 6]])
print(f"二维数组形状: {matrix.shape}")  # (2, 3)

# 指定数据类型 - 重要优化手段
arr_float32 = np.array([1, 2, 3], dtype=np.float32)  # 32位浮点数
arr_int16 = np.array([1, 2, 3], dtype=np.int16)      # 16位整数

使用场景：

np.array()：从已有Python数据创建数组
明确指定dtype可以减少内存使用并提高计算速度

2.2 特殊数组生成

# 生成全零数组 - 常用初始化方法
zeros_1d = np.zeros(5)                     # [0., 0., 0., 0., 0.]
zeros_2d = np.zeros((3, 4))                # 3行4列全零矩阵

# 生成全一数组 - 常用作初始值
ones_matrix = np.ones((2, 3))              # 2×3全一阵

# 生成空数组 - 不初始化值，最快但最危险
empty_arr = np.empty((2, 2))               # 值未定义，是内存中的随机值
print(f"空数组（随机值）:\n{empty_arr}")

# 生成单位矩阵 - 线性代数常用
identity = np.eye(3)                       # 3×3单位矩阵
print(f"单位矩阵:\n{identity}")

# 生成对角矩阵
diagonal = np.diag([1, 2, 3, 4])           # 对角线为1,2,3,4的对角矩阵

注意事项：

np.empty()返回的数组包含内存中的随机值，必须后续填充
np.zeros()和np.ones()默认创建float64类型数组

2.3 序列数组生成

# 等差数列 - 类似Python的range但更强大
arange_1 = np.arange(0, 10, 2)            # [0, 2, 4, 6, 8] - 不包括终点
arange_2 = np.arange(5)                   # [0, 1, 2, 3, 4] - 默认从0开始

# 等间距数列 - 控制点数而非步长
linspace = np.linspace(0, 1, 5)           # [0., 0.25, 0.5, 0.75, 1.]
logspace = np.logspace(0, 2, 5)           # 对数空间：[1., 3.16, 10., 31.62, 100.]

# 网格坐标生成 - 用于3D绘图和函数评估
x = np.linspace(-2, 2, 5)
y = np.linspace(-2, 2, 5)
X, Y = np.meshgrid(x, y)                  # 生成网格坐标
print(f"网格X坐标:\n{X}")

使用场景:

np.arange()：需要控制步长时使用
np.linspace()：需要精确控制点数时使用
np.meshgrid()：计算二维或三维函数时使用

2.4 随机数组生成

# 设置随机种子确保可重复性
np.random.seed(42)

# 均匀分布 [0, 1)
uniform_random = np.random.rand(3, 3)     # 3×3均匀分布随机矩阵

# 标准正态分布
normal_random = np.random.randn(1000)     # 1000个标准正态分布随机数

# 整数随机数
integers = np.random.randint(0, 100, 10)  # 10个[0,100)的随机整数

# 特定分布
poisson = np.random.poisson(5, 100)       # 泊松分布，λ=5
binomial = np.random.binomial(10, 0.5, 100)  # 二项分布，n=10, p=0.5

注意事项：

始终设置随机种子以确保结构可重复
注意不同分布的参数含义和范围
NumPy 1.17+推荐使用新的随机数生成器API

3. 数组属性和基本信息

简要说明：了解数组的属性和基本操作是有效使用NumPy的前提。这些属性提供了数组的元信息，对于调试和优化至关重要。

# 创建一个示例数组
arr = np.array([[1, 2, 3, 4], 
                [5, 6, 7, 8], 
                [9, 10, 11, 12]])

# 基本属性
print(f"数组维度: {arr.ndim}")           # 2 - 二维数组
print(f"数组形状: {arr.shape}")          # (3, 4) - 3行4列
print(f"元素总数: {arr.size}")           # 12 - 总元素个数
print(f"数据类型: {arr.dtype}")          # int64 - 64位整数
print(f"元素大小: {arr.itemsize}字节")    # 8 - 每个元素占8字节
print(f"数组大小: {arr.nbytes}字节")      # 96 - 总内存占用量

# 数组信息摘要
print(f"数组内存布局: {arr.flags}")
print(f"数组步长: {arr.strides}")        # (32, 8) - 行步长32字节，列步长8字节

重要概念：

形状(shape)：数组每个维度的大小，对于理解数组结构至关重要
数据类型(dtype)：决定内存使用和计算精度，选择合适的dtype是优化关键
步长(strides)：内存中从一个元素到下一个元素的字节数，影响操作性能

内存布局说明：

# C顺序（行优先）和F顺序（列优先）
c_arr = np.array([[1, 2], [3, 4]], order='C')  # 默认，行优先
f_arr = np.array([[1, 2], [3, 4]], order='F')  # 列优先，Fortran风格

print(f"C顺序步长: {c_arr.strides}")  # (16, 8) - 行优先
print(f"F顺序步长: {f_arr.strides}")  # (8, 16) - 列优先

性能提示：

对于行操作密集的任务，使用C顺序数组
对于列操作密集的任务，使用F顺序数组
使用arr.T（转置）不会复制数据，只是改变步长

4. 数组索引和切片

简要说明：NumPy提供了强大灵活的索引和切片功能，允许以各种方式访问和修改数组元素。理解这些机制对于高效数据操作至关重要

4.1 基础索引

arr = np.array([10, 20, 30, 40, 50, 60, 70, 80])

# 基础索引
print(arr[0])      # 10 - 第一个元素
print(arr[-1])     # 80 - 最后一个元素
print(arr[2:5])    # [30 40 50] - 切片（左闭右开）
print(arr[:3])     # [10 20 30] - 从头开始
print(arr[3:])     # [40 50 60 70 80] - 到末尾结束
print(arr[::2])    # [10 30 50 70] - 步长为2
print(arr[::-1])   # [80 70 60 50 40 30 20 10] - 反转数组

注意事项：

NumPy切片返回的视图而非副本，修改切片会影响原数组
这与Python列表的切片行为不同（列表切片返回副本）

4.2 多维数组索引

matrix = np.array([[1, 2, 3, 4],
                   [5, 6, 7, 8],
                   [9, 10, 11, 12]])

# 单元素访问
print(matrix[1, 2])      # 7 - 第1行第2列（0-based）
print(matrix[1][2])      # 7 - 等价写法，但效率稍低

# 行和列切片
print("第0行:", matrix[0, :])        # [1 2 3 4]
print("第2列:", matrix[:, 2])        # [3 7 11]
print("前两行:", matrix[:2, :])      # [[1 2 3 4] [5 6 7 8]]
print("中间两列:", matrix[:, 1:3])   # [[2 3] [6 7] [10 11]]

# 子矩阵提取
submatrix = matrix[1:, 2:]           # 提取右下角2×2子矩阵
print("子矩阵:\n", submatrix)       # [[7 8] [11 12]]

视图与副本的关键区别：

# 切片创建视图
arr = np.array([1, 2, 3, 4, 5])
view = arr[1:4]           # 创建视图
view[0] = 99              # 修改视图
print("原数组:", arr)     # [1, 99, 3, 4, 5] - 原数组也被修改！

# 需要副本时使用copy()
arr = np.array([1, 2, 3, 4, 5])
copy = arr[1:4].copy()    # 创建副本
copy[0] = 99              # 修改副本
print("原数组:", arr)     # [1, 2, 3, 4, 5] - 原数组不受影响

4.3 布尔索引

简要说明：使用布尔数组作为索引，可以基于条件选择元素。这是NumPy最强大的特征之一。

arr = np.array([3, 7, 1, 9, 5, 8, 2, 6])

# 基本布尔索引
mask = arr > 5
print("布尔掩码:", mask)           # [False  True False  True False  True False  True]
print("大于5的元素:", arr[mask])   # [7 9 8 6]

# 复合条件
print("大于3且小于8:", arr[(arr > 3) & (arr < 8)])  # [7 5 6]
print("小于3或大于7:", arr[(arr < 3) | (arr > 7)])  # [1 9 8 2]
print("不等于5:", arr[arr != 5])                    # 排除特定值

# 使用np.where
indices = np.where(arr > 5)
print("大于5的索引:", indices[0])   # [1 3 5 7]
print("对应值:", arr[indices])      # [7 9 8 6]

性能提示：

布尔索引通常比循环块得多
对于大型数组，考虑使用np.where()替代布尔索引提高性能

4.4 花式索引

简要说明：使用整数数组进行索引，可以实现复杂的元素选择。

arr = np.array([10, 20, 30, 40, 50, 60])

# 使用整数列表索引
indices = [0, 2, 4]
print(arr[indices])                     # [10 30 50]

# 使用整数数组索引
idx_array = np.array([1, 3, 5])
print(arr[idx_array])                   # [20 40 60]

# 多维花式索引
matrix = np.array([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9]])

# 选择特定行
print("第0行和第2行:\n", matrix[[0, 2]])
# [[1 2 3]
#  [7 8 9]]

# 选择特定行和列
print("(0,1), (1,2), (2,0):", matrix[[0, 1, 2], [1, 2, 0]])  # [2 6 7]

使用场景：

从数据集中选择非连续的子集
重新排序数组元素
实现查表功能

注意事项：

花式索引返回的是副本而非视图
与切片相比，花式索引的性能较差，特别是在选择大量元素时

5. 数组操作和变形

简要说明：NumPy提供了丰富的数组操作函数，可以改变数组的形状、连接数组、分割数组等

5.1 改变形状

arr = np.arange(12)  # [0, 1, 2, ..., 11]

# reshape - 改变形状（不复制数据）
reshaped = arr.reshape(3, 4)
print("3×4数组:\n", reshaped)
# [[ 0  1  2  3]
#  [ 4  5  6  7]
#  [ 8  9 10 11]]

# 自动推断维度
auto_reshaped = arr.reshape(3, -1)  # -1表示自动计算
print("自动推断形状:", auto_reshaped.shape)  # (3, 4)

# resize - 改变形状（可能复制数据）
arr_copy = arr.copy()
arr_copy.resize(2, 6)  # 原地操作，修改原数组
print("resize后:", arr_copy.shape)  # (2, 6)

# flatten和ravel - 展平数组
flattened = reshaped.flatten()  # 总是返回副本
raveled = reshaped.ravel()      # 尽可能返回视图
print("flatten:", flattened)
print("ravel:", raveled)

重要区别：

reshape()：返回视图，不改变原数组
resize()：原地修改数组，可能复制数据
flatten()：总是返回副本
ravel()：尽可能返回视图

5.2 转置和轴交换

matrix = np.array([[1, 2, 3],
                   [4, 5, 6]])

# 简单转置
transposed = matrix.T
print("转置矩阵:\n", transposed)
# [[1 4]
#  [2 5]
#  [3 6]]

# transpose函数（更通用）
transposed2 = np.transpose(matrix)
print("转置2:\n", transposed2)

# 高维数组的轴交换
arr_3d = np.arange(24).reshape(2, 3, 4)
print("原始形状:", arr_3d.shape)  # (2, 3, 4)

# 交换轴
swapped = np.transpose(arr_3d, (1, 0, 2))  # 交换轴0和轴1
print("交换后形状:", swapped.shape)  # (3, 2, 4)

# moveaxis - 移动轴到新位置
moved = np.moveaxis(arr_3d, 0, -1)  # 将第0轴移动到最后
print("移动轴后形状:", moved.shape)  # (3, 4, 2)

使用场景：

转置：线性代数运算、改变数据方向
轴交换：调整数据维度以适应不变通函数的要求

5.3 数组连接

a = np.array([[1, 2], [3, 4]])
b = np.array([[5, 6], [7, 8]])

# 垂直连接（增加行数）
vstacked = np.vstack((a, b))
print("垂直连接:\n", vstacked)
# [[1 2]
#  [3 4]
#  [5 6]
#  [7 8]]

# 水平连接（增加列数）
hstacked = np.hstack((a, b))
print("水平连接:\n", hstacked)
# [[1 2 5 6]
#  [3 4 7 8]]

# 深度连接（增加深度）
dstacked = np.dstack((a, b))
print("深度连接形状:", dstacked.shape)  # (2, 2, 2)

# concatenate - 通用连接函数
concat_axis0 = np.concatenate((a, b), axis=0)  # 沿轴0连接，同vstack
concat_axis1 = np.concatenate((a, b), axis=1)  # 沿轴1连接，同hstack

注意事项：

连接数组时，出了连接轴外的其他维度必须匹配
对于大型数组，连接操作可能设计数据复制，注意性能

5.4 数组分割

arr = np.arange(12).reshape(3, 4)
print("原始数组:\n", arr)

# 水平分割（按列）
hsplit_result = np.hsplit(arr, 2)  # 分成2个数组
print("水平分割结果:")
for i, part in enumerate(hsplit_result):
    print(f"部分{i}:\n{part}")

# 垂直分割（按行）
vsplit_result = np.vsplit(arr, 3)  # 分成3个数组
print("垂直分割结果:")
for i, part in enumerate(vsplit_result):
    print(f"部分{i}:\n{part}")

# split - 通用分割函数
# 等量分割
split_equal = np.split(arr, 3, axis=0)  # 沿轴0等分成3份

# 不等量分割
split_unequal = np.split(arr, [1, 3], axis=1)  # 在第1列和第3列处分割
print("不等量分割:")
for i, part in enumerate(split_unequal):
    print(f"部分{i}形状: {part.shape}")

性能提示：

分割操作通常返回视图而非副本
对于大型数组，避免频繁分割和重新连接

6. 数组运算

简要说明：NumPy提供了丰富的数学运算函数，支持逐元素运算、矩阵运算和统计运算等。

6.1 算数运算

a = np.array([1, 2, 3, 4])
b = np.array([5, 6, 7, 8])

# 基本算术运算（逐元素）
print("加法:", a + b)        # [6, 8, 10, 12]
print("减法:", a - b)        # [-4, -4, -4, -4]
print("乘法:", a * b)        # [5, 12, 21, 32] - 逐元素乘，不是矩阵乘！
print("除法:", b / a)        # [5., 3., 2.333..., 2.]
print("整数除法:", b // a)    # [5, 3, 2, 2]
print("幂运算:", a ** 2)     # [1, 4, 9, 16]
print("取余:", b % a)        # [0, 0, 1, 0]

# 原地运算（节省内存）
a += b  # 等价于 a = a + b，但原地操作
print("原地加法后:", a)

重要区别：

*运算符执行逐元素乘法而不是矩阵乘法
矩阵乘法使用@运算付或np.dot()

6.2 矩阵运算

A = np.array([[1, 2], [3, 4]])
B = np.array([[5, 6], [7, 8]])

# 矩阵乘法
matrix_product = A @ B  # Python 3.5+推荐
matrix_product2 = np.dot(A, B)  # 传统方法
print("矩阵乘法结果:\n", matrix_product)
# [[19 22]
#  [43 50]]

# 内积和点积
v1 = np.array([1, 2, 3])
v2 = np.array([4, 5, 6])
print("点积:", np.dot(v1, v2))      # 32
print("内积:", np.inner(v1, v2))    # 32
print("外积:\n", np.outer(v1, v2))
# [[ 4  5  6]
#  [ 8 10 12]
#  [12 15 18]]

# 克罗内克积
kron = np.kron(A, B)
print("克罗内克积形状:", kron.shape)  # (4, 4)

6.3 统计运算

简要说明：NumPy提供了丰富的统计函数，可以计算数组的各种统计量。

data = np.array([[1, 2, 3], 
                 [4, 5, 6], 
                 [7, 8, 9]])

# 基本统计量
print("总和:", np.sum(data))            # 45
print("平均值:", np.mean(data))         # 5.0
print("标准差:", np.std(data))          # 2.581...
print("方差:", np.var(data))            # 6.666...
print("最小值:", np.min(data))          # 1
print("最大值:", np.max(data))          # 9
print("中位数:", np.median(data))       # 5.0

# 沿特定轴计算
print("每列总和:", np.sum(data, axis=0))    # [12 15 18]
print("每行平均值:", np.mean(data, axis=1)) # [2. 5. 8.]

# 累积运算
print("累积和:", np.cumsum(data))      # [1, 3, 6, 10, 15, 21, 28, 36, 45]
print("累积积:", np.cumprod(data))     # [1, 2, 6, 24, 120, 720, 5040, 40320, 362880]

# 分位数
print("25%分位数:", np.percentile(data, 25))  # 3.5
print("75%分位数:", np.percentile(data, 75))  # 6.5

性能提示：

对于大型数组，指定axis参数可以显著提供性能
使用np.nanmean()，np.nanstd()等函数可以忽略NaN值

6.4 逻辑运算和比较

a = np.array([1, 2, 3, 4, 5])
b = np.array([5, 4, 3, 2, 1])

# 比较运算
print("等于:", a == b)          # [False False True False False]
print("不等于:", a != b)        # [True True False True True]
print("大于:", a > b)           # [False False False True True]
print("大于等于:", a >= b)      # [False False True True True]

# 逻辑运算
condition1 = a > 2
condition2 = b < 4
print("逻辑与:", condition1 & condition2)  # [False False True False False]
print("逻辑或:", condition1 | condition2)  # [False True True True True]
print("逻辑非:", ~condition1)             # [True True False False False]

# 判断函数
print("所有元素都大于0:", np.all(a > 0))   # True
print("有元素大于4:", np.any(a > 4))       # True
print("非零元素数量:", np.count_nonzero(a)) # 5

注意事项：

使用&，|，~进行逻辑运算，而不是and，or，not
这些逻辑运算符的优先级与Python的不同，建议使用括号

7. 广播机制

简要说明：广播是NumPy中处理不同形状数组进行算术运算的机制。它允许NumPy在执行元素级操作时扩展较小的数组。

广播规则：

如果两个数组的维度数不同，将维度较小的数组的形状前面补1
如果两个数组在某个维度上的大小不同，且其中一个为1，则该维度扩展以匹配另一个
如果两个数组在某个维度上的大小不同且都不为1，则广播失败

# 示例1：标量与数组
arr = np.array([1, 2, 3])
result = arr + 5  # 标量5被广播为[5, 5, 5]
print("标量广播:", result)  # [6, 7, 8]

# 示例2：列向量与行向量
col = np.array([[1], [2], [3]])   # 形状(3, 1)
row = np.array([4, 5, 6])         # 形状(3,)
result = col + row                # 广播为(3, 3)
print("列向量与行向量广播:\n", result)
# [[5 6 7]
#  [6 7 8]
#  [7 8 9]]

# 示例3：复杂广播
A = np.ones((2, 3, 4))   # 形状(2, 3, 4)
B = np.ones((3, 4))      # 形状(3, 4)
result = A + B           # B广播为(1, 3, 4)，然后为(2, 3, 4)
print("复杂广播后形状:", result.shape)  # (2, 3, 4)

使用场景：

数组与标量的运算
不同形状数组的逐元素运算
标准化数据（如减去均值，除以标准差）

注意事项：

广播不会实际复制数据，只是虚拟扩展，因此非常高效
但错误的广播可能导致意外的结果，需要仔细检查形状
使用np.newaxis或None可以增加维度以支持广播

# 显式增加维度
arr = np.array([1, 2, 3])
col_vector = arr[:, np.newaxis]  # 形状(3, 1)
row_vector = arr[np.newaxis, :]  # 形状(1, 3)
print("列向量形状:", col_vector.shape)
print("行向量形状:", row_vector.shape)

性能评价：

广播避免了显式复制数据，非常内存高效
但过度或不正确的广播可能导致性能下降
在可能的情况下，尽量使用形状匹配的数组

8. 线性代数

简要说明：NumPy提供了丰富的线性代数函数，通过np.linalg模块访问。这些函数支持矩阵分解、求逆、特征值计算等高级操作

8.1 基本线性代数操作

A = np.array([[1, 2], [3, 4]])
B = np.array([[5, 6], [7, 8]])

# 矩阵乘法
print("矩阵乘法:\n", A @ B)

# 矩阵求逆
A_inv = np.linalg.inv(A)
print("逆矩阵:\n", A_inv)
print("验证A×A⁻¹:\n", A @ A_inv)  # 应接近单位矩阵

# 行列式
det = np.linalg.det(A)
print("行列式:", det)

# 矩阵的迹
trace = np.trace(A)
print("迹:", trace)

# 解线性方程组
# 解 Ax = b
b = np.array([5, 11])
x = np.linalg.solve(A, b)
print("方程解:", x)  # [1., 2.]
print("验证:", A @ x)  # 应接近[5., 11.]

8.2 矩阵分解

# 特征分解
A = np.array([[4, 2], [2, 4]])
eigenvalues, eigenvectors = np.linalg.eig(A)
print("特征值:", eigenvalues)
print("特征向量:\n", eigenvectors)

# 验证特征分解
# A·v = λ·v
for i in range(len(eigenvalues)):
    v = eigenvectors[:, i]
    λ = eigenvalues[i]
    print(f"验证特征向量{i}: {np.allclose(A @ v, λ * v)}")

# 奇异值分解(SVD)
U, S, Vh = np.linalg.svd(A)
print("U矩阵:\n", U)
print("奇异值:", S)
print("Vh矩阵:\n", Vh)

# QR分解
Q, R = np.linalg.qr(A)
print("Q矩阵（正交）:\n", Q)
print("R矩阵（上三角）:\n", R)
print("验证QR=A:", np.allclose(Q @ R, A))

# Cholesky分解（正定矩阵）
A_posdef = np.array([[4, 2], [2, 5]])
L = np.linalg.cholesky(A_posdef)
print("Cholesky分解L:\n", L)
print("验证L·Lᵀ=A:", np.allclose(L @ L.T, A_posdef))

8.3 矩阵范数和条件数

A = np.array([[1, 2], [3, 4]])

# 矩阵范数
print("Frobenius范数:", np.linalg.norm(A, 'fro'))
print("2-范数（谱范数）:", np.linalg.norm(A, 2))
print("1-范数:", np.linalg.norm(A, 1))
print("∞-范数:", np.linalg.norm(A, np.inf))

# 条件数（衡量矩阵求逆的稳定性）
cond = np.linalg.cond(A)
print("条件数:", cond)  # 值越大，矩阵越接近奇异

使用场景：

特征分解：主成分分析(PCA)、振动分析
SVD：推荐系统、图像压缩
QR分解：最小二乘问题
Cholesky分解：优化问题、蒙特卡洛模拟

注意事项：

不是所有矩阵都可逆，求逆前检查条件数
对于大型稀疏矩阵，使用SciPy的稀疏线性代数模块
特征值和特征向量可能是复数

9. 随机数生成

简要说明：NumPy提供了全面的随机数生成功能。从NumPy 1.17开始，推荐使用新的随机数生成器API

9.1 基础随机数生成

# 创建随机数生成器实例（推荐方式）
rng = np.random.default_rng(seed=42)

# 均匀分布
uniform = rng.uniform(0, 1, 10)  # 10个[0,1)的均匀分布随机数
print("均匀分布:", uniform[:5])

# 正态分布
normal = rng.normal(0, 1, 1000)  # 均值为0，标准差为1
print("正态分布均值:", np.mean(normal))
print("正态分布标准差:", np.std(normal))

# 整数随机数
integers = rng.integers(0, 100, 20)  # 20个[0,100)的随机整数
print("随机整数:", integers[:5])

# 从给定列表选择
choices = rng.choice(['A', 'B', 'C', 'D'], size=10, p=[0.1, 0.2, 0.3, 0.4])
print("加权随机选择:", choices)

9.2 特定分布

rng = np.random.default_rng(42)

# 二项分布
binomial = rng.binomial(10, 0.5, 1000)  # n=10, p=0.5
print("二项分布均值:", np.mean(binomial), "期望:", 10*0.5)

# 泊松分布
poisson = rng.poisson(5, 1000)  # λ=5
print("泊松分布均值:", np.mean(poisson))

# 指数分布
exponential = rng.exponential(scale=1.0, size=1000)
print("指数分布均值:", np.mean(exponential))

# 贝塔分布
beta = rng.beta(2, 5, 1000)  # α=2, β=5
print("贝塔分布均值:", np.mean(beta))

# 伽马分布
gamma = rng.gamma(shape=2, scale=2, size=1000)
print("伽马分布均值:", np.mean(gamma))

9.3 随机抽样和排列

data = np.arange(10)
rng = np.random.default_rng(42)

# 随机排列（返回新数组）
shuffled = rng.permutation(data)
print("随机排列:", shuffled)

# 打乱数组（原地）
data_copy = data.copy()
rng.shuffle(data_copy)
print("打乱后:", data_copy)

# 随机抽样
sample_without_replacement = rng.choice(data, size=5, replace=False)
print("无放回抽样:", sample_without_replacement)

sample_with_replacement = rng.choice(data, size=15, replace=True)
print("有放回抽样:", sample_with_replacement)

最佳实践：
1.总是设置随机种子以确保结果可重复
2.使用np.random.default_rng()而非旧的np.random.*函数
3.对于加密安全的应用，使用专门的加密安全随机数生成器

性能提示：

一次生成大量随机数比多次生成少量随机数更高效
对于蒙特卡洛模拟，考虑使用向量化操作

10. 输入输出操作

简要说明：NumPy提供了多种保存和加载数组的方法，支持文本格式和二进制格式

10.1 文本文件操作

# 创建示例数据
data = np.array([[1.0, 2.0, 3.0],
                 [4.0, 5.0, 6.0],
                 [7.0, 8.0, 9.0]])

# 保存为文本文件
np.savetxt('data.csv', data, delimiter=',', fmt='%.2f', header='x,y,z')

# 加载文本文件
loaded = np.loadtxt('data.csv', delimiter=',')
print("从CSV加载:\n", loaded)

# 处理带有缺失值的文件
# genfromtxt可以处理缺失值
data_with_nan = "1,2,3\n4,,6\n7,8,9"
loaded_nan = np.genfromtxt(data_with_nan.splitlines(), delimiter=',', 
                           filling_values=0)
print("处理缺失值:\n", loaded_nan)

10.2 二进制文件操作

# 保存单个数组为.npy格式
np.save('data.npy', data)

# 加载.npy文件
loaded_npy = np.load('data.npy')
print(".npy文件加载:\n", loaded_npy)

# 保存多个数组为.npz格式
np.savez('multi_data.npz', array1=data, array2=data*2)

# 加载.npz文件
loaded_npz = np.load('multi_data.npz')
print("数组1:\n", loaded_npz['array1'])
print("数组2:\n", loaded_npz['array2'])

# 保存为压缩格式
np.savez_compressed('compressed_data.npz', big_array=np.random.randn(1000, 1000))

最佳实践：

对于NumPy内部使用，优先使用.npy/.npz格式
与其他软件交换数据，使用CSV或其他通用格式
大型数据集使用压缩格式节省空间

10.3 内存映射文件

# 创建内存映射文件（处理超大数组）
# 创建一个10GB的虚拟数组，但不立即加载到内存
shape = (10000, 10000)  # 10,000×10,000数组
dtype = np.float32
filename = 'large_array.dat'

# 创建内存映射
mmap_arr = np.memmap(filename, dtype=dtype, mode='w+', shape=shape)

# 像普通数组一样操作（数据自动写入文件）
mmap_arr[:1000, :1000] = np.random.randn(1000, 1000)

# 删除对象，确保数据写入文件
del mmap_arr

# 重新打开为只读
mmap_readonly = np.memmap(filename, dtype=dtype, mode='r', shape=shape)
print("内存映射数组形状:", mmap_readonly.shape)

使用场景：

处理大于内存的数据集
多个进程共享数据
需要持久化的大型中间结果

11. 高级特性和技巧

11.1 结构化数组

# 定义数据类型
dtype = [('name', 'U10'),  # Unicode字符串，最大长度10
         ('age', 'i4'),     # 32位整数
         ('height', 'f4'),  # 32位浮点数
         ('weight', 'f4')]

# 创建结构化数组
people = np.array([('Alice', 25, 1.65, 58.5),
                   ('Bob', 30, 1.80, 75.2),
                   ('Charlie', 35, 1.75, 70.1)], dtype=dtype)

print("结构化数组:", people)
print("姓名字段:", people['name'])
print("平均年龄:", np.mean(people['age']))

# 条件选择
tall_people = people[people['height'] > 1.70]
print("身高>1.70的人:", tall_people['name'])

# 按字段排序
sorted_by_age = np.sort(people, order='age')
print("按年龄排序:", sorted_by_age)

使用场景：

处理表格数据（类似Pandas DataFrame）
处理异构数据
与结构化数据文件（如HDF5）交互

11.2 掩码数组

import numpy.ma as ma

# 创建带有无效值的数据
data = np.array([1, 2, 3, -999, 5, -999, 7])
print("原始数据:", data)

# 创建掩码数组
masked_data = ma.masked_values(data, -999)
print("掩码数组:", masked_data)
print("掩码:", masked_data.mask)

# 计算统计量（自动忽略掩码值）
print("均值:", masked_data.mean())
print("标准差:", masked_data.std())

# 填充掩码值
filled_data = masked_data.filled(0)
print("填充后:", filled_data)

# 掩码数组运算
masked_data2 = ma.masked_values([1, -999, 3, 4, -999], -999)
result = masked_data + masked_data2
print("掩码数组相加:", result)

使用场景：

处理缺失值或无效值
遥感图像处理（云层遮挡）
实验数据中的异常值处理

11.3向量化操作

# 非向量化方法（慢）
def slow_calc(x, y):
    result = np.zeros_like(x)
    for i in range(len(x)):
        for j in range(len(y)):
            result[i] = x[i]**2 + y[j]**2
    return result

# 向量化方法（快）
def fast_calc(x, y):
    # 利用广播
    x_squared = x[:, np.newaxis]**2  # 形状(n, 1)
    y_squared = y[np.newaxis, :]**2  # 形状(1, m)
    return x_squared + y_squared     # 广播为(n, m)

# 性能测试
x = np.random.randn(1000)
y = np.random.randn(1000)

import time
start = time.time()
slow_result = slow_calc(x[:10], y[:10])  # 只测试小规模
print(f"循环耗时: {time.time()-start:.4f}秒")

start = time.time()
fast_result = fast_calc(x, y)
print(f"向量化耗时: {time.time()-start:.4f}秒")

# 验证结果
print("结果是否一致:", np.allclose(slow_result, fast_result[:10, :10]))

性能提升技巧：

尽量使用NumPy内置函数而非Python循环
利用广播机制避免显式循环
使用np.vectorize()装饰Python函数（有限优化）
对于复杂操作，考虑使用Numba或Cython

11.4 通用函数(ufunc)

# 创建自定义ufunc
def my_func(x, y):
    """自定义函数：返回x² + y²"""
    return x**2 + y**2

# 使用frompyfunc创建ufunc
my_ufunc = np.frompyfunc(my_func, 2, 1)  # 2个输入，1个输出

# 使用自定义ufunc
result = my_ufunc(np.array([1, 2, 3]), np.array([4, 5, 6]))
print("自定义ufunc结果:", result)

# ufunc方法
arr = np.array([1, 2, 3, 4, 5])

# reduce: 累积应用
sum_result = np.add.reduce(arr)  # 等价于np.sum(arr)
print("reduce求和:", sum_result)

# accumulate: 累积结果
cumsum_result = np.add.accumulate(arr)  # 等价于np.cumsum(arr)
print("accumulate累积和:", cumsum_result)

# outer: 外积
outer_result = np.multiply.outer(arr, arr)
print("外积形状:", outer_result.shape)

# reduceat: 在指定位置分段reduce
indices = [0, 2, 4]
reduceat_result = np.add.reduceat(arr, indices)
print("reduceat结果:", reduceat_result)  # [1+2, 3+4, 5]

高级应用：

自定义ufunc可以用于任意元素级操作
ufunc方法提供了灵活的归约和累积操作
结合np.vectorize()可以处理非标量返回值的函数

12. 性能优化和最佳实践

简要说明：NumPy虽然高效，但不当使用仍可能导致性能问题。了解NumPy的内部机制和最佳实践至关重要

12.1 内存布局优化

# C顺序（行优先）和F顺序（列优先）的性能差异
size = 1000
c_arr = np.ones((size, size), order='C')  # C顺序
f_arr = np.ones((size, size), order='F')  # F顺序

# 行操作性能比较
import time

start = time.time()
row_sum_c = np.sum(c_arr, axis=1)  # 按行求和
c_row_time = time.time() - start

start = time.time()
row_sum_f = np.sum(f_arr, axis=1)  # 按行求和
f_row_time = time.time() - start

print(f"C顺序行操作耗时: {c_row_time:.4f}秒")
print(f"F顺序行操作耗时: {f_row_time:.4f}秒")

# 列操作性能比较
start = time.time()
col_sum_c = np.sum(c_arr, axis=0)  # 按列求和
c_col_time = time.time() - start

start = time.time()
col_sum_f = np.sum(f_arr, axis=0)  # 按列求和
f_col_time = time.time() - start

print(f"C顺序列操作耗时: {c_col_time:.4f}秒")
print(f"F顺序列操作耗时: {f_col_time:.4f}秒")

优化建议：

根据主要访问模式选择内存布局
行操作多用C顺序，列操作多用F顺序
使用np.ascontiguousarray()和np.asfortranarray()转换布局

12.2 避免不必要的复制

arr = np.arange(10)

# 视图操作（不复制数据）
view1 = arr[:5]          # 切片创建视图
view2 = arr[::2]         # 步长切片创建视图
view3 = arr.T            # 转置创建视图
view4 = arr.reshape(2, 5)  # 重塑形状创建视图

# 检查是否为视图
print("arr.base:", arr.base)          # None（原始数组）
print("view1.base is arr:", view1.base is arr)  # True

# 复制操作（复制数据）
copy1 = arr.copy()                    # 显式复制
copy2 = arr[[0, 2, 4, 6, 8]]          # 花式索引创建副本
copy3 = np.array(arr)                 # 从数组创建新数组

print("copy1.base is arr:", copy1.base is arr)  # False

最佳实践：

尽量使用视图而非副本
必要时使用.copy显示创建副本
注意哪些操作创建视图，哪些创建副本

12.3 使用高效的数据类型

# 不同数据类型的比较
large_array = np.random.randn(1000000)

# float64（默认）
arr_float64 = large_array.astype(np.float64)
print(f"float64占用内存: {arr_float64.nbytes / 1024 / 1024:.2f} MB")

# float32（半精度）
arr_float32 = large_array.astype(np.float32)
print(f"float32占用内存: {arr_float32.nbytes / 1024 / 1024:.2f} MB")

# 性能比较
import time

start = time.time()
result64 = np.sum(arr_float64)
time64 = time.time() - start

start = time.time()
result32 = np.sum(arr_float32)
time32 = time.time() - start

print(f"float64计算时间: {time64:.6f}秒")
print(f"float32计算时间: {time32:.6f}秒")
print(f"精度损失: {abs(result64 - result32)/result64:.2%}")

数据类型选择指南：

深度学习：float/fp16（混合精度训练）
科学计算：float64（高精度需求）
嵌入式系统：float/int（内存限制）
图象处理：uint8（0-255像素值）

12.4 使用Numba加速

# 安装: pip install numba
from numba import jit, vectorize
import numpy as np

# 使用jit装饰器加速Python函数
@jit(nopython=True)
def numba_sum(arr):
    total = 0.0
    for i in range(arr.shape[0]):
        total += arr[i]
    return total

# 创建大型数组
large_arr = np.random.randn(10000000)

# 比较性能
import time

start = time.time()
numpy_sum = np.sum(large_arr)
numpy_time = time.time() - start

start = time.time()
numba_result = numba_sum(large_arr)
numba_time = time.time() - start

print(f"NumPy求和: {numpy_sum:.6f}, 耗时: {numpy_time:.4f}秒")
print(f"Numba求和: {numba_result:.6f}, 耗时: {numba_time:.4f}秒")
print(f"加速比: {numpy_time/numba_time:.2f}x")

# 使用vectorize创建ufunc
@vectorize(['float64(float64, float64)'], nopython=True)
def numba_vectorized(x, y):
    return x**2 + y**2

# 测试向量化函数
a = np.random.randn(10000)
b = np.random.randn(10000)

result = numba_vectorized(a, b)
print(f"向量化函数结果形状: {result.shape}")

Numba适用场景：

NumPy没有提供的复杂逐元素操作
需要与现有的Python代码集成
算法原型到生产代码的快速迁移

注意事项：

第一次调用有编译开销
支持的数据类型和NumPy函数有限
需要安装LLVM依赖

13. 常见问题与解决方案

简要说明：
在实际使用NumPy时，经常会遇到一些常见问题。了解这些问题的解决方案可以提高开发效率。

13.1 处理NaN和无穷值

# 创建包含特殊值的数据
arr = np.array([1, 2, np.nan, 4, np.inf, -np.inf, 7])

# 检测特殊值
print("NaN值:", np.isnan(arr))
print("无穷值:", np.isinf(arr))
print("有限值:", np.isfinite(arr))
print("非NaN有限值:", np.isfinite(arr) & ~np.isnan(arr))

# 安全计算（忽略特殊值）
print("忽略NaN的均值:", np.nanmean(arr))
print("忽略NaN的标准差:", np.nanstd(arr))
print("忽略NaN的最大值:", np.nanmax(arr))

# 替换特殊值
arr_clean = np.nan_to_num(arr, nan=0.0, posinf=999, neginf=-999)
print("清理后:", arr_clean)

# 删除包含NaN的行
arr_2d = np.array([[1, 2, 3],
                   [4, np.nan, 6],
                   [7, 8, 9]])
clean_rows = arr_2d[~np.isnan(arr_2d).any(axis=1)]
print("删除NaN行后:\n", clean_rows)

最佳实践：

在处理数据前先检查特殊值
使用np.nan*函数进行安全计算
根据应用场景决定如何处理特殊值

13.2 数组排序和搜索

arr = np.array([3, 1, 4, 1, 5, 9, 2, 6])

# 排序
sorted_arr = np.sort(arr)  # 返回排序后的副本
print("排序后:", sorted_arr)

arr.sort()  # 原地排序
print("原地排序后:", arr)

# 获取排序索引
arr = np.array([3, 1, 4, 1, 5, 9, 2, 6])
indices = np.argsort(arr)
print("排序索引:", indices)
print("按索引排序:", arr[indices])

# 部分排序
partial_indices = np.argpartition(arr, 3)  # 前3个最小值的索引
print("部分排序索引:", partial_indices[:3])
print("前3个最小值:", arr[partial_indices[:3]])

# 搜索
print("最大值索引:", np.argmax(arr))
print("最小值索引:", np.argmin(arr))

# 条件搜索
print("大于5的索引:", np.where(arr > 5)[0])
print("大于5的值:", arr[arr > 5])

# 最接近值搜索
target = 4.5
closest_idx = np.argmin(np.abs(arr - target))
print(f"最接近{target}的值:", arr[closest_idx])

性能提示：

对于大型数组，部分排序比完全排序更快
np.where()返回元组，需要索引时用[0]
搜索排序数组可以使用np.searchsorted()，效率更高

13.3 数据类型转换问题

# 隐式转换
arr_int = np.array([1, 2, 3], dtype=np.int32)
arr_float = np.array([1.5, 2.5, 3.5], dtype=np.float64)

result = arr_int + arr_float  # int32会提升为float64
print("结果类型:", result.dtype)  # float64

# 显式转换
arr = np.array([1.5, 2.7, 3.2])
arr_int = arr.astype(np.int32)  # 向下取整
print("转换为int32:", arr_int)  # [1, 2, 3]

# 安全转换
arr_large = np.array([100000, 200000, 300000], dtype=np.int32)
arr_small = arr_large.astype(np.int16)  # 可能溢出！
print("危险转换:", arr_small)  # 溢出值

# 安全转换函数
safe_converted = np.asarray(arr_large, dtype=np.int16)  # 同样危险
print("安全转换:", safe_converted)

# 最佳实践：先检查范围
if np.all(arr_large <= np.iinfo(np.int16).max) and \
   np.all(arr_large >= np.iinfo(np.int16).min):
    safe = arr_large.astype(np.int16)
    print("安全转换结果:", safe)
else:
    print("值超出范围，不能安全转换")

转换规则：

运算时，数据类型向更精确、范围更大的类型提升
astype()总是返回副本，即使类型相同
向下转换可能丢失精度或溢出

13.4 广播错误排查

# 常见的广播错误
A = np.ones((3, 4, 5))
B = np.ones((3, 5))

try:
    result = A + B  # 错误：形状不兼容
except ValueError as e:
    print(f"广播错误: {e}")

# 调试广播
def debug_broadcast(shape1, shape2):
    """检查两个形状是否可以广播"""
    # 对齐形状
    s1 = list(shape1)
    s2 = list(shape2)
    
    # 补齐维度
    while len(s1) < len(s2):
        s1.insert(0, 1)
    while len(s2) < len(s1):
        s2.insert(0, 1)
    
    print(f"对齐后形状1: {s1}")
    print(f"对齐后形状2: {s2}")
    
    # 检查每个维度
    for i, (d1, d2) in enumerate(zip(s1, s2)):
        if d1 != d2 and d1 != 1 and d2 != 1:
            print(f"第{i}维不兼容: {d1} != {d2}")
            return False
    
    print("形状可以广播")
    # 计算广播后形状
    broadcast_shape = [max(d1, d2) for d1, d2 in zip(s1, s2)]
    print(f"广播后形状: {tuple(broadcast_shape)}")
    return True

# 测试
debug_broadcast((3, 4, 5), (3, 5))
debug_broadcast((3, 1, 5), (1, 4, 5))

广播调试技巧：

使用np.broadcast_to()显式扩展数组
使用np.newaxis增加维度
使用np.squeeze()去除大小为1的维度

14. 结语和资源推荐

14.1 总结

NumPy是Python科学计算的基石，掌握其核心功能对于任何涉及数值计算的工作都至关重要。本文涵盖了从基础到高级的NumPy知识，包括：

数组创建和操作：多种创建数组的方法和灵活的索引切片
数组运算和广播：高效的逐元素运算和形状自动扩展
线性代数和随机数：丰富的数学函数库
性能优化：内存布局、数据类型选择和加速技巧
高级特性：结构化数组、掩码数组和向量化操作
常见问题解决：NaN处理、排序搜索和错误排查

14.2 最佳实践回顾

优先使用向量化操作：避免Python循环，使用NumPy内置函数
注意内存使用：选择合适的dtype，使用视图而非副本
利用广播机制：但要注意形状兼容性
处理特殊值：使用安全的nan函数处理缺失值
优化数据布局：根据访问模式选择C或F顺序

14.3 学习资源推荐

官方资源：

NumPy官方文档
NumPy用户指南
NumPy API参考
书籍推荐：
《Python for Data Analysis》by Wes McKinney：包含NumPy和Pandas
《Elegant SciPy》by Juan Nunez-Iglesias：NumPy在科学计算中的应用
《From Python to NumPy》by Nicolas P. Rougier：深入理解NumPy内部机制

在线课程：

Coursera：Python for Data Science and AI (IBM)
edX：Introduction to Computational Thinking and Data Science (MIT)
DataCamp：Introduction to NumPy

进阶学习：

SciPy：建立在NumPy之上的科学计算库
Numba：NumPy代码的即时编译加速
Cython：将Python/NumPy代码编译为C扩展
CuPy：GPU加速的NumPy替代品

14.4 速查卡片

# 附录：快速参考卡片

import numpy as np

# ============ 创建数组 ============
np.array([1,2,3])           # 从列表
np.zeros((3,4))             # 全零数组
np.ones((2,3))              # 全一数组
np.empty((2,2))             # 空数组（未初始化）
np.arange(0,10,2)           # 等差数列
np.linspace(0,1,5)          # 等间隔数列
np.random.rand(3,3)         # [0,1)均匀分布

# ============ 数组属性 ============
arr.shape                   # 数组形状
arr.ndim                    # 数组维度
arr.dtype                   # 数据类型
arr.size                    # 元素总数
arr.nbytes                  # 内存占用量

# ============ 索引切片 ============
arr[0]                      # 第一个元素
arr[-1]                     # 最后一个元素
arr[1:4]                    # 切片
arr[arr > 5]                # 布尔索引
arr[[0,2,4]]                # 花式索引
arr[:, 1]                   # 第二列

# ============ 数组操作 ============
arr.reshape(3,4)            # 改变形状
arr.T                       # 转置
np.concatenate([a,b])       # 连接数组
np.split(arr, 3)            # 分割数组

# ============ 数学运算 ============
np.add(x, y)                # 加法
np.multiply(x, y)           # 乘法
np.dot(A, B)                # 矩阵乘法
np.sum(arr)                 # 求和
np.mean(arr)                # 平均值
np.std(arr)                 # 标准差

# ============ 线性代数 ============
np.linalg.inv(A)            # 矩阵求逆
np.linalg.det(A)            # 行列式
np.linalg.eig(A)            # 特征分解
np.linalg.solve(A, b)       # 解线性方程组

# ============ 文件操作 ============
np.save('data.npy', arr)    # 保存为.npy
np.load('data.npy')         # 加载.npy文件
np.savetxt('data.txt', arr) # 保存为文本
np.loadtxt('data.txt')      # 加载文本文件

本文作者： Kylin
本文链接： https://kylinnnnn.github.io/2026/02/09/AI-Generated-NumPy速查指南：从入门到精通/
版权声明： 本博客所有文章除特别声明外，均采用 MIT 许可协议。转载请注明出处！

NumPy速查指南：从入门到精通

摘要

1. 引言

2. 数组创建

2.1 基础创建方法

2.2 特殊数组生成

2.3 序列数组生成

2.4 随机数组生成

3. 数组属性和基本信息

4. 数组索引和切片

4.1 基础索引

4.2 多维数组索引

4.3 布尔索引

4.4 花式索引

5. 数组操作和变形

5.1 改变形状

5.2 转置和轴交换

5.3 数组连接

5.4 数组分割

6. 数组运算

6.1 算数运算

6.2 矩阵运算

6.3 统计运算

6.4 逻辑运算和比较

7. 广播机制

8. 线性代数

8.1 基本线性代数操作

8.2 矩阵分解

8.3 矩阵范数和条件数

9. 随机数生成

9.1 基础随机数生成

9.2 特定分布

9.3 随机抽样和排列

10. 输入输出操作

10.1 文本文件操作

10.2 二进制文件操作

10.3 内存映射文件

11. 高级特性和技巧

11.1 结构化数组

11.2 掩码数组

11.3向量化操作

11.4 通用函数(ufunc)

12. 性能优化和最佳实践

12.1 内存布局优化

12.2 避免不必要的复制

12.3 使用高效的数据类型

12.4 使用Numba加速

13. 常见问题与解决方案

13.1 处理NaN和无穷值

13.2 数组排序和搜索

13.3 数据类型转换问题

13.4 广播错误排查

14. 结语和资源推荐

14.1 总结

14.2 最佳实践回顾

14.3 学习资源推荐

14.4 速查卡片