神经网络 - 这篇文章属于一个选集。

§ 1: 本文

📚 神经网络方法与应用（2025）学习笔记
#

🧠 第一章人工神经网络基础
#

核心目标：理解人工神经网络的定义、结构、数学模型及核心学习算法（LMS），掌握生物神经元与人工神经元的映射关系。

1.1 生物神经网络与人工神经网络的关联
#

生物神经网络：
- 基本单位：神经细胞（生物神经元），约120亿-140亿个高度互连
- 核心结构：树突（信号输入）、轴突（信号输出）、突触（信号传递接口）
- 关键特性：突触可塑性（学习记忆基础）、时空整合性、兴奋/抑制二元性
人工神经网络（ANN）：
- 定义（Kohonen 1988）：由具有适应性的简单单元组成的广泛并行互联网络，模拟生物神经系统对真实世界的反应
- 定义（Haykin 1999）：由简单处理单元构成的大规模并行分布式处理器，天然具备存储经验知识并复用的特性
- 核心特点：
  - 对生物神经网络的抽象、简化与模拟
  - 以神经元间联接权值存储知识
  - 通过学习从环境中获取知识
  - 大规模并行计算与分布式信息处理

1.2 基本人工神经元模型
#

1.2.1 结构与数学描述
#

核心逻辑：多输入→线性组合→非线性激活→单输出
数学表达式： $$net_i = \sum_{j=1}^{n} w_{ij} \cdot x_j + b_i$$ $$y_i = f(net_i)$$ 其中：
- $x_j$：输入信号（对应树突接收的信号）
- $w_{ij}$：连接权值（对应突触耦合强度）
- $b_i$：偏置项（调整神经元激活阈值）
- $net_i$：线性组合结果（对应细胞体整合信号）
- $f(\cdot)$：激活函数（对应神经元非线性响应）
- $y_i$：输出信号（对应轴突传出的信号）

1.2.2 激活函数分类与特性
#

类型	常见函数	优势	劣势
单极性	Sigmoid：$f(u)=\frac{1}{1+exp(-\alpha u)} \in [0,1]$	平滑可微，输出映射到[0,1]	梯度消失、计算速度慢
双极性	双曲正切：$f(u)=tanh(\gamma u)=\frac{1-e^{-2\gamma u}}{1+e^{-2\gamma u}}$	输出对称分布，梯度优于Sigmoid	仍存在梯度饱和问题
分段线性	ReLU：$f(u)=max(0,u)$	防止梯度消失、计算速度快、非线性	神经元易"死亡"（输入≤0时梯度为0）
径向基	高斯RBF：$f(u)=\frac{1}{\sqrt{2\pi}\sigma}exp\left[-\frac{1}{2}\left(\frac{u-\mu}{\sigma}\right)^2\right]$	局部响应强，拟合非线性能力优	参数选择复杂

💡 注意：深度神经网络中ReLU及其变种（如Mish）应用广泛，核心解决Sigmoid的梯度消失问题；胶囊神经网络是新型神经元模型，可保存姿态信息，实现"等变化"特性。

1.3 人工神经网络的结构类型
#

1.3.1 按输入输出关系划分
#

静态神经网络：输出仅依赖当前输入，与历史输出无关（如MLP、RBF）
动态神经网络：输出依赖当前输入+历史输出，含反馈机制（如Hopfield网络）

1.3.2 按连接结构划分
#

前馈式网络：信号单向传播，无反馈（输入层→隐含层→输出层）
反馈式网络：存在输出到输入的反馈连接（如Hopfield、LSTM）
其他结构：层内互连型、全互连型、局部互连型

1.3.3 按学习方法划分
#

有监督学习：需标注训练数据（如分类、回归任务）
无监督学习：无需标注训练数据（如聚类任务）
强化学习：通过环境反馈（奖励/惩罚）学习

1.4 核心学习算法：LMS算法（Widrow-Hoff算法）
#

1.4.1 算法基础
#

核心目标：通过迭代调整权值$w$，最小化均方误差（MSE）
自适应信号处理背景：修正系统特性以适应对象/扰动的动态变化，处理不确定性系统

1.4.2 线性神经元LMS算法
#

误差定义：$\varepsilon_k = d_k - S_k = d_k - W_k^T \cdot X_k$（$d_k$为期望输出，$S_k$为线性组合输出）
均方误差：$MSE = E{(d_k - W_k^T \cdot X_k)^2}$
迭代公式：$w_{k+1} = w_k + 2\mu \varepsilon_k x_k$
- $\mu$：学习率（步长），取值范围$0<\mu<\frac{1}{trace{E(x_k x_k^T)}}$
- 核心逻辑：权值修正量与误差$\varepsilon_k$、输入$x_k$成正比，误差趋近于0时权值收敛

1.4.3 非线性神经元LMS算法
#

误差定义：$\tilde{\varepsilon}_k = d_k - y_k = d_k - sgm(S_k)$（$sgm$为激活函数）
迭代公式：$w_{k+1} = w_k + 2\mu \tilde{\varepsilon}_k \cdot (1-y_k^2) X_k$
关键差异：比线性LMS多激活函数导数项$sgm’(S_k)=1-y_k^2$（双曲正切激活时）

1.4.4 应用场景：红外弱小目标检测
#

问题：低SCR图像中目标被杂波/噪声淹没
解决方案：自适应LMS滤波预白化噪声，提高信杂比
滤波公式：$y(m,n)=W^T X_{mn}$，误差$e(m,n)=d(m,n)-y(m,n)$
优势：运算量小，可实时实现

📝 核心结论：神经网络的核心是权值学习，LMS算法是基础自适应学习方法，线性与非线性版本的核心区别在于是否包含激活函数导数项。

📊 第二章机器学习基本知识
#

核心目标：掌握机器学习的定义、三要素、流程、评估方法及数学基础，理解AI/ML/DL的层级关系。

2.1 核心概念体系
#

2.1.1 AI、ML、DL的层级关系（套娃关系）
#

人工智能（AI）：模拟、延伸和扩展人类智能的理论、方法与系统
- 关键定义（斯坦福）：研究使计算机执行需人类智能完成的任务的科学与工程
- 核心能力：演绎推理、知识表示、学习、运动控制、数据挖掘等
机器学习（ML）：AI的子集，机器自动从经验中学习并优化，无需人工编程规则
深度学习（DL）：ML的子集，使用深层神经网络（DNN）进行特征提取与建模

2.1.2 机器学习的定义
#

Mitchell（1997）定义：若程序通过经验$E$在任务$T$上的性能$P$得到改善，则称程序对$E$学习
周志华（2016）定义：通过计算手段利用经验（数据）改善系统性能，从数据中产生模型用于决策
通俗定义：通过算法从大量数据中自动学习规律，对新样本做决策（本质是"参数估计"）

2.1.3 机器学习三要素
#

要素	核心作用
模型假设	划定$Y$与$X$的关系空间（如线性假设$Y=WX+b$），避免盲目搜索
评价函数（损失）	定义"最优"标准（如最小化拟合误差），常用损失函数：均方误差、交叉熵等
优化算法	寻找使评价函数最优的参数（如梯度下降法），核心是高效寻解

2.2 机器学习的核心流程
#

训练阶段（归纳）：从具体样本（$X,Y$）中提炼$Y$与$X$的关联规律
预测阶段（演绎）：基于训练得到的模型，对新输入$X$计算输出$Y$，验证模型有效性

2.3 关键术语
#

2.3.1 数据相关
#

训练集：用于模型学习的标注数据（如"好瓜/坏瓜"样本）
测试集：用于验证模型泛化能力的独立数据（与训练集互斥）
特征：数据的属性（如瓜的色泽、根蒂、敲声）
标记：数据的类别/数值（如"好瓜"为分类标记，成熟度为回归标记）
独立同分布（i.i.d）：样本服从未知分布$D$，独立采样获得

2.3.2 任务类型
#

分类任务：预测离散值（二分类：好瓜/坏瓜；多分类：冬瓜/南瓜/西瓜）
回归任务：预测连续值（如瓜的成熟度、房价）
聚类任务：无标记数据分组（如自动划分瓜的品种）

2.3.3 学习类型
#

监督学习：含标记信息（分类、回归），算法示例：朴素贝叶斯、SVM、决策树、逻辑回归
无监督学习：无标记信息（聚类），算法示例：K-means、DBSCAN、PCA、LDA
半监督学习/弱监督学习：部分标记数据
强化学习：智能体与环境交互，通过奖励信号优化策略（“有延迟的监督学习”）

2.3.4 泛化能力
#

定义：模型适应新样本的能力（核心目标）
影响因素：训练样本数量（越多越易获得强泛化能力）、模型复杂度、数据分布一致性

2.4 优化算法
#

2.4.1 梯度下降法基础
#

梯度定义：$\nabla f(x,y)=\left(\frac{\partial f(x,y)}{\partial x},\frac{\partial f(x,y)}{\partial y}\right)$
迭代公式：$\vec{x}_{n+1}=\vec{x}_n - \lambda \nabla f(\vec{x}_n)$（$\lambda$为学习率）
方向导数：$\frac{\partial f(x,y)}{\partial \vec{e}} = \vec{e} \cdot \nabla f(x,y)$，梯度方向是函数增长最快方向

2.4.2 梯度下降法变种对比
#

类型	核心逻辑	优势	劣势
批量梯度下降（BGD）	全量样本计算梯度更新一次	收敛稳定，全局最优	样本量大时迭代速度慢
随机梯度下降（SGD）	单个样本计算梯度更新一次	迭代速度快，可跳出局部最优	无向量化加速，收敛波动大
小批量梯度下降（MBGD）	部分样本（mini-batch）计算梯度更新	平衡速度与稳定性，工程常用	需调优batch size，可能小幅波动

💡 注意：可通过学习率衰减缓解SGD和MBGD的收敛波动问题。

2.5 模型评估与选择
#

2.5.1 误差类型
#

错误率：$E = a/m$（$a$为错分样本数，$m$为总样本数）
训练误差（经验误差）：模型在训练集上的误差
测试误差：模型在测试集上的误差（泛化误差近似）
泛化误差：模型在所有潜在样本上的误差

2.5.2 过拟合与欠拟合
#

问题	表现特征	解决方案
过拟合	训练误差小，泛化误差大（学透训练集噪声）	正则化、早停（early stop）、增加训练数据
欠拟合	训练误差大，泛化误差大（未学好核心规律）	增加模型复杂度（决策树拓展分支、神经网络增加轮数）

2.5.3 评估方法
#

留出法：
- 划分训练集$S$与测试集$T$（互斥），保持数据分布一致
- 比例：训练集:测试集=2:1~4:1，多次随机划分取平均
交叉验证法：
- 分层采样划分为$k$个互斥子集，$k-1$个为训练集，1个为测试集
- 常用$k=10$（10折交叉验证），返回$k$次测试结果均值
自助法：
- 对数据集$D$采样$m$次得到训练集$D’$，未采样样本（约1/3）为测试集
- 适用场景：数据集较小，避免训练/测试集划分困难；缺点是改变数据分布

2.5.4 性能度量
#

回归任务
#

均方误差（MSE）：$E(f;D)=\frac{1}{m}\sum_{i=1}^m (f(x_i)-y_i)^2$

分类任务
#

基础度量：
- 错误率：$E(f;D)=\frac{1}{m}\sum_{i=1}^m I(f(x_i)\neq y_i)$
- 精度：$acc(f;D)=1-E(f;D)=\frac{1}{m}\sum_{i=1}^m I(f(x_i)=y_i)$

混淆矩阵与查准率/查全率：

真实情况\预测结果	正例（TP）	反例（FN）
正例	真正例	假反例
反例	假正例（FP）	真反例（TN）

查全率（召回率）：$R=\frac{TP}{TP+FN}$
查准率（精确率）：$P=\frac{TP}{TP+FP}$

P-R曲线与F1度量：
- P-R曲线：按正例可能性排序样本，逐个预测得到的查准率-查全率曲线
- F1分数（调和平均）：$F1=\frac{2×P×R}{P+R}=\frac{2×TP}{样本总数+TP-TN}$
- 加权F1（$F_\beta$）：$\beta>1$偏重查全率，$\beta<1$偏重查准率
ROC曲线与AUC：
- ROC曲线：横轴（假正例率$Pf=\frac{FP}{TN+FP}$），纵轴（真正例率$Pd=\frac{TP}{TP+FN}$）
- AUC计算：$AUC=\frac{1}{2}\sum_{i=1}^{m-1}(x_{i+1}-x_i)\cdot(y_i+y_{i+1})$，衡量排序质量
代价敏感错误率：
- 适用场景：不同错误类型代价不同（如医疗诊断）
- 代价曲线：反映不同条件下的期望总体代价

2.5.5 偏差-方差分解
#

泛化误差公式：$E(f;D)=bias^2(x)+var(x)+\varepsilon^2$
- 偏差：$bias^2(x)=(\bar{f}(x)-y)^2$（算法期望预测与真实结果的偏离）
- 方差：$var(x)=E_D[(f(x;D)-\bar{f}(x))^2]$（训练集变动导致的性能波动）
- 噪声：$\varepsilon^2=E_D[(y_D-y)^2]$（任务本身的难度下界）
偏差-方差窘境：
- 训练不足时：偏差主导泛化误差（模型拟合能力弱）
- 训练充足时：方差主导泛化误差（模型过拟合训练集噪声）

2.6 机器学习常用定理
#

PAC学习理论（Probably Approximately Correct）：
- 核心：算法能在多项式时间内，从合理数量训练数据中学习到近似正确的$f(x)$
- 极限性质：$lim_{|D|\to\infty} \mathcal{R}(f)-\mathcal{R}_D^{emp}(f)=0$（经验风险趋近期望风险）
- 概率保证：$P((\mathcal{R}(f)-\mathcal{R}_D^{emp}(f))\leq\epsilon)\geq1-\delta$（$0<\epsilon,\delta<0.5$）
奥卡姆剃刀原理：
- 核心：如无必要，勿增实体（简单模型泛化能力更优）
- 应用：引入正则化限制模型复杂度，避免过拟合
没有免费午餐定理（NFL）：
- 核心：不存在对所有问题都有效的优化算法，某类问题有效则另一类问题可能劣于随机搜索
丑小鸭定理：
- 核心：世间无客观相似性准则，一切标准皆主观（如丑小鸭与白天鹅的相似性取决于评判维度）

2.7 机器学习的数学基础
#

数学分支	核心内容
线性代数	向量、矩阵、张量（高维推广）、线性变换、特征值/特征向量、矩阵分解
微积分	导数、微分、泰勒公式、积分、矩阵微积分（向量函数导数）
数学优化	无约束/约束优化、全局/局部最小解、梯度下降法、拉格朗日乘数法、KKT条件
概率论	随机变量、条件概率、贝叶斯定理、期望/方差、马尔可夫过程、高斯过程
信息论	信息熵（$H(x)=-\sum_{i=1}^n P_i ln P_i$）、互信息、交叉熵、KL散度、JS散度

📝 核心结论：数学是机器学习的基础，线性代数处理数据表示，微积分支撑优化算法，概率论建模不确定性，信息论衡量数据相关性。

📋 总结
#

人工神经网络：模拟生物神经元的并行计算系统，核心是权值学习（LMS算法为基础），结构分为静态/动态、前馈/反馈等类型。
机器学习：AI的核心子集，三要素（模型假设、评价函数、优化算法）驱动，通过训练/预测流程实现从数据到模型的转化，泛化能力是核心目标。
层级关系：AI ⊇ ML ⊇ DL（深度学习=深层神经网络+机器学习），数学基础（线代、微积分、概率等）是理论支撑。
实践关键：平衡模型复杂度（缓解偏差-方差窘境）、选择合适的评估方法与性能度量、合理设计学习算法（如梯度下降变种）。

通过邮件回复

神经网络 - 这篇文章属于一个选集。

§ 1: 本文

§ 2: 浅层神经网络

§ 3: 卷积神经网络

§ 4: 循环神经网络

§ 5: Transformer网络

§ 6: 深度信念网络

📚 神经网络方法与应用（2025）学习笔记 #

🧠 第一章 人工神经网络基础 #

1.1 生物神经网络与人工神经网络的关联 #

1.2 基本人工神经元模型 #

1.2.1 结构与数学描述 #

1.2.2 激活函数分类与特性 #

1.3 人工神经网络的结构类型 #

1.3.1 按输入输出关系划分 #

1.3.2 按连接结构划分 #

1.3.3 按学习方法划分 #

1.4 核心学习算法：LMS算法（Widrow-Hoff算法） #

1.4.1 算法基础 #

1.4.2 线性神经元LMS算法 #

1.4.3 非线性神经元LMS算法 #

1.4.4 应用场景：红外弱小目标检测 #

📊 第二章 机器学习基本知识 #

2.1 核心概念体系 #

2.1.1 AI、ML、DL的层级关系（套娃关系） #

2.1.2 机器学习的定义 #

2.1.3 机器学习三要素 #

2.2 机器学习的核心流程 #

2.3 关键术语 #

2.3.1 数据相关 #

2.3.2 任务类型 #

2.3.3 学习类型 #

2.3.4 泛化能力 #

2.4 优化算法 #

2.4.1 梯度下降法基础 #

2.4.2 梯度下降法变种对比 #

2.5 模型评估与选择 #

2.5.1 误差类型 #

2.5.2 过拟合与欠拟合 #

2.5.3 评估方法 #

2.5.4 性能度量 #

回归任务 #

分类任务 #

2.5.5 偏差-方差分解 #

2.6 机器学习常用定理 #

2.7 机器学习的数学基础 #

📋 总结 #

📚 神经网络方法与应用（2025）学习笔记
#

🧠 第一章人工神经网络基础
#

1.1 生物神经网络与人工神经网络的关联
#

1.2 基本人工神经元模型
#

1.2.1 结构与数学描述
#

1.2.2 激活函数分类与特性
#

1.3 人工神经网络的结构类型
#

1.3.1 按输入输出关系划分
#

1.3.2 按连接结构划分
#

1.3.3 按学习方法划分
#

1.4 核心学习算法：LMS算法（Widrow-Hoff算法）
#

1.4.1 算法基础
#

1.4.2 线性神经元LMS算法
#

1.4.3 非线性神经元LMS算法
#

1.4.4 应用场景：红外弱小目标检测
#

📊 第二章机器学习基本知识
#

2.1 核心概念体系
#

2.1.1 AI、ML、DL的层级关系（套娃关系）
#

2.1.2 机器学习的定义
#

2.1.3 机器学习三要素
#

2.2 机器学习的核心流程
#

2.3 关键术语
#

2.3.1 数据相关
#

2.3.2 任务类型
#

2.3.3 学习类型
#

2.3.4 泛化能力
#

2.4 优化算法
#

2.4.1 梯度下降法基础
#

2.4.2 梯度下降法变种对比
#

2.5 模型评估与选择
#

2.5.1 误差类型
#

2.5.2 过拟合与欠拟合
#

2.5.3 评估方法
#

2.5.4 性能度量
#

回归任务
#

分类任务
#

2.5.5 偏差-方差分解
#

2.6 机器学习常用定理
#

2.7 机器学习的数学基础
#

📋 总结
#