通知 + 学习心得 重要通知:网站更新计划变更 自 2025年4月20日 起,建站内容将全面转向 AI Agent 自动更新。 其他内容聚焦 机器学习(ML)、深度学习(DL)、大语言模型(LLMs) 等领域的核心思考,不再更新建站相关技术分享。 历史文章仍可查阅,感谢支持,未来一起探索 AI 前沿! 学习过程+心得 李沐《手动深度学习》视频 + 书 李沐老师的讲解非常清晰,无论理论、实践还是应用发展,都很 2025-04-20 Updated within 7 days #通知 #心得
5. Positional Encoding 位置编码 5. Positional Encoding 位置编码 1. 动机 为什么要加位置编码? Self-Attention 本身不感知输入顺序,把序列当成无序集合(Set),缺乏序列(Sequence)信息。 必须人为注入"位置信息",让模型知道"顺序" (Transformer需要)。 和其他架构对比: CNN 通过卷积核隐式捕捉局部顺序 RN 2025-04-19 Updated within 7 days Attention #Deep_Learning #NLP #Attention
6. Multi-Head Self-Attention 多头自注意力 6. Multi-Head Self-Attention 多头自注意力 1. 核心思想 多头注意力(Multi-Head Attention) 是在自注意力(self-attention)基础上的扩展,通过并行设置多个"注意力头"(head),让模型能从不同子空间提取信息,提升表达能力和鲁棒性。 2. 基本结构 基本思路:将 query、key、value 线性投影到 2025-04-19 Updated within 7 days Attention #Deep_Learning #NLP #Attention
4. Self-Attention 自注意力 4. Self-Attention 自注意力 1. 核心思想 自注意力(Self-Attention) 是一种用于序列建模的机制,可以让序列中的每个元素都与其他所有元素建立直接联系,实现对全局依赖的建模。 在 NLP、CV 及各种序列任务中,自注意力显著提升了模型对远距离依赖的捕捉能力、并行计算效率和表达力。 2. 基本定义与结构 输入:一个长度为 n 的序列 x1,...,xn,每 2025-04-19 Updated within 7 days Attention #Deep_Learning #NLP #Attention
2. 注意力分数 2. Attention Scoring Function 1. 基本思想 注意力机制的核心:根据查询(query,q)和键(key,ki)的相关性分配权重,从所有值(value,vi)中"加权取信息"。 定义:注意力机制通过给每个值 vi 分配权重 α(q,ki),加权求和得到输出: f(q)=∑i=1mα(q,ki)vi 其中 α(q,ki) 是 attentio 2025-04-19 Updated within 7 days Attention #Deep_Learning #NLP #Attention
3. Bahdanau 注意力(Seq2Seq + Attention) 3. Bahdanau 注意力(Seq2Seq + Attention) 1. 动机 经典 Seq2Seq(编码器-解码器)模型使用两个 RNN: Encoder:把整个输入序列"压缩"为一个固定长度的上下文向量(context)。 Decoder:每一步都依赖这同一个 context 生成下一个输出。 局限性: 输入句子很长时,固定长度的 context 向量 2025-04-19 Updated within 7 days Attention #Deep_Learning #NLP #Attention
Chapter 1:绪论 Chapter 1:绪论 在阅读本章时,我的目标不是死记每个细节或参数,而是快速梳理大语言模型的来龙去脉,把握主要发展脉络和核心概念。 我要做的是:先建立一个清晰的大框架,了解最最基础的历史、技术变迁和关键节点,让自己知道 整本书能带来什么,以及 后续学习要关注哪些主线内容。这样后面学具体细节时,才不会迷路,也能做到有重点、成体系。 1.1 大语言模型的基本概念 什么是大语言模型? 大语言 2025-04-19 Updated within 7 days LLMs从理论到实践(第二版) #LLMs
4.多输入通道与多输出通道的卷积 4. 多输入通道与多输出通道的卷积 1. 多输入通道 彩色图像一般有 RGB 三个输入通道,直接转成灰度会丢失信息。 每个输入通道都有一个对应的卷积核,所有通道卷积后的结果相加,得到单通道的输出。 数学形式: 输入 X:ci×nh×nw 卷积核 W:ci×kh×kw 输出 Y:mh×mw 公式:Y=∑i=1ciXi,:,:⋆Wi,:,: 2. 多输出通道 卷积层的输出通道数是一 2025-04-18 Updated within 7 days CNNs #Deep_Learning #CNNs
3.填充和步幅(padding & stride) 3. 填充和步幅(Padding & Stride) 1.填充(Padding) 给定 32×32 的输入图像,应用 5×5 卷积核: 第1层输出大小为 28×28 第7层输出大小为 4×4 更大的卷积核会让输出尺寸更快减小 形状从 nh×nw 减少到 (nh−kh+1)×(nw−kw+1) 其中 nh,nw 是输入的高和宽,kh,kw 是卷积核的高和宽。 在输入周围添加格 2025-04-18 Updated within 7 days CNNs #Deep_Learning #CNNs
2.图像卷积 2. 图像卷积 1. 卷积运算 → 互相关运算 (cross-correlation) 二维互相关: 定义:将输入和核矩阵进行交叉相乘,加上偏移后得到输出。 示例: 2. 输入输出尺寸 输入 X:大小为 nh×nw(超参数)。 核 (kernel) W:大小为 kh×kw。 偏置 b∈R。 输出 Y:大小为 (nh−kh+1)×(nw−kw+1)。 原因:核滑动时,边缘位置无法完 2025-04-18 Updated within 7 days CNNs #Deep_Learning #CNNs