Neurowave

通知 + 学习心得

重要通知：网站更新计划变更自 2025年4月20日起，建站内容将全面转向 AI Agent 自动更新。建站相关技术更新主要作为本人对博客更新日志其他内容聚焦机器学习（ML）、深度学习（DL）、大语言模型（LLMs）等领域的核心思考。历史文章仍可查阅，感谢支持，一起探索 AI 前沿！学习过程+心得李沐《手动深度学习》视频 + 书李沐老师的讲解非常清晰，无论理论、实践

2025-04-20 Updated within 7 days

Hexo

#通知

2. Transformer(书)

大语言模型的核心目标是对自然语言的概率分布进行建模。 Transformer架构自2017年提出后成为自然语言处理和机器翻译领域的主流模型架构。 1. Transformer 结构 1.1 Transformer 结构简介 Transformer 架构：2017年由Google提出，用于机器翻译的神经网络模型。基本目标：将源语言（Source Language）转换为目标语言（Tar

2025-04-21 Updated within 7 days

Transformer

#LLMs #Transformer

1. Transformer前世今生

1. 预训练与迁移学习 1. 预训练是什么？预训练：指在大数据集上先训练好一个模型（如模型A），然后将其参数迁移到一个相关的小数据集的新任务（如任务B）。常见做法是在新任务上：参数冻结（Freeze）：把预训练模型A的前几层参数保持不变，只训练后面的高层参数。（适合新任务和原任务差别不大的情况。）微调（Fine-tuning）：让预训练模型A的全部或部分参数都参与新任务的训练。（

2025-04-20 Updated within 7 days

Transformer

#LLMs #Embedding #Attention #Transformer #预训练 #NNLM #one-hot #Word2Vec #ELMo

5. Positional Encoding 位置编码

5. Positional Encoding 位置编码 1. 动机为什么要加位置编码？ Self-Attention 本身不感知输入顺序，把序列当成无序集合（Set），缺乏序列（Sequence）信息。必须人为注入"位置信息"，让模型知道"顺序" （Transformer需要）。和其他架构对比： CNN 通过卷积核隐式捕捉局部顺序 RN

2025-04-19 Updated within 7 days

Attention

#Deep_Learning #NLP #Attention

6. Multi-Head Self-Attention 多头自注意力

6. Multi-Head Self-Attention 多头自注意力 1. 核心思想多头注意力（Multi-Head Attention）是在自注意力（self-attention）基础上的扩展，通过并行设置多个"注意力头"（head），让模型能从不同子空间提取信息，提升表达能力和鲁棒性。 2. 基本结构基本思路：将 query、key、value 线性投影到

2025-04-19 Updated within 7 days

Attention

#Deep_Learning #NLP #Attention

4. Self-Attention 自注意力

4. Self-Attention 自注意力 1. 核心思想自注意力（Self-Attention）是一种用于序列建模的机制，可以让序列中的每个元素都与其他所有元素建立直接联系，实现对全局依赖的建模。在 NLP、CV 及各种序列任务中，自注意力显著提升了模型对远距离依赖的捕捉能力、并行计算效率和表达力。 2. 基本定义与结构输入：一个长度为 n 的序列 x1,...,xn，每

2025-04-19 Updated within 7 days

Attention

#Deep_Learning #NLP #Attention

2. 注意力分数

2. Attention Scoring Function 1. 基本思想注意力机制的核心：根据查询（query，q）和键（key，ki）的相关性分配权重，从所有值（value，vi）中"加权取信息"。定义：注意力机制通过给每个值 vi 分配权重 α(q,ki)，加权求和得到输出： f(q)=∑i=1mα(q,ki)vi 其中 α(q,ki) 是 attentio

2025-04-19 Updated within 7 days

Attention

#Deep_Learning #NLP #Attention

3. Bahdanau 注意力（Seq2Seq + Attention）

3. Bahdanau 注意力（Seq2Seq + Attention） 1. 动机经典 Seq2Seq（编码器-解码器）模型使用两个 RNN： Encoder：把整个输入序列"压缩"为一个固定长度的上下文向量（context）。 Decoder：每一步都依赖这同一个 context 生成下一个输出。局限性：输入句子很长时，固定长度的 context 向量

2025-04-19 Updated within 7 days

Attention

#Deep_Learning #NLP #Attention

LLMs基本概念 + 发展历史 + 构建流程

大模型绪论 1.1 大语言模型的基本概念什么是大语言模型？大语言模型（LLM）：指参数量达到数百亿甚至更多的深度神经网络模型，通常使用自监督学习方法，在海量未标注文本上训练。 2018年以来，BERT、GPT等模型相继发布，全面提升NLP任务效果。 2022年11月ChatGPT发布后，LLM能力爆红，大家都知道AI能聊天、写文案、做摘要、翻译，甚至表现出"世界知识"

2025-04-19 Updated within 7 days

LLMs

#LLMs

4.多输入通道与多输出通道的卷积

4. 多输入通道与多输出通道的卷积 1. 多输入通道彩色图像一般有 RGB 三个输入通道，直接转成灰度会丢失信息。每个输入通道都有一个对应的卷积核，所有通道卷积后的结果相加，得到单通道的输出。数学形式：输入 X：ci×nh×nw 卷积核 W：ci×kh×kw 输出 Y：mh×mw 公式：Y=∑i=1ciXi,:,:⋆Wi,:,: 2. 多输出通道卷积层的输出通道数是一

2025-04-18 Updated within 7 days

CNNs

#Deep_Learning #CNNs