通知 + 学习心得 重要通知:网站更新计划变更 自 2025年4月20日 起,建站内容将全面转向 AI Agent 自动更新。 建站相关技术更新主要作为本人对博客更新日志 其他内容聚焦 机器学习(ML)、深度学习(DL)、大语言模型(LLMs) 等领域的核心思考。 历史文章仍可查阅,感谢支持,一起探索 AI 前沿! 学习过程+心得 李沐《手动深度学习》视频 + 书 李沐老师的讲解非常清晰,无论理论、实践 2025-04-20 Updated within 7 days Hexo #通知
2. Transformer(书) 大语言模型的核心目标是对自然语言的概率分布进行建模。 Transformer架构自2017年提出后成为自然语言处理和机器翻译领域的主流模型架构。 1. Transformer 结构 1.1 Transformer 结构简介 Transformer 架构:2017年由Google提出,用于机器翻译的神经网络模型。 基本目标:将源语言(Source Language)转换为目标语言(Tar 2025-04-21 Updated within 7 days Transformer #LLMs #Transformer
1. Transformer前世今生 1. 预训练与迁移学习 1. 预训练是什么? 预训练:指在大数据集上先训练好一个模型(如模型A),然后将其参数迁移到一个相关的小数据集的新任务(如任务B)。 常见做法是在新任务上: 参数冻结(Freeze): 把预训练模型A的前几层参数保持不变,只训练后面的高层参数。(适合新任务和原任务差别不大的情况。) 微调(Fine-tuning): 让预训练模型A的全部或部分参数都参与新任务的训练。( 2025-04-20 Updated within 7 days Transformer #LLMs #Embedding #Attention #Transformer #预训练 #NNLM #one-hot #Word2Vec #ELMo
5. Positional Encoding 位置编码 5. Positional Encoding 位置编码 1. 动机 为什么要加位置编码? Self-Attention 本身不感知输入顺序,把序列当成无序集合(Set),缺乏序列(Sequence)信息。 必须人为注入"位置信息",让模型知道"顺序" (Transformer需要)。 和其他架构对比: CNN 通过卷积核隐式捕捉局部顺序 RN 2025-04-19 Updated within 7 days Attention #Deep_Learning #NLP #Attention
6. Multi-Head Self-Attention 多头自注意力 6. Multi-Head Self-Attention 多头自注意力 1. 核心思想 多头注意力(Multi-Head Attention) 是在自注意力(self-attention)基础上的扩展,通过并行设置多个"注意力头"(head),让模型能从不同子空间提取信息,提升表达能力和鲁棒性。 2. 基本结构 基本思路:将 query、key、value 线性投影到 2025-04-19 Updated within 7 days Attention #Deep_Learning #NLP #Attention
4. Self-Attention 自注意力 4. Self-Attention 自注意力 1. 核心思想 自注意力(Self-Attention) 是一种用于序列建模的机制,可以让序列中的每个元素都与其他所有元素建立直接联系,实现对全局依赖的建模。 在 NLP、CV 及各种序列任务中,自注意力显著提升了模型对远距离依赖的捕捉能力、并行计算效率和表达力。 2. 基本定义与结构 输入:一个长度为 n 的序列 x1,...,xn,每 2025-04-19 Updated within 7 days Attention #Deep_Learning #NLP #Attention
2. 注意力分数 2. Attention Scoring Function 1. 基本思想 注意力机制的核心:根据查询(query,q)和键(key,ki)的相关性分配权重,从所有值(value,vi)中"加权取信息"。 定义:注意力机制通过给每个值 vi 分配权重 α(q,ki),加权求和得到输出: f(q)=∑i=1mα(q,ki)vi 其中 α(q,ki) 是 attentio 2025-04-19 Updated within 7 days Attention #Deep_Learning #NLP #Attention
3. Bahdanau 注意力(Seq2Seq + Attention) 3. Bahdanau 注意力(Seq2Seq + Attention) 1. 动机 经典 Seq2Seq(编码器-解码器)模型使用两个 RNN: Encoder:把整个输入序列"压缩"为一个固定长度的上下文向量(context)。 Decoder:每一步都依赖这同一个 context 生成下一个输出。 局限性: 输入句子很长时,固定长度的 context 向量 2025-04-19 Updated within 7 days Attention #Deep_Learning #NLP #Attention
LLMs基本概念 + 发展历史 + 构建流程 大模型绪论 1.1 大语言模型的基本概念 什么是大语言模型? 大语言模型(LLM):指参数量达到数百亿甚至更多的深度神经网络模型,通常使用自监督学习方法,在海量未标注文本上训练。 2018年以来,BERT、GPT等模型相继发布,全面提升NLP任务效果。 2022年11月ChatGPT发布后,LLM能力爆红,大家都知道AI能聊天、写文案、做摘要、翻译,甚至表现出"世界知识" 2025-04-19 Updated within 7 days LLMs #LLMs
4.多输入通道与多输出通道的卷积 4. 多输入通道与多输出通道的卷积 1. 多输入通道 彩色图像一般有 RGB 三个输入通道,直接转成灰度会丢失信息。 每个输入通道都有一个对应的卷积核,所有通道卷积后的结果相加,得到单通道的输出。 数学形式: 输入 X:ci×nh×nw 卷积核 W:ci×kh×kw 输出 Y:mh×mw 公式:Y=∑i=1ciXi,:,:⋆Wi,:,: 2. 多输出通道 卷积层的输出通道数是一 2025-04-18 Updated within 7 days CNNs #Deep_Learning #CNNs