【培训天数】
3天/24课时
【课程概述】
本课程聚焦于 DeepSeek R1 模型蒸馏 Qwen2 1.5B 的实践操作,旨在让学员掌握模型蒸馏的全流程,包括环境部署、数据集准备、蒸馏过程及调用测试,提升学员在大模型应用与优化领域的实践能力。课程还包含DeepSeek V3 模型核心原理、整体架构、分布式基础概念、MLA嵌在注意力从自回归掩码看KV缓存机制,针对KV缓存的改进,DeepSeek MOE架构与创新介绍。
【课程目标】
能够独立搭建 DeepSeek R1 模型蒸馏 Qwen2 1.5B 的实验环境,包括创建虚拟环境、安装相关依赖和工具。
熟悉多种可用于模型蒸馏的数据集,掌握数据集的清洗和准备方法,能根据需求筛选和处理数据。
理解并熟练执行模型蒸馏过程,运用 Llama - Factory 进行全量指令微调,优化模型性能。
学会对蒸馏前后的模型进行调用测试,准确评估模型在实际问题解决中的表现,分析模型的优势与不足。
【课程亮点】
实战派学习
从DeepSee-R1入门介绍,到模型蒸馏项目实战的讲解,再到核心原理介绍,由浅入深便于理解世界高级大模型背后的奥秘。
完整的训练脚本和数据集
课程会分享讲解过程中所使用的训练脚本、代码、数据集,并提供参考的部署环境,可通过课后练习复现加深印象。
技术报告创新点剖析
不用通篇阅读官方技术报告的,通过课程讲解即可了解到DeepSeek-R1/V3核心创新点。
本地部署与私有化方案
介绍本地部署所需要的软硬件资源调配。
第一天 DeepSeek-R1蒸馏Qwen1.5B实战
(一)模型蒸馏环境部署
1. 操作系统与配置说明
2. 创建虚拟环境
3. 创建 Jupyter Kernel
4. 安装 wand
5. 创建主目录与下载原始模型
6. 安装 Llama - Factory
(二)模型蒸馏数据集准备
1. 主流推理数据集介绍
2. 数据清洗过程
3. 数据集下载与准备
(三)模型蒸馏过程
1. 上传微调脚本
2. 执行微调
(四)调用测试
1. 测试问题设置
2. 普通模型调用测试
3. 蒸馏模型调用测试
第二天 DeepSeek-V3模型核心原理与架构介绍
(一)DeepSeekv3 架构图解与基本参数配置
(1)整体架构
(2)不同规模模型参数
(3)关键参数配置
(二)分布式并行化嵌入与映射
(1)ParallelEmbedding 层
(2)线性层相关实现
(3)行并行与列并行
(三)RMS Norm 层
(1)Layer Normalization 介绍
(2)LN 与 BN、RMSNorm 的差别
(3)RMSNorm 实现
(四)旋转位置编码 ROPE
(1)原理与优势
(2)具体流程
(3)相关代码实现
(五)DeepSeek v3 的 KV 缓存机制
(1)工作原理
(2)类定义与初始化
(3)forward 方法
第三天 DeepSeek v3 MLA 机制与混合专家模型介绍
(一)DeepSeek v3 的 MOE 混合专家模型
(1)与常见前馈网络对比
(2)SwiGLU 激活函数
(3)MoE 原理与优势
(4)MoE 训练流程
(5)专家选择机制
(6)瓶颈问题与辅助损失
(7)MoE 推理过程
(8)相关类定义
(二)DeepSeek v3 的 KV 缓存机制
(1)自回归算法与 KV 缓存
(2)注意力机制计算分析
(3)KV 缓存工作流程
(4)MLA 潜在注意力机制
(5)相关类定义与初始化
【环境展示】
环境展示
环境介绍
【教学模式】
1、随到随学
学员报名之后立马就可以开始学习, 无需再等人数够了再开班,每个学员都可以根据自己的时间安排制定自己的学习计划,不会再因为时间不统一落下课。
2、多对一辅导
授课老师、助教老师、班主任、就业指导老师4对1的服务模式,学员可以实时在线在线与授课老师和助教老师1对1沟通问题,就业指导老师会在就业前对学员进行1对1就业指导。
3、免费重修机制
学员报名就业课程学制结束未成功就业,不限次数免费重修。报名课程学不会,效果不理想,可申请免费换课。更有多种支付学费的方式可以提供。
4、名企推荐就业
我们已经和超过500家企业建立人才推荐合作,遍及全国20多个城市,参加我们就业实训类培训的学员都可以获得免费推荐就业的机会,我们的课程的宗旨就是系统学习IT技术,为你的职场晋升助力。
学员点评
86%满意度
上海交大教育集团IT研究院
综合
环境 : 4.3师资 : 4.3教学 : 4.3
张*吉
私信AT(环境:5.0师资:5.0教学:5.0)
老师讲课负责认真
内容完全按实操
老师也非常乐意解答实际工作遇到的问题
2024-09-06
薛*源
私信AT(环境:5.0师资:5.0教学:5.0)
在创业园区,挺不错的,老师也很热情,有耐心
2023-03-20
王*士
私信AT(环境:3.0师资:3.0教学:3.0)
环境还可以,讲的还可以,整体还可以,可以可以
2022-01-04