上海交大教育集团IT研究院

7x24小时咨询热线

400-660-3310

当前位置 : 好学校 上海人工智能 上海交大教育集团IT研究院 课程正文

人看过 人预约 收藏分享

上海DeepSeek蒸馏技术与模型核心原理培训

授课方式 :
上课时段:

上课校区:

报读该课程可在好学校领取返现奖励20元

微信扫码添加老师好友咨询

上海交大教育集团IT研究院

上海交大教育集团IT研究院

认证等级

信誉良好,可安心报读

上海交大教育集团IT研究院

已获好学校V2信誉等级认证

信誉值

  • (60-80)基础信誉积累,可放心报读
  • (81-90)良好信誉积累,可持续信赖
  • (91-100)充分信誉积累,推荐报读

与好学校签订读书保障协议:

在线咨询
2025.04.04 王*3 152*****609 咨询了 上课时段
2025.04.03 李* 171*****785 咨询了 课程费用
2025.03.30 颢*翰 131*****181 咨询了 上课时段
2025.03.28 刘*伟 155*****858 咨询了 授课师资
2025.03.27 李*生 171*****738 咨询了 授课师资
2025.03.27 朱* 152*****613 咨询了 开班时间
2025.03.26 俞*秀 180*****440 咨询了 授课师资
2025.03.25 严*素 173*****078 咨询了 上课时段
2025.03.25 谢*生 136*****787 咨询了 开课校区
2025.03.25 钟*士 153*****545 咨询了 开课校区
2025.03.24 杜*清 158*****171 咨询了 授课师资
2025.03.23 明*虎 176*****604 咨询了 招生对象
2025.03.23 朴*儒 130*****927 咨询了 授课师资
2025.03.23 董*生 184*****766 咨询了 开课校区
2025.03.22 郑* 176*****962 咨询了 开班时间
2025.03.22 秦*生 173*****697 咨询了 上课时段
2025.03.21 学*员 173*****162 咨询了 招生对象
2025.03.20 姚*生 189*****901 咨询了 上课时段
2025.03.20 于*生 180*****215 咨询了 招生对象
2025.04.02 杨*壮 136*****379 咨询了 开班时间
上海DeepSeek蒸馏技术与模型核心原理培训

【培训天数】

3天/24课时

【课程概述】

本课程聚焦于 DeepSeek R1 模型蒸馏 Qwen2 1.5B 的实践操作,旨在让学员掌握模型蒸馏的全流程,包括环境部署、数据集准备、蒸馏过程及调用测试,提升学员在大模型应用与优化领域的实践能力。课程还包含DeepSeek V3 模型核心原理、整体架构、分布式基础概念、MLA嵌在注意力从自回归掩码看KV缓存机制,针对KV缓存的改进,DeepSeek MOE架构与创新介绍。

【课程目标】

能够独立搭建 DeepSeek R1 模型蒸馏 Qwen2 1.5B 的实验环境,包括创建虚拟环境、安装相关依赖和工具。

熟悉多种可用于模型蒸馏的数据集,掌握数据集的清洗和准备方法,能根据需求筛选和处理数据。

理解并熟练执行模型蒸馏过程,运用 Llama - Factory 进行全量指令微调,优化模型性能。

学会对蒸馏前后的模型进行调用测试,准确评估模型在实际问题解决中的表现,分析模型的优势与不足。

【课程亮点】

实战派学习

从DeepSee-R1入门介绍,到模型蒸馏项目实战的讲解,再到核心原理介绍,由浅入深便于理解世界高级大模型背后的奥秘。

完整的训练脚本和数据集

课程会分享讲解过程中所使用的训练脚本、代码、数据集,并提供参考的部署环境,可通过课后练习复现加深印象。

技术报告创新点剖析

不用通篇阅读官方技术报告的,通过课程讲解即可了解到DeepSeek-R1/V3核心创新点。

本地部署与私有化方案

介绍本地部署所需要的软硬件资源调配。

第一天 DeepSeek-R1蒸馏Qwen1.5B实战 

(一)模型蒸馏环境部署

1. 操作系统与配置说明

2. 创建虚拟环境

3. 创建 Jupyter Kernel

4. 安装 wand

5. 创建主目录与下载原始模型

6. 安装 Llama - Factory

(二)模型蒸馏数据集准备

1. 主流推理数据集介绍

2. 数据清洗过程

3. 数据集下载与准备

(三)模型蒸馏过程

1. 上传微调脚本

2. 执行微调

(四)调用测试

1. 测试问题设置

2. 普通模型调用测试

3. 蒸馏模型调用测试

第二天 DeepSeek-V3模型核心原理与架构介绍

(一)DeepSeekv3 架构图解与基本参数配置

(1)整体架构

(2)不同规模模型参数

(3)关键参数配置

(二)分布式并行化嵌入与映射

(1)ParallelEmbedding 层

(2)线性层相关实现

(3)行并行与列并行

(三)RMS Norm 层

(1)Layer Normalization 介绍

(2)LN 与 BN、RMSNorm 的差别

(3)RMSNorm 实现

(四)旋转位置编码 ROPE

(1)原理与优势

(2)具体流程

(3)相关代码实现

(五)DeepSeek v3 的 KV 缓存机制

(1)工作原理

(2)类定义与初始化

(3)forward 方法

第三天 DeepSeek v3 MLA 机制与混合专家模型介绍 

(一)DeepSeek v3 的 MOE 混合专家模型

(1)与常见前馈网络对比

(2)SwiGLU 激活函数

(3)MoE 原理与优势

(4)MoE 训练流程

(5)专家选择机制

(6)瓶颈问题与辅助损失

(7)MoE 推理过程

(8)相关类定义

(二)DeepSeek v3 的 KV 缓存机制

(1)自回归算法与 KV 缓存

(2)注意力机制计算分析

(3)KV 缓存工作流程

(4)MLA 潜在注意力机制

(5)相关类定义与初始化

【环境展示】

环境展示

环境介绍

【教学模式】

1、随到随学

学员报名之后立马就可以开始学习, 无需再等人数够了再开班,每个学员都可以根据自己的时间安排制定自己的学习计划,不会再因为时间不统一落下课。

2、多对一辅导

授课老师、助教老师、班主任、就业指导老师4对1的服务模式,学员可以实时在线在线与授课老师和助教老师1对1沟通问题,就业指导老师会在就业前对学员进行1对1就业指导。

3、免费重修机制

学员报名就业课程学制结束未成功就业,不限次数免费重修。报名课程学不会,效果不理想,可申请免费换课。更有多种支付学费的方式可以提供。

4、名企推荐就业

我们已经和超过500家企业建立人才推荐合作,遍及全国20多个城市,参加我们就业实训类培训的学员都可以获得免费推荐就业的机会,我们的课程的宗旨就是系统学习IT技术,为你的职场晋升助力。

开班信息

学时
学费
操作

    校区地址

    广州
    上海
    二维码

    微信扫一扫,发送到手机

    随时随地,用手机查看地图路线,更可实时导航,轻松到校!

    学校相册

    更多 >
    环境/教学大图
    环境/教学大图
    环境/教学大图
    环境/教学大图

    学员点评

    86%满意度

    上海交大教育集团IT研究院

    综合

    环境 : 4.3师资 : 4.3教学 : 4.3

    12850人看过    1490人预约    3人评价
    张*吉

    张*吉

    私信AT
    有用(2请教

    (环境:5.0师资:5.0教学:5.0

    老师讲课负责认真
    内容完全按实操
    老师也非常乐意解答实际工作遇到的问题

    2024-09-06

    薛*源

    薛*源

    私信AT
    有用(1请教

    (环境:5.0师资:5.0教学:5.0

    在创业园区,挺不错的,老师也很热情,有耐心

    2023-03-20

    王*士

    王*士

    私信AT
    有用(0请教

    (环境:3.0师资:3.0教学:3.0

    环境还可以,讲的还可以,整体还可以,可以可以

    2022-01-04

    读书保障 :

    • 正规资质

      所有学校都经过好学校品牌认证,办学许可证、工商营业执照。

    • 免费求学顾问

      通过好学校咨询,你可获得好学校免费求学顾问1对1专业服务,助你快速找到满意学校!

    • 优质教学

      通过好学校报读,你将可在好学校进行课程点评,你的评价将影响学校招生,学校会更重视你,给你更优质教学,避免你差评。

    • 消费权益保障

      通过好学校报读,若你与学校发生纠纷,你可获得好学校来自第三方的平台保障,协助你让学校退款,维护你的合法权益!

    更多适合课程

    全城人工智能学校,一网打尽,立即搜索:

    城市 : 求学课程 : 上课时间 :

    课程咨询

    好学校二维码

    随时随地与老师微信互动

    在线预约免费试听

    • 现在免费预约试听,报名可最高返现
    • 获取验证码
    ;