2025年5月上海大语言模型进阶最佳实践高级研修班-底层核心技术与部署优化

  • 课程详情

一、研修时间:2025年5月22-24日   (21日报到)

二、研修地点:上海(具体地址课前一周另发报到通知)

三、主办单位:

北京中际赛威文化发展有限公司

北京中际孚歌科技有限公司

四、研修内容:

第一篇   预备知识:自注意力Self-Attention和Transformer模型

1.编码器、解码器

2.自注意力机制详解

3.Transformer

4.Mask Multi-Head Attention

5.位置编码

6.特定于任务的输入转换

7.无监督预训练、有监督Fine-tuning

8.BERT思路的理解

9.GPT基本思想

代码和案例实践:

1.基本问答系统的代码实现

2.深入阅读理解的代码实现

3.段落相关性代码实现

4.高考作文神器

5.作文生成

第二篇:DeepSeek助力职场效率提升

第一节:AI大模型概述和赋能企业

1.AI人工智能发展简史   

2.大模型技术发展与应用   

3.大模型基本原理   

4.DeepSeek的独特优势   

5.大模型如何赋能企业

6.大模型驱动业务创新

7.制造业的数字化进展

8.制造业为什么需要大模型

9.制造业企业应用大模型的方法

10.企业应用大模型的8种情形

11.垂直制造领域大模型的构建方法   

12.企业应用大模型的实施策略   

13.成功案例与实战演练   

14.AI未来趋势与挑战

第二节:DeepSeek大模型入门

1.DeepSeek平台简介

2.DeepSeek为什么这么火?有什么核心技术

3.DeepSeek 核心功能与基础操作

4.DeepSeek推理大模型R1和普通大模型V3

5.DeepSeek大模型和国内外大模型对比

6.DeepSeek R1定位、适用场景与核心优势

7.什么场景适合使用DeepSeek R1推理大模型

8.DeepSeek推理大模型的提问技巧

9.编写指令的3个原则

10.挖掘指令的3个方法

11.编写指令的7种技巧

12.优化答案的6种模板

第三节:DeepSeek在Excel应用和AI辅助数据分析

1.DeepSeek在Excel中的应用

2.DeepSeek在数据分析实战演练

3.DeepSeek在Excel问题解决、思路构建等方面的应用方法

4.DeepSeek提升Excel函数学习和应用效率

5.DeepSeek生成Excel函数的用法

6.使用DeepSeek大模型辅助准备数据

7.使用DeepSeek大模型辅助数据分析

8.通过AI的启发和协助,培养数据处理与分析的创新思维能力

第四节:零基础开发AI Agent 智能体

1.零基础开发AI Agent 智能体

2.AI智能体的创建及工作流程

3.AI智能体个性化服务工作原理

4.为什么要学习AI Agent

5.初步认识Agent

6.Agent的概念与发展

7.Agent是高层级的AI技术应用

8.Agent的特点与能力

9.Agent开发平台的演进

10.在敏感信息的诱导下,智能体如何进行判断和过滤

11.智能体如何做规划

12.自有数据和互联网数据有差别时,智能体的选择策略

13.智能体对插件库中的插件选择判定

14.让智能体严格按照指令给出的回复规范进行回答

15.通过交互入口调用不同的智能体

16.基于字节扣子code平台开发Agent

17.基于百度,智谱等其他平台开发Agent

18.开发Agent的流程与策略

19.智能体调用自定义的工具函数

20.在多智能体系统中,搭建跨智能体的外部记忆库

21.智能体实现情感识别和反馈

22.Agent开发的功能模块详解—插件、工作流、图像流

23.Agent开发的功能模块详解—知识库、记忆与对话体验

24.实战篇:5大场景、11个Agent案例

第五节:构建基于DeepSeek专属RAG知识库

1.使用RAG框架, 什么是RAG

2.向量数据库和相似性检索

3.知识库投喂

4.RAG技术中有效的数据清洗

5.知识投喂技巧

6.知识库使用

7.知识库权限管理

8.构建个人知识库

9.构建企业知识库平台

10.RAG技术应用落地中的难点及其解决方案

第六节: 私有化部署DeepSeek多版本大模型

1.DeepSeek云端部署

2.DeepSeek和国内云平台

3.DeepSeek和基于国产信创平台部署

4.DeepSeek多模型的选择和私有化部署方案

5.利用工具私有化部署DeepSeek 大模型

6.本地运行llm的方案,包括加速/减少内存使/提高响应速度

7.一键部署DeepSeek 个人本地大模型(对本地笔记本有硬件要求)

8.DeepSeek蒸馏技术概念

9.DeepSeek微调概念

10.LLM在小设备上的实施策略

11.DeepSeek 私有化部署总结和对比

第七节:DeepSeek 在 PPT 制作中的应用

1.DeepSeek引领PPT设计新思维

2.DeepSeek对目标受众进行人群分析和情感调查

3.DeepSeek提供新颖的PPT设计思路和主题

4.利用DeepSeek 生成 PPT 大纲,明确演示逻辑

5.DeepSeek让PPT更有条理

6.与DeepSeek对话,获取讲故事和写作技巧

7.使用DeepSeek撰写引人入胜的开头和结尾部分

8.根据大纲,使用DeepSeek 获取相关图片、案例等素材

9.运用DeepSeek 进行页面布局设计建议,提升视觉效果

10.利用DeepSeek 检查 PPT 内容的逻辑性与一致性

11.不同岗位PPT 应用场景

第八节:AI制作图片设计

1.文生图方法

2.图生图方法

3.提示词精要

4.多种风格案例实操

5.AI抠图、艺术字、证件照、logo

6.AI辅助设计

7.AI做海报、banner、详情图、做场景广告图

第九节:AI生成视频

1.AI生成视频大纲

2.AI生成剧本

3.AI生成字幕

4.AI生成配乐

5.AI一键成片

6.AI半无人直播

7.AI语音直播

8.AI数字人直播

第十节:知识库和Agent部署等实操案例分析

1.带学员一起配置知识库

2.带学员一起配置Agent

3.带学员一起部署本地DeepSeek

4.分析总结

第三篇:基于DeepSeek的Agent应用开发

第一节:大模型驱动的Agent智能体概述

1.智能体的定义与特点

2.智能体与传统软件的关系

3.智能体与LLM的关系

4.从ChatGPT到智能体

5.智能体的五种能力

6.记忆,规划,工具,自主决策,推理

7.多智能体协作

8.企业级智能体应用与任务规划

9.智能体开发

第二节:基于大模型的Agent技术框架

1.Agent的四大要素

2.Agent的规划和决策能力

3.Agent的各种记忆机制

4.Agent的核心技能:调用工具

5.Agent的推理引擎:ReAct框架

6.何谓ReAct

7.用ReAct框架实现简单Agent

8.基于ReAct框架的提示

9.构建ReAct Agent

第三节:基于LangChain构建智能体何谓LangChain

1.LangChain中的六大模块

2.LangChain和Agent开发

3.LangChain构建智能体的类型

4.LangChain构建工具

5.何谓LlamaIndex

6.说说LlamaIndex

7.LlamaIndex和基于RAG的AI开发

8.简单的LlamaIndex开发示例   

第四节:推理与行动的协同:通过LangChain的ReAct框架实现

1.复习ReAct框架

2.LangChain中ReAct Agent 的实现

3.LangChain中的工具和工具包

4.create_react_agent创建鲜花定价Agent

5.深挖AgentExecutor的运行机制

6.在AgentExecutor中设置断点

7.思考:模型决定搜索

8.行动:工具执行搜索

9.思考:模型决定计算

10.行动:工具执行计算

11.思考:模型完成任务   

第五节:计划和执行的解耦:通过LangChai的Plan-and-Execute实现

1.LangChain中的Plan-and-Execute Agent

2.通过Plan-and-Execute Agent实现物流管理

3.为Agent定义一系列进行自动库存调度的工具

4.创建Plan-and-Execute Agent并尝试一个“不可能完成的任务”

5.完善请求,让Agent完成任务

6.从单Agent到多Agent

第六节:RAG技术概述

1.RAG技术概述

2.加载器和分割器

3.文本嵌入和向量存储

4.如何生成和存储Embedding

5.检索器和多文档联合检索

6.RAG技术的关键挑战

7.检索增强生成实践

8.RAG技术文档预处理过程

9.RAG技术文档检索过程

第七节:RAG的工作流程RAG的工作流程

1.数据准备

2.数据召回

3.答案生成

4.RAG的优缺点

5.RAG的优点

6.RAG的缺点

7.RAG的使用场景

8.RAG面临的挑战

第八节:基于LangChain构建RAG文档问答系统构建复杂应⽤

1.LangChain模型(Models):从不同的 LLM 和嵌入模型中进行选择

2.LangChain提示(Prompts):管理 LLM 输入

3.LangChain链(Chains):将 LLM 与其他组件相结合

4.LangChain索引(Indexs):访问外部数据

5.LangChain记忆(Memory):记住以前的对话

6.LangChain代理(Agents):访问其他工具

7.使⽤大模型构建RAG文档问答系统

第九节:评估RAG应用

1.为什么RAG应用需要评估

2.RAG应用的评估依据与指标

3.RAG应用的评估流程与方法

4.评估检索质量

5.生成检索评估数据集

6.运行评估检索过程的程序

7.评估响应质量

8.生成响应评估数据集

9.单次响应评估

10.批量响应评估

11.基于自定义标准的评估

12.RAG评估案例

第十节:多Agent最佳实践

1.智能体和多智能体multi-agent systems

2.监督者:每个Agent与一个监督者Agent通信

3.自定义多Agent工作流:每个Agent只与其他Agent通信

4.Multi-Agent多角色协作

5.SOP拆解

6.角色扮演

7.反馈迭代

8.监督控制

9.workflow automation

10.企业工程化最佳实践

第十一节:基于多模态构建Agent

1.多模态技术原理讲解

2.常用的多模态模型介绍、原理解析

3.多模态典型应用场景举例,以及技术实现

4.多模态技术实战

5.多模态需求输入:图像、语音、文本

6.语音输入集成模块

7.图像输入集成模块

8.核心需求理解与多轮输入整合模块

9.语音输入处理

10.利用多模态技术实现多模态智能聊天对话

11.基于多模态大模型的Agent开发

第十二节:基于字节Coze构建Agent:零基础开发对话机器人

1.功能概述

2.基础能力

3.插件

4.工作流

5.记忆库

6.查询天气机器人的最终效果

7.创建你的第一个机器人

8.用自然语言优化输出结果

9.用工作流优化输出结果

10.基于字节Coze构建开发软件开发智能体

11.构建研发工程师agent案例

第十三节:基于百度AgentBuilder构建智能体

1.百度文心一言大模型

2.百度千帆大模型

3.百度开发Agent智能体

4.AgentBuilder

5.AppBuilder

6.ModelBuilder

7.开发AI原生应用

8.基于百度软件开发智能体

9.构建研发工程师agent案例

第十四节:企业专属领域的智能客服Agent

1.打造专属领域的客服聊天机器人

2.客服聊天机器人概述

3.客服聊天机器人价值简介

4.客服聊天机器人研发工具

5.AI课程客服聊天机器人总体架构

6.前端功能设计

7.后端功能设计

8.AI课程客服聊天机器人应用实例

第十五节:智能体的最新发展

1.OpenAI 最新 Agent 开发框架-Swarm

2.Swarm 框架核心设计

3.基于Swarm构建智能客服系统

4.Agent 企业需求背景分析

5.Agent 架构落地资源评估

6.多模态智能体

第四篇:大模型本地部署训练和应用实践

第一节:主流大模型应用介绍和模型间的商业集成

1.典型大模型比较

GPT-4(OpenAI)

Claude(Anthropic)

Gemini(Google)

Llama(Meta)

QWen(阿里)

Coze(字节跳动)

DeepSeek(深度求索-幻方量化)

2.大模型整体技术阐述:主流技术、小众技术有哪些

3.基于Transformer架构和支持复杂上下文理解

4.大模型的量化压缩

5.GPT4的多模态能力(文本、图像输入)、逻辑推理、长文本生成。

6.GPT4应用场景建议:对话系统、内容创作、数据分析、教育

7.DeepSeek的数学、中文问答、CoT、代码生成等方向的sota做法,长上下文优化

8.DeepSeek的MoE架构,在R1、V3两个不同模型上的对比技术亮点

9.DeepSeek应用场景建议:一般性问答、金融数据分析、科研计算、教育解题

10.DeepSeek与火山Coze的商用集成方案

第二节:技术对比和主流开源大模型选型

1、模型选择

1.1 Deepseek-R1 (7B/67B):中文领域表现SOTA,支持长上下文推理

1.2 Llama-3 (8B/70B):Meta最新开源模型,多语言通用底座

1.3 Mistral-8x7B:MoE架构标杆,推理效率提升3倍

1.4 Qwen-72B:阿里千问开源版,金融法律领域微调能力强

2、基础环境搭建实操

2.1 硬件要求:至少24GB显存(如RTX 3090/A10) + 64GB内存

2.2 软件依赖:

CUDA 12.1 + cuDNN 8.9

PyTorch 2.2 + Transformers 4.38

FlashAttention-2加速库

关键配置:LD_LIBRARY_PATH添加cuda路径,设置PYTORCH_CUDA_ALLOC_CONF防止显存碎片

第三节:本地大模型私有化部署

1、Deepseek-R1部署流程

1.1 模型获取:

通过HuggingFace官方仓库申请权限

下载deepseek-r1-7b-base的safetensors格式权重

1.2 推理服务启动

关键参数trust_remote_code、max_model_len等的讲解

解释器多种启动服务方式对比

1.3 服务验证

代码调用

服务API的参数设置

2、Llama-3-8B快速部署

2.1 量化加速

FP8的特点

对比Deepseek原论文中量化章节的解读

2.2 REST API调用:

深度学习系统部署的常用方式

针对AI算法的部署框架

第四节:大模型行业数据的微调和模型训练

1、Deepseek-R1金融领域微调

1.1 数据准备:

格式:JSONL文件,每条含instruction/input/output

数据源:财报、券商研报、金融问答对、运营商问答对、意图识别数据

关键处理:使用SentencePiece重组专业术语tokenization

1.2 QLoRA训练配置

微调在大模型中的常用方法

多种LoRA方式的对别

1.3 启动训练

显存优化

GPU并行

2.探讨适合微调的场景

阐述项目中RAG模式和LoRA模式的选择

智能体自行更新数据库

LangChain, LangSmith, LangGraph的区别与使用

如何使智能体使用本地Huggingface模型并自行微调

第五节:大模型的蒸馏

1.大模型蒸馏需掌握的核心内容

2.模型蒸馏的知识迁移

3.参数量压缩、计算效率提升

4.教师-学生架构‌

5.BERT/GPT到MobileNet的蒸馏

6.软标签与硬标签‌的选择

7.损失函数设计‌、温度参数

8.知识蒸馏和特征蒸馏的区别

9.硬蒸馏与软蒸馏‌的区别

10.超参数学习率、温度参数、损失权重等调优‌

11.思考移动端部署或边缘计算的环境场景

12.DistilBERT、TinyBERT等预蒸馏模型

13.Deepseek中教师模型的产生机制

14.Deepseek使用的蒸馏技术总结

第六节:基于DeepSeek私有化代码编程

1.本地化模型部署

2.模型获取与安装

3.DeepSeek获取私有化模型安装包,模型文件(权重+配置文件)

4.硬件选型:GPU算力、内存、存储,并安装依赖环境CUDA、Docker、Python库

5.服务器内网环境管理和必要的设置

6.开发工具本地化集成、IDE插件适配

7.Cursor、CodeGPT等工具配置,模型调用指向DeepSeek API,禁用云端服务

8.搭建本地模型服务(RESTful API或gRPC)

9.离线依赖管理:搭建私有仓库

10.禁用外部数据传输,关闭开发工具自动更新、云同步功能

11.对模型文件、代码库进行加密存储,记录所有模型调用日志

12.记录用户操作(如模型调用、代码提交)

13.确定DeepSeek的离线更新流程,及时模型补丁

第七节:自定义知识问答

1、研报文档自动生成系统

架构设计:

1.1 数据层:Wind API实时获取宏观指标 + PDF解析模块

1.2 推理层:

Deepseek-R1作为生成核心

Mistral-8x7B进行事实核查

1.3 评估层:

Rouge-L评估内容一致性

FinBERT检测财务数据矛盾

以部署拓扑理清整体脉络

常规分析、复杂计算、数据采集、向量数据库、路由决策、Deepseek-R1/Mistral-8x7B、合规审查、PDF输出

2、业务领域的对话系统(根据具体需要选择智能投顾、套餐产品等)

关键技术点:

2.1 RAG增强:

使用LlamaIndex构建行业知识图谱

FAISS向量库实现百万级文档秒级检索

2.2 记忆管理:

缓存最近轮次的对话摘要

采用CoT(Chain-of-Thought)提示工程技术

2.3 风控拦截:

关键词过滤(如“保证收益”、“100%”等违规表述)

置信度阈值设定(softmax概率<0.7时触发人工接管)

第八节:上线前的大模型系统优化

1、性能加速方案

1.1 量化压缩:

GPTQ 4bit量化使模型体积减少70%

采用DeepseekV3提出的MTP技术实现tokens

1.2 缓存策略:

KV Cache分块存储,降低重复计算

高频问题回答预生成

2、监控体系建设

2.1 业务指标:

平均响应时间<2.5s

意图识别准确率>92%

2.2 模型指标:

PPL(困惑度)波动监控

Attention熵值异常检测

2.3 硬件监控:

GPU利用率>85%时自动扩容

显存泄漏预警机制

五、培训费用及注意事宜:

1.培训费:4600元/人(含培训费、22、23、24日三天午餐及资料费、证书费等)。

2.培训会务工作由北京中际赛威文化发展有限公司组织,并为学员出具正式发票。

3.住宿安排:培训期间住宿可由会务代为预定,费用自理。

六、主讲专家:

邹博士,某大学人工智能研究院院长,工程学术带头人、山东交通学院客座教授、南昌航空大学硕士生导师、中国软件行业协会专家委员、上海市计划生育科学研究所特聘专家、天津大学创业导师、中华中医药学会会员、中国医药教育协会老年运动与健康分会学术委员;领导睿客邦与全国二十多所高校、国企建立了AI联合实验室,完成50多个深度学习实践项目,广泛应用于医疗、交通、农业、气象、银行、电信等多个领域。

七、证书颁发:培训结束后由主办单位向参会学员颁发结业证书。

八、课程咨询:010-64113137