一、课程介绍:
2026年深度学习在视觉领域已经从单一的CNN模型范式演化成基于CNN与Transformer的混合范式;从单一图像数据输入的单任务监督学习模式演化为基于文本提示加图像多模态输入的对比学习与自监督学习视觉语言模型(VLM)。本课程主要为学员提供全面深入深度学习与多模态的VLM知识体系和实践技能,涵盖了从基础概念到高级技术的全方位内容,通过理论讲解和实际项目实践,使学员能够熟练运用深度学习与多模态解决现实世界的计算机视觉问题。
二、主办单位:
北京中际孚歌科技有限公司
北京中际赛威文化发展有限公司
三、时间、地点:2026年4月16-18日 南京
四、培训对象:本培训课程适用于从事计算机视觉算法开发与应用相关领域的研究人员、高级技术人员、专业工程技术人员。需要有一定的高级语言编程基础和人工智能基础知识。
五、研修内容:
第一章:深度学习理论
1.1 深度学习的发展与起源、框架与开发环境
1.2 人工神经网络发展与基本原理
1.3 循环神经网络介绍
1.4 生成式人工智能的起源、发展与现状
第二章:卷积神经网络
2.1 卷积基本概念、卷积、池化、激活函数、反向传播、骨干网络结构(AlexNet、VGGNet、GoogLeNet、Inception Net、ResNet、DenseNet、MobileNet)
2.2 经典的卷积设计方法,1x1卷积、空洞卷积、转置卷积、残差与反向残差、FPN与PANet、SPP与SPPF
2.3 系列网络结构拆解与修改
2.4 卷积神经网络模型训练方法- 迁移学习、冻结与全链路调优、GPU与云算力训练实践。
2.5 数据标注,标注方法与工具,数据清洗与数据增广方法,YOLO11系列模型的数据集格式,自定义模型从训练到部署。
2.6 模型部署与推理加速、主流CNN模型部署框架、加速方法、C++与Python部署YOLO11代码演示。
第三章:多模态大模型视觉理论与实践
3.1 大模型的起源基础,Transform系列网络,解码器与编码器、自注意力与循环注意力、掩码注意力。
3.2 Bert与GPT技术的发展与分支
3.3 ViT系列模型,Transform网络的技术演化,图像分类、对象检测、示例分割的支持
3.4 CLIP网络详解与零样本的图像分类能力,多模态网络与视觉多模态网络模型结构与发展。CLIP模型的应用场景
3.5 DINO网络详解与零样本的图像分类能力,自监督特征提取能力。DINO模型的应用场景
3.6 SAM网络模型 – 自动标注与自动替换、自动生成
3.7 工业缺陷异常检测模型从正样本到零样本、ZSAD系列模型介绍。零样本ZSAD模型的部署与缺陷检测代码演示。
第四章:主流大模型架构与部署框架
4.1 常用MLLM与VLM模型介绍
4.2 大模型的部署框架与方法
4.3 大模型SDK接入与开发者模式
4.4 大模型的RAG模式与对话模式
4.5 多轮对话能力与TOC模式学习
4.6 多模态VLM部署与开发示例
4.7 YOLO系列 + VLM构建 检测+审核机制的AI安防应用。
第五章:AI编程与代码生成技术
5.1 代码生成技术的发展与历史
5.2 AIGC时代的代码生成技术,理解、对话、生成、修改、解释
5.3 主流的代码生成工具安装、演示、集成
5.4 AI编程案例演示,如何编写提示词的技巧,设计的重要性
5.5 OpenCV零代码开发技术与框架、介绍与使用
5.6 AI编程的未来,提示词即代码,90%的代码将由AI生成
案例一:基于多模态大模型的缺陷分类检测
零缺陷样本零训练五分钟实现搞精度工业缺陷检测。
案例二:基于多模态的零样本图文搜索平台构建
基于最新的大模型与多模态VLM模型(QWEN-VL/InternVL)零样本实现自定义以文搜图与以图搜图系统。
六、主讲专家:
中国高科技产业化研究会智能信息处理分会理事、中际赛威高级培训讲师。精通OpenCV开源框架、Tensorflow/Keras/pytorch深度学习框架与图像对象检测与识别等应用开发技术。在对象检测、医学细胞检测与识别、文本处理、图像搜索、人脸美化算法方面有深入研究、开发过多个图像处理算法模块并成功应用在医学检测与工业领域。出版OpenCV相关图书三本,发表论文多篇,主讲过多期OpenCV线下技术培训,深受学员好评。
七、培训费用及注意事宜:
1、培训费:4600元/人(含培训费、午餐费、讲义资料费等)。
2、 培训期间食宿统一安排,费用自理。
3、收款、开发票、培训会务工作由北京中际孚歌科技有限公司负责。
八、证书颁发:培训结束后由主办单位向参会单位学员颁发结业证书。
九、课程咨询:010-64113137