掌握多模态 ,引领新未来!
在这个技术日新月异的时代,掌握多模态大模型的最新进展和应用,已成为 AI 领域专业人士的必修课。本课程是一门面向多模态大模型前沿技术的系列课程,深入探讨了当前多模态大模型的核心技术与最新进展。课程覆盖了从基础概念到高级算法实现的全流程学习路径,帮助你全面掌握多模态 AI 的关键技术。你将不仅了解多模态架构的理论背景,还会通过多个实际项目演练,深入实践多模态大模型的应用。
课程简介
本系列课程为你设计了从底层组件到核心算法 ,再到企业级部署的全链路学习路径。这不仅是一门 AI 技术课程,更是你通往多模态专家的系统化作战地图!
课程覆盖主流多模态架构、多模态 Agent、数据构建、训练流程、评估与幻觉分析,并配套多个项目实战:深入剖析 LLaVA、LLaVA-NeXT、IXC、Qwen3-VL、TimeSearch-R 视频理解等,包含算法讲解、模型微调/推理、服务部署、核心源码解析,带你从0到1,完成环境配置、模型微调、性能评测、服务部署全流程。
你将获得所有项目的完整代码、数据集、课程讲义 PDF、核心论文及学习笔记,这些配套资料将成为你学习过程中的重要工具,帮助你更好地理解并应用课程中的核心技术与概念。
项目实战简介
实战项目1:
LLaVA 多模态模型全流程实战
LLaVA 系列是继 CLIP 之后在视觉语言领域最具标志性的里程碑之一。本项目以 LLaVA 多模态大模型为核心,完整实战从 环境配置、模型推理与部署,到源码级解析、预训练与 LoRA / QLoRA 微调的全流程。
内容覆盖 Transformers 推理实践、LMDeploy 服务化部署、自定义数据集训练、模型合并与评测,并通过多节源码 Debug,深入理解 LLaVA 推理与微调的核心实现。
实战项目2:LLaVA-NeXT 多模态核心技术实战
深入探索更强大的 LLaVA-NeXT 多模态模型核心技术,完整实战从环境配置、模型推理实践,到推理核心源码 Debug 与工程化部署的全流程。
内容覆盖 SGLang 模型服务部署、同步与异步并发推理、Gradio 多模态交互实践,并结合 Interleave-Bench 评测与源码解析,深入理解 LLaVA-NeXT 的推理机制与评估体系。
实战项目3:通义千问 Qwen-VL 项目全流程实战
实战阿里系旗舰模型,从 环境配置、模型推理与 Web 交互,到推理源码解析与 API 服务化部署的完整流程。
内容涵盖 Transformers 推理、Gradio 交互、OpenAI 风格 API 适配、LMDeploy 部署,并进一步完成 Qwen-VL 微调、模型评估及评测源码解析,系统理解其工程落地与优化机制。
实战项目4:IXC 多模态项目深度实战演练
深度演练 IXC 系列模型,从模型推理、Web 交互构建,到多场景部署与服务化落地 的完整工程流程。
内容涵盖 Transformers 推理、Gradio 多模态交互、LMDeploy Pipeline 与 Docker 部署、4-bit 量化推理,并进一步完成自定义多模态数据集构建、LoRA 微调与模型合并部署,最终通过 XComposer 核心源码 Debug,深入理解多模态模型的推理与训练机制。
实战项目5:长视频理解 TimeSearch-R 算法原理与项目实战
以字节开源的 TimeSearch-R面向长视频理解的自适应时序搜索框架为核心,系统实战从环境配置、模型推理与 API 服务部署,到完整训练流程与强化学习优化的全链路实现。
内容涵盖基于 Qwen2.5-VL 的多轮时序搜索推理、SigLIP语义帧检索服务、vLLM 加速推理与 API 服务化部署,并深入实践 SFT 监督微调与GRPO-CSV 强化学习训练,全面理解长视频多模态推理、主动时序搜索与端到端优化机制。
实战项目6:Qwen3-VL 原理详解与项目实战
以阿里 Qwen3-VL 多模态模型为核心,系统讲解其关键算法原理与完整项目实战流程,贯通模型设计思想与工程落地实现。
内容涵盖 RoPE 与交错式 MRoPE 位置编码、DeepStack 视觉特征融合、文本驱动时间戳与视觉 System 2 推理机制,并进一步完成 Qwen3-VL 项目架构解析、推理部署、微调数据准备及训练与评估实战,全面理解 Qwen3-VL 的多模态建模与应用能力。
课程内容概览
(请点击播放以下视频查看课程简介)
课程目录
- LLaVA实战项目资料
- LLaVA环境配置与模型下载 (13:45)
- LLaVA在五种场景下的模型部署与推理 (25:17)
- 基于Transformers进行LLaVA案例实践 (19:13)
- Transformers框架下LLaVA推理核心源码解析 (20:43)
- 使用LMDeploy部署模型并访问API服务 (11:06)
- 基于LMDeploy的Pipeline接口进行推理 (12:04)
- 基于自定数据集进行LLaVA模型预训练实战 (25:27)
- 基于LoRA和QLoRA进行LLaVA模型微调 (18:59)
- 基于合并的模型进行服务部署 (5:26)
- 在常见基准和LLaVA-Bench上进行LLaVA模型评测 (24:04)
- LLaVA推理核心源码Debug深入讲解(上) (20:15)
- LLaVA推理核心源码Debug深入讲解(中) (17:36)
- LLaVA推理核心源码Debug深入讲解(下) (19:40)
- LLaVA模型LoRA微调核心源码Debug深入讲解 (23:46)
- LLaVA-NeXT实战项目资料
- LLaVA-NeXT 环境配置 模型下载 模型推理实践 (13:18)
- LLaVA-NeXT 模型推理核心代码Debug深入讲解 (30:53)
- LLaVA-NeXT 基于SGLang框架进行API模型服务部署与推理 (14:12)
- LLaVA-NeXT 基于SGLang模型部署以及异步和同步并发请求测试 (13:37)
- LLaVA-NeXT 基于SGLang Runtime加载模型并进行推理 (10:38)
- LLaVA-NeXT 基于Gradio进行多模态问答交互与核心源码Debug深入讲解(上) (22:48)
- LLaVA-NeXT 基于Gradio进行多模态问答交互与核心源码Debug深入讲解(下) (21:23)
- LLaVA-NeXT-Interleave-Bench 多模态模型评估实践 (14:15)
- LLaVA-NeXT-Interleave-Bench 模型评估核心源码Debug深入讲解(上) (21:42)
- LLaVA-NeXT-Interleave-Bench 模型评估核心源码Debug深入讲解(下) (10:02)
- 阿里多模态 思维导图
- 阿里多模态项目 学前导览 (8:13)
- 多模态mPLUG算法原理剖析(上) (14:22)
- 多模态mPLUG算法原理剖析(下) (14:44)
- 多模态 mPLUG-2 算法原理剖析 (21:54)
- 多模态 mPLUG-Owl 核心算法原理剖析 (11:05)
- 多模态 mPLUG-Owl-2 核心算法原理剖析 (14:30)
- 多模态 Qwen-VL 核心算法原理剖析 (24:43)
- 多模态 UReader 核心算法原理剖析 (21:00)
- 多模态 mPLUG-DocOwl 核心算法原理剖析 (6:21)
- 多模态 mPLUG-DocOwl-1.5核心算法原理剖析 (17:17)
- 多模态 mPLUG-PaperOwl 核心算法原理剖析 (12:16)
- 多模态 mPLUG-TinyChart 核心算法原理剖析 (10:06)
- 通义千问Qwen-VL实战项目资料
- 通义千问 Qwen-VL 项目实战简介 (7:10)
- 项目环境配置与模型下载 (11:50)
- 基于Transformers框架进行模型推理 (11:23)
- 基于Gradio进行Web QA交互 (9:39)
- Qwen-VL 模型推理核心源码进行讲解(上) (16:47)
- Qwen-VL 模型推理核心源码进行讲解(下) (15:45)
- 适配OpenAI API接口 启动API服务并测试 (14:55)
- 使用LMDeploy CLI启动API服务并实现访问 (12:32)
- LMDeploy使用Docker部署模型API服务 (10:01)
- 基于指标QPS比较Transformers和LMDeploy两种部署方案 (22:50)
- Qwen-VL 多模态模型微调实战(上) (15:52)
- Qwen-VL 多模态模型微调实战(下) (14:17)
- Qwen-VL 模型微调核心源码讲解 (26:01)
- Qwen-VL 模型在多个基准数据集上进行评估实战 (20:12)
- Qwen-VL 模型评估核心源码讲解(上) (24:29)
- Qwen-VL模型评估核心源码讲解(下) (27:28)
- IXC多模态实战项目资料
- IXC项目简介与环境配置:模型下载指南 (9:40)
- 使用Transformers实现多模态模型推理 (12:36)
- 通过Gradio构建多模态Web交互问答系统 (9:04)
- 深入解析推理核心源码(上) (14:51)
- 深入解析推理核心源码(下) (17:54)
- 利用LMDeploy pipeline实现四种场景下的模型推理 (14:12)
- 使用OpenAI集成VLM服务并进行API服务测试 (10:04)
- 基于LMDeploy和Docker容器化部署模型并测试API服务 (10:32)
- 通过LMDeploy加载4-bit量化模型进行推理 (7:51)
- 调用OpenAI API生成自定义多模态数据集(上) (11:11)
- 调用OpenAI API生成自定义多模态数据集(中) (10:46)
- 调用OpenAI API生成自定义多模态数据集(下) (11:23)
- 使用自定义数据集进行多模态模型LoRA微调实战 (9:01)
- 将LoRA权重与原模型合并后进行服务部署并测试 (10:02)
- XComposer核心源码Debug深入剖析(第一部分) (19:30)
- XComposer核心源码Debug深入剖析(第二部分) (24:13)
- XComposer核心源码Debug深入剖析(第三部分) (11:21)
- XComposer核心源码Debug深入剖析(第四部分) (26:33)
- Qwen3-VL:突破多模态长上下文与视觉推理的架构革新 (9:23)
- RoPE 原理概述与频谱偏见 (9:49)
- 深入理解交错式 MRoPE 位置编码策略 (15:35)
- DeepStack 从浅层到深层的视觉特征融合 (9:26)
- 基于文本的显示时间戳 (5:45)
- 视觉 System 2 慢思考 (8:57)
- Qwen3-VL 项目概览、架构与 Web 服务 Docker 部署 (11:39)
- Qwen3-VL 环境配置+Transformers / vLLM 推理部署 (13:28)
- Qwen3-VL 微调数据集准备 (9:57)
- Qwen3-VL 微调训练与模型评估实战 (14:54)
课程特色
系统化与结构化:遵循“理论基础 → 算法演进 → 项目实战 → 源码剖析”的学习闭环,构建坚实且全面的知识体系。
超强实战导向:包含多个主流多模态项目的全流程实战:多模态强化学习(RL)、多模态 RAG、多模态 Agent 等前沿多模态项目,核心代码提供中文版详解注释,助你扫清实践障碍。
独家创新内容:原创算法与工程方法:提供原创的算法 Python 实现、多场景部署方案、自动化数据集生成方法等独家内容,助你站在 AI 前沿技术浪潮之巅!
终身学习权限:课程内容永久有效,购买后即可获得本课程的【终身学习权限】,作为你的“知识宝典”,可以随时复习和回顾。
课程配套资料
为了帮助你在学习过程中深入掌握课程内容,我精心准备了一系列配套资料。这些资料包括:
课程相关笔记文档:涵盖多模态大模型的前沿技术、视觉编码器及投影器的详细解读,帮助你加深对技术的理解。
案例实践的相关代码:提供了核心算法如 CLIP、EVA 系列模型等的实现代码,帮助你在实战中快速上手。
实战项目的代码:每个项目的完整代码,包括预训练、微调、以及多模态推理等模块,确保你能顺利完成项目实战。
精讲论文思维导图:清晰呈现整个多模态课程的思维导图,以及阿里多模态相关技术的思维导图,帮助你快速理解复杂理论。
多模态相关的精读论文文档:针对视觉语言模型和相关多模态技术,整理了前沿研究的精读笔记,帮助你洞悉最新技术趋势。
这些配套资料将成为你学习过程中的重要工具,帮助你更好地理解并应用课程中的核心技术与概念。你可以在课程页面内自助下载所有配套资料。
更多精品课程
学习更多大模型相关精品课程,构建更完整的大模型能力体系。
加入免费公开课
学习免费公开课快速了解课程深度与授课风格,再选择最合适的精品课程进行系统化训练与项目级落地。
常见问题
一、支持的付款方式有哪些?
本网站支持以下付款方式:
- PayPal 付款
- 双币种或全币种的信用卡付款
- 通过淘宝店铺或微信小店付款(淘宝与微信仅作为支付通道,课程仍在本网站学习)。
请参考《付款指南》,选择适合你的付款方式。
在淘宝店铺或微信小店支付后,请发送订单号和用于注册学习账号的邮箱到我的公众号、或通过微信或 Discord 联系课程助理,我们将尽快处理你的订单并邀请你加入对应课程。(你可以提前注册账号,只需确保提供给我的邮箱与注册邮箱一致即可。点此查看《注册登陆指引》)
二、课程是否提供一对一指导?
本课程的定价仅包含:
- 全部课程视频的终身观看权限
-
配套资料的完整下载与后续更新
课程不包含一对一指导服务。但在时间允许的情况下,我会尽力为大家进行课程相关的问题的解答,帮助大家顺利学习。
精品课程内容经过反复打磨与完善,并配有详尽的资料,确保你高效掌握相关知识。目前已通过数百名同学的真实学习反馈,获得高度好评。
如果你在学习过程中有任何疑问,欢迎你:
- 参与精品课程后,根据课程前面的提示,加入 Discord 或微信群,在群内提问;
- 在对应课程视频下方评论区留言提问;
- 登录网站后,点击右上角头像 → 选择 “Contact” 给我发送邮件。
三、与在B站学习有什么区别?
精品课程在本网站与B站课堂同步上线,课程内容本身完全一致,区别主要体现在以下几个方面:
1.功能与课程资料呈现方式不同:
官网课程资料与视频内容同步展示,可在对应章节中预览并下载使用。B站以视频播放为主,请购买后通过私信发送订单号(查看路径:B站右上角“信箱”→消息列表中课堂对话窗中的订单号),以便获取对应课程资料并邀请你加入我们的 AI 学习圈。
2.发票开具说明:
本网站直接购买:将会自动收到一封收据邮件,请在你的注册邮箱中查看。
通过淘宝/微信小店支付:如需发票请直接联系在线客服即可开具。
B站购买:订单由B站平台统一管理,如需开具发票,请在B站后台订单中申请,或联系B站客服了解详细流程。
⚠️温馨提示(适用于 iOS 用户)
如果你使用 iPhone 或 iPad 访问 B站并购买课程,建议使用电脑端或手机浏览器访问我的B站课堂完成课程购买,避免额外支付 iOS 端加收的30%渠道费用。
四、什么时候购买最优惠?
答案是——如果你已经决定开始学习,现在就是最合适的时机。
精品课程一次购买,终身有效。除了偶尔的粉丝回馈活动,精品课程不会参与任何限时折扣或平台促销,价格始终保持公开透明。如果未来课程内容有更新和迭代,价格也会随之逐步上调。
我希望大家把有限的时间和精力花在真正有价值的学习上,而不是计算“活动价”上;我希望大家购买课程,不是因为打折,而是因为它真的能让你成长、进步、变得更强。
如果你做过对比,能够透过花哨的宣传看清楚知识的本质,你应该会知道我的精品课程的性价比。你甚至可以通过学习我分享的免费公开课,就可以学到很多在其他地方需要付费才能学到的知识。
五、我是转行过来的,听说大模型很火,学完这个课程能不能直接上手?
实事求是的说,我并不建议你直接学习我的课程。我的精品课程专为 AI 技术领域的专业人才设计,课程内容紧随前沿技术,具有一定深度,并不是仅凭一步步跟随操作就能学会的简单教学。非科班出身或转行学习者可能会感到吃力。如果你决心深入学习AI技术,我真诚的建议你花一些时间,好好梳理一下,将一些相关的基础知识先理解和掌握。只有打好基础,一步步积累,才能真正与前沿技术接轨。
六、我可以每天问很多很多的问题吗?
我非常欢迎大家积极的学习和提问,但一定要问有价值的问题。对于那些通过AI或搜索引擎即可找到答案的问题,以及可以在B站或 YouTube 等平台免费学习的基础知识,我建议你主动学习和理解,这比直接提问更为高效。主动解决问题是 AI 技术学习者的基本能力,要尽快摸索出一套适合自己的高效学习方法,这样你才能在技术这条路上越走越远。
七、听说课程永久有效、后续还会进行更新,什么时候会更新?
作为一个终身学习的技术人,所有精品课程都会随着技术的发展以及我个人的技术积累为大家适时进行更新。由于时间精力有限,我会根据技术发展的成熟度以及个人工作安排来进行更新。大家可以关注网站课程页面,以及公众号、B站动态、YouTube 动态、邮箱推送等官方账号通知。