Autoplay
Autocomplete
Previous Lesson
Complete and Continue
多模态大模型 前沿算法与实战应用(第一季:图文与视频理解)
多模态系列课程第一季 图文与视频理解
课程简介 (28:54)
课程相关资料 下载
Tommy的AI学习圈-2024
第一章 多模态大模型前沿技术综述与最新进展
学前下载-本系列课程思维导图(会随着课程一起更新)
多模态AI简介与最新技术进展 (25:51)
通用多模态架构核心组件及其实现方式解析 (17:05)
领域多模态架构及其视觉编码器和投影器详解 (35:45)
领域多模态MoE、Mamba与统一框架:高效多模态方案 (21:37)
从预训练到微调:数据在多模态模型中的全周期应用 (21:04)
前沿多模态微调技术:PEFT与RLHF技术解析 (23:54)
多模态评估方法详解 (26:49)
多模态幻觉:数据、模型与训练深入探讨 (31:37)
多模态模型应用场景分析 (20:12)
小测验
第二章 多模态视觉编码器系列算法深度解析
视觉编码器CLIP算法原理深入讲解 (26:45)
视觉编码器EVA系列模型深入讲解 (26:18)
第三章 多模态投影器系列算法核心解析
投影器TokenPacker算法原理深入讲解 (28:16)
投影器Matryoshka算法原理深入讲解 (27:18)
第四章 LLaVA多模态系列算法实战解析
LLaVA系列学习指南与课程内容速览 (19:59)
LLaVA简介与视觉指令数据生成的原理 (13:09)
LLaVA基于视觉指令数据进行模型微调的原理 (13:31)
LLaVA 1.5探索视觉指令微调与高分辨率扩展 (19:23)
LLaVA 1.6从高分辨率输入到高效部署 (8:56)
LLaVA-NeXT Stronger更强的LLM与全面评估集LLaVA-Bench (9:08)
LLaVA-NeXT全面的消融研究与综合分析 (23:26)
LLaVA-NeXT-Interleave核心原理与架构解析 (16:33)
第五章 实战项目1:LLaVA多模态模型全流程实战
LLaVA实战项目资料
LLaVA环境配置与模型下载 (13:45)
LLaVA在五种场景下的模型部署与推理 (25:17)
基于Transformers进行LLaVA案例实践 (19:13)
Transformers框架下LLaVA推理核心源码解析 (20:43)
使用LMDeploy部署模型并访问API服务 (11:06)
基于LMDeploy的Pipeline接口进行推理 (12:04)
基于自定数据集进行LLaVA模型预训练实战 (25:27)
基于LoRA和QLoRA进行LLaVA模型微调 (18:59)
基于合并的模型进行服务部署 (5:26)
在常见基准和LLaVA-Bench上进行LLaVA模型评测 (24:04)
LLaVA推理核心源码Debug深入讲解(上) (20:15)
LLaVA推理核心源码Debug深入讲解(中) (17:36)
LLaVA推理核心源码Debug深入讲解(下) (19:40)
LLaVA模型LoRA微调核心源码Debug深入讲解 (23:46)
第六章 实战项目2:LLaVA-NeXT 多模态核心技术实战
LLaVA-NeXT实战项目资料
LLaVA-NeXT 环境配置 模型下载 模型推理实践 (13:18)
LLaVA-NeXT 模型推理核心代码Debug深入讲解 (30:53)
LLaVA-NeXT 基于SGLang框架进行API模型服务部署与推理 (14:12)
LLaVA-NeXT 基于SGLang模型部署以及异步和同步并发请求测试 (13:37)
LLaVA-NeXT 基于SGLang Runtime加载模型并进行推理 (10:38)
LLaVA-NeXT 基于Gradio进行多模态问答交互与核心源码Debug深入讲解(上) (22:48)
LLaVA-NeXT 基于Gradio进行多模态问答交互与核心源码Debug深入讲解(下) (21:23)
LLaVA-NeXT-Interleave-Bench 多模态模型评估实践 (14:15)
LLaVA-NeXT-Interleave-Bench 模型评估核心源码Debug深入讲解(上) (21:42)
LLaVA-NeXT-Interleave-Bench 模型评估核心源码Debug深入讲解(下) (10:02)
第七章 阿里多模态系列核心技术与算法解析
阿里多模态 思维导图
阿里多模态项目 学前导览 (8:13)
多模态mPLUG算法原理剖析(上) (14:22)
多模态mPLUG算法原理剖析(下) (14:44)
多模态 mPLUG-2 算法原理剖析 (21:54)
多模态 mPLUG-Owl 核心算法原理剖析 (11:05)
多模态 mPLUG-Owl-2 核心算法原理剖析 (14:30)
多模态 Qwen-VL 核心算法原理剖析 (24:43)
多模态 UReader 核心算法原理剖析 (21:00)
多模态 mPLUG-DocOwl 核心算法原理剖析 (6:21)
多模态 mPLUG-DocOwl-1.5核心算法原理剖析 (17:17)
多模态 mPLUG-PaperOwl 核心算法原理剖析 (12:16)
多模态 mPLUG-TinyChart 核心算法原理剖析 (10:06)
第八章 实战项目3:Qwen-VL项目全流程实战
通义千问Qwen-VL实战项目资料
通义千问 Qwen-VL 项目实战简介 (7:10)
项目环境配置与模型下载 (11:50)
基于Transformers框架进行模型推理 (11:23)
基于Gradio进行Web QA交互 (9:39)
Qwen-VL 模型推理核心源码进行讲解(上) (16:47)
Qwen-VL 模型推理核心源码进行讲解(下) (15:45)
适配OpenAI API接口 启动API服务并测试 (14:55)
使用LMDeploy CLI启动API服务并实现访问 (12:32)
LMDeploy使用Docker部署模型API服务 (10:01)
基于指标QPS比较Transformers和LMDeploy两种部署方案 (22:50)
Qwen-VL 多模态模型微调实战(上) (15:52)
Qwen-VL 多模态模型微调实战(下) (14:17)
Qwen-VL 模型微调核心源码讲解 (26:01)
Qwen-VL 模型在多个基准数据集上进行评估实战 (20:12)
Qwen-VL 模型评估核心源码讲解(上) (24:29)
Qwen-VL模型评估核心源码讲解(下) (27:28)
第九章 IXC多模态技术原理与深度剖析
XComposer 学前导览 (3:50)
XComposer-1.0算法深度剖析与原理讲解 (16:17)
XComposer 2.0 算法进阶解析与核心原理 (15:01)
XComposer 2.0 4KHD 算法原理深入讲解 (15:00)
XComposer 2.0 4KHD高清图像动态分割算法的Python实现 (13:02)
XComposer 2.5 新版算法原理详解 (12:46)
第十章 实战项目4:IXC多模态项目深度实战演练
IXC多模态实战项目资料
IXC项目简介与环境配置:模型下载指南 (9:40)
使用Transformers实现多模态模型推理 (12:36)
通过Gradio构建多模态Web交互问答系统 (9:04)
深入解析推理核心源码(上) (14:51)
深入解析推理核心源码(下) (17:54)
利用LMDeploy pipeline实现四种场景下的模型推理 (14:12)
使用OpenAI集成VLM服务并进行API服务测试 (10:04)
基于LMDeploy和Docker容器化部署模型并测试API服务 (10:32)
通过LMDeploy加载4-bit量化模型进行推理 (7:51)
调用OpenAI API生成自定义多模态数据集(上) (11:11)
调用OpenAI API生成自定义多模态数据集(中) (10:46)
调用OpenAI API生成自定义多模态数据集(下) (11:23)
使用自定义数据集进行多模态模型LoRA微调实战 (9:01)
将LoRA权重与原模型合并后进行服务部署并测试 (10:02)
XComposer核心源码Debug深入剖析(第一部分) (19:30)
XComposer核心源码Debug深入剖析(第二部分) (24:13)
XComposer核心源码Debug深入剖析(第三部分) (11:21)
XComposer核心源码Debug深入剖析(第四部分) (26:33)
Teach online with
多模态AI简介与最新技术进展
Lesson content locked
If you're already enrolled,
you'll need to login
.
Enroll in Course to Unlock