项目八:基于Rust的大语言模型推理引擎
任课教师: 杨德睿
学生人数:
¥ 0
课程介绍
报名成员(0)
课堂回放(0)
项目简介
项目背景
随着人工智能技术的飞速发展,大语言模型(Large Language Models)的应用日益广泛。它们以其强大的学习能力和广泛的应用前景,成为 AI 领域的研究热点。本项目旨在通过学习和实践,深入理解大模型的工作原理、架构设计以及在实际应用中的部署策略。
项目目标
- 理论学习:掌握大模型的基础理论,主要是 LLaMA 模型的结构和相关算子等。
- 技术实践:了解并实践英伟达 GPU 架构以及分布式计算在大模型推理中的应用。
- 项目应用:通过调试开源推理项目深入理解大语言模型推理的组件和技术。
项目时间安排
- 第 1-3 周:课程学习。
- 第 4-6 周:实践训练。
预备知识
- 基础的编程能力:熟悉 Rust 语言。
- 数学基础:了解基本的线性代数知识。
资源与工具
- 性能较好的桌面计算机或服务器,参考性能指标:
- 内存容量 16GiB 或更多;
- 磁盘容量 32GiB 或更多;
- 显存 6GiB 以上的英伟达显卡(非必须);
课程安排
大约 2~3 次/周,1 小时/节
- 大模型概述:ai 发展史 + 大模型发展概况 + 文本生成模型基本原理 + 项目概况 + 团队介绍
- Llama 模型概述:Llama 模型结构 + 算子介绍 + 采样方法 + Tokenizer 和 Template
- 项目结构讲解:模块 + 跨平台能力实现 + 算子定义
- Nvidia GPU 和 Cuda 生态:SIMT 计算架构 + Cuda 语言 + Cuda 生态(cuda driver、cuda runtime、cublas、cccl/cub、cutlass/cute)
- 算子实现:CPU 算子/CUDA算子
- 分布式推理:分布式方案、分布式参数加载、nccl 和通信算子
暂无数据
序号 | 课堂内容 | 开始时间 | 备注 | 课堂回放 |
---|---|---|---|---|
暂无数据 |