
大纲
- 大语言模型基础
1.1 语言模型定义与发展
1.2 基于统计方法的语言模型
1.2.1 n-grams语言模型
1.2.2 n-grams的统计学原理
1.3 基于RNN的语言模型
1.3.1 循环神经网络RNN
1.3.2 基于RNN的语言模型
1.4 基于Transformer的语言模型
1.4.1 Transformer架构
1.4.2 基于Transformer的语言模型
1.5 语言模型的采样方法与评测
1.5.1 采样方法
1.5.2 评测方法
- 大语言模型架构概览
2.1 大语言模型的发展历程
2.1.1 大数据与模型规模的增长
2.1.2 大数据+大模型→能力扩展
2.2 基于Encoder-only架构的大语言模型
2.2.1 Encoder-only架构概述
2.2.2 BERT语言模型及其衍生模型
2.3 基于Encoder-Decoder架构的大语言模型
2.3.1 Encoder-Decoder架构概述
2.3.2 T5语言模型
2.3.3 BART语言模型
2.4 基于Decoder-only架构的大语言模型
2.4.1 Decoder-only架构概述
2.4.2 GPT系列语言模型
2.4.3 LLaMA系列语言模型
2.5 非Transformer架构探索
2.5.1 状态空间模型SSM
2.5.2 训练时更新TTT
- Prompt工程
3.1 Prompt工程简介
3.1.1 Prompt的定义
3.1.2 Prompt工程的定义
3.1.3 Prompt分词向量化
3.1.4 Prompt工程的意义
3.2 上下文学习
3.2.1 上下文学习的定义
3.2.2 演示示例选择
3.2.3 性能影响因素
3.3 思维链
3.3.1 思维链提示的定义
3.3.2 按部就班
3.3.3 三思后行
3.3.4 集思广益
3.4 Prompt技巧
3.4.1 规范Prompt编写
3.4.2 合理归纳提问
3.4.3 适时使用CoT
3.4.4 善用心理暗示
3.5 相关应用
3.5.1 基于大语言模型的Agent
3.5.2 数据合成
3.5.3 Text-to-SQL
3.5.4 GPTS
- 参数高效微调
4.1 参数高效微调简介
4.1.1 下游任务适配
4.1.2 参数高效微调的概念与优势
4.2 参数附加方法
4.2.1 加在输入:Prompt-tuning
4.2.2 加在模型:Prefix-tuning与Adapter-tuning
4.2.3 加在输出:代理微调
4.3 参数选择方法
4.3.1 基于规则的方法:BitFit
4.3.2 基于学习的方法:Child-tuning等
4.4 低秩适配方法
4.4.1 LoRA及其实现
4.4.2 LoRA相关变体
4.4.3 基于LoRA插件的任务泛化
4.5 实践与应用
4.5.1 PEFT实践
4.5.2 PEFT应用案例
- 模型编辑
5.1 模型编辑简介
5.1.1 模型编辑思想
5.1.2 模型编辑定义
5.1.3 模型编辑性质
5.1.4 常用数据集
5.2 模型编辑经典方法
5.2.1 外部拓展法:知识缓存法与附加参数法
5.2.2 内部修改法:元学习法与定位编辑法
5.2.3 方法比较
5.3 附加参数法:T-Patcher
5.3.1 补丁的位置
5.3.2 补丁的形式
5.3.3 补丁的实现
5.4 定位编辑法:ROME
5.4.1 知识存储位置
5.4.2 知识存储机制
5.4.3 精准知识编辑
5.5 模型编辑应用
5.5.1 精准模型更新
5.5.2 保护被遗忘权
5.5.3 提升模型安全
- 检索增强生成
6.1 检索增强生成简介
6.1.1 检索增强生成的背景
6.1.2 检索增强生成的组成
6.2 检索增强生成架构
6.2.1 RAG架构分类
6.2.2 黑盒增强架构
6.2.3 白盒增强架构
6.2.4 对比与分析
6.3 知识检索
6.3.1 知识库构建
6.3.2 查询增强
6.3.3 检索器
电子书下载地址:
通过网盘分享的文件:大模型基础.pdf
链接: https://pan.baidu.com/s/1wgwj7heIlG_ALhw4P792yA 提取码: 9x5p
