
该文档围绕大语言模型技术展开,介绍了语言模型、Transformer、ChatGPT、DeepSeek及新一代智能体的相关内容,探讨了大语言模型技术的发展历程、技术原理、应用及未来方向。
- 大纲
- 语言模型:语言模型旨在计算词序列为一句话的概率,其基本任务包括编码,如one - hot Encoding和Word Embedding ,且经历了从基于统计的N - gram到基于神经网络的LSTM/GRU,再到Transformer的技术演化。
- Transformer:它在理论架构上进行创新,引入自注意力机制、多头注意力等,成为大模型的技术基座,其训练机制涉及Query、Key和Value的交互,同时大模型借助自监督学习解决数据标注问题。
- ChatGPT:GPT - 3展示出语言生成、世界知识、上下文学习等能力及涌现能力,ChatGPT基于GPT - 3.5通过代码训练、指令微调及基于人类反馈的强化学习,实现了从技术到产品的转变,多模态模型也在此基础上不断发展。
- DeepSeek:其技术包括从基础生成模型DeepSeek - V3到推理模型DeepSeek - R1及蒸馏小模型的演进,涉及有监督微调、强化学习、模型蒸馏等技术,对大模型应用层、中间层和基础模型层产生全栈影响。
- 新一代智能体:从LLM发展到Agent,新一代智能体由Agent和LLM组成,LLM为其提供逻辑推理能力,以时空智能的自主化服务为例,展现了多智能体协同系统的应用。
- 中心思想:该报告主要介绍语言模型从基础概念到前沿技术的发展,阐述Transformer在大模型中的关键作用,分析ChatGPT的技术演进与产品化过程,深入探讨DeepSeek的技术创新及全栈影响,并介绍新一代智能体的构成与应用。整体展示大语言模型技术从理论到实践的发展脉络,强调技术创新在推动人工智能进步中的重要性,以及这些技术在多领域的应用潜力和未来发展方向 。
电子书下载地址:
通过网盘分享的文件:浙江大学-DeepSeek技术溯源及前沿探索.pdf
链接: https://pan.baidu.com/s/1H-I4zmemOtmK4lUKPwLqlw 提取码: w2yi
