基于Transformer架构的GPT系列模型训练技术分析 |
| |
引用本文: | 张雨乐,庄夏,戴敏.基于Transformer架构的GPT系列模型训练技术分析[J].中国民航飞行学院学报,2023(5):16-18+22. |
| |
作者姓名: | 张雨乐 庄夏 戴敏 |
| |
作者单位: | 中国民用航空飞行学院 |
| |
基金项目: | 四川省科技计划项目(2023YFG0171);;中央高校基本科研业务费专项资金资助(J2022-95); |
| |
摘 要: | 自人工智能诞生以来,经过了多次演化和迭代,已成为推动全球经济和产业变革的重要力量。大型语言模型GPT的发布,让越来越多的人对生成式人工智能有了全新的认知,由此引发了国内外的高度关注。基于Transformer架构的GPT系列模型从1到4,为下游各种类型的NLP任务提供了非常优秀的词向量模型,在此基础上必将落地更多有趣的AI应用。本文阐述了GPT的发展历程,分析了GPT-4多模态架构的训练技术,指出了其存在的局限性。
|
关 键 词: | 人工智能 GPT 模型 数据集 |
|
|