基于Transformer架构的GPT系列模型训练技术分析期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

按检索

基于Transformer架构的GPT系列模型训练技术分析

引用本文：	张雨乐,庄夏,戴敏.基于Transformer架构的GPT系列模型训练技术分析[J].中国民航飞行学院学报,2023(5):16-18+22.

作者姓名：	张雨乐庄夏戴敏

作者单位：	中国民用航空飞行学院

基金项目：	四川省科技计划项目（2023YFG0171）；;中央高校基本科研业务费专项资金资助（J2022-95）；

摘要：	自人工智能诞生以来，经过了多次演化和迭代，已成为推动全球经济和产业变革的重要力量。大型语言模型GPT的发布，让越来越多的人对生成式人工智能有了全新的认知，由此引发了国内外的高度关注。基于Transformer架构的GPT系列模型从1到4，为下游各种类型的NLP任务提供了非常优秀的词向量模型，在此基础上必将落地更多有趣的AI应用。本文阐述了GPT的发展历程，分析了GPT-4多模态架构的训练技术，指出了其存在的局限性。
关键词：	人工智能 GPT 模型数据集