首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于Transformer架构的GPT系列模型训练技术分析
引用本文:张雨乐,庄夏,戴敏.基于Transformer架构的GPT系列模型训练技术分析[J].中国民航飞行学院学报,2023(5):16-18+22.
作者姓名:张雨乐  庄夏  戴敏
作者单位:中国民用航空飞行学院
基金项目:四川省科技计划项目(2023YFG0171);;中央高校基本科研业务费专项资金资助(J2022-95);
摘    要:自人工智能诞生以来,经过了多次演化和迭代,已成为推动全球经济和产业变革的重要力量。大型语言模型GPT的发布,让越来越多的人对生成式人工智能有了全新的认知,由此引发了国内外的高度关注。基于Transformer架构的GPT系列模型从1到4,为下游各种类型的NLP任务提供了非常优秀的词向量模型,在此基础上必将落地更多有趣的AI应用。本文阐述了GPT的发展历程,分析了GPT-4多模态架构的训练技术,指出了其存在的局限性。

关 键 词:人工智能  GPT  模型  数据集
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号