Honor of Kings (@HOK) 在 《大语言模型》作者:赵鑫,李军毅,周昆,唐天一,文继荣 中发帖
关于本书
2022年底,ChatGPT 震撼上线,大语言模型技术迅速“席卷”了整个社会,人工智能技术因此迎来了一次重要进展。面对大语言模型的强大性能,我们不禁要问:支撑这些模型的背后技术究竟是什么?这一问题无疑成为了众多科研人员的思考焦点。 必须指出的是,大模型技术并不是一蹴而就,其发展历程中先后经历了统计语言模型、神经网络语言模型、预训练语言模型等多个发展阶段,每一步的发展都凝结了众多科研工作者的心血与成果。作为大语言模型技术的重要推动者,OpenAI公司在过去深入探索了与其相关的大量技术细节,并最终推出了GPT系列模型,引领了本次技术变革。
然而,OpenAI 团队自GPT-3开始,就很少在公开的材料中提及相关技术细节,很多技术报告主要是介绍评测相关的内容。到目前为止,关于GPT系列模型的核心技术仍然难以完全解密。 目前,学术界面临的重大挑战是真正有充足资源去充分探索大语言模型训练的...