4月23日14时,江苏师范大学语言科学与艺术学院教授杨亦鸣做客第367期“新杏坛”,于知新楼A606室作题为“生成式大语言模型与人类自然语言生成的不同”的学术讲座。讲座由岳立静教授主持,王辉教授、寇鑫教授、刘文副教授、张燕芬副教授等出席,吸引了近百名师生前来聆听。
讲座伊始,岳立静教授简要介绍杨亦鸣教授的研究方向及主要学术成果,言及杨亦鸣教授涉猎广泛,早期进行音韵学的研究,其所创立的“透视分离法”被誉为“近代音研究的一项新方法”。近年来主要致力于神经语言学研究,是我国神经语言学研究领域的主要开拓者和奠基人。
首先,杨亦鸣教授回顾语言研究对象的演变历程。他指出每一次变革都为大语言模型的诞生与发展奠定坚实基础。随着科技的飞速进步,大语言模型的发展也日新月异。杨教授特别指出,大语言模型的参数规模实现了显著增长,新技术的不断融入使得语言模型的功能更加强大。同时,技术共享与开放的理念进一步推动大语言模型在实际应用中的广泛落地。进而他系统梳理大语言模型的发展历程,并将其分为三个阶段进行详细解读,深入剖析大语言模型在处理语言方面的功能与特色。
接下来,杨亦鸣教授通过一系列深入的实验研究,详细阐述大语言模型与人类语言之间的显著差异。他主要从语言习得机制和语言加工机制两个方面进行对比分析。在探讨语言习得机制时,杨亦鸣教授指出,大语言模型的语言学习,也就是它的训练过程,是完全依赖于语言数据和语言特征进行的,类似于“鹦鹉学舌”的模仿过程。相对地,人类的语言习得则拥有一种与生俱来的遗传机制,使得我们仅需少量的语言刺激就能掌握并发展出相应的语言能力。而在语言加工层面,大语言模型与人类之间的差异则体现在信息的输入、加工方式、信息理解以及内容输出等多个维度。杨亦鸣教授强调,大语言模型虽然能够模仿人类的语言行为,但由于缺乏人类语言天生的生物学机制,它并不能真正理解语言的深层含义,因此在创新性上与人类语言存在着本质的区别。
最后,杨亦鸣教授虽然肯定大语言模型在文本生成、翻译、编程和创作等领域的强大功能,但也指出其存在的问题。例如,大语言模型对于大数据的偏好导致了资源消耗的高昂。同时,由于其训练数据主要来自开放的互联网,其中包含的大量未经验证、虚假甚至错误的信息,即使在数据预处理阶段进行了过滤,也难以确保其完全合规。此外,大语言模型的内部组织架构仍需进一步完善,而且它缺乏自我监督机制,有时会产生不切实际的“幻觉”,一本正经地胡说八道。针对这些问题,杨亦鸣教授提出两条改进路径:一是推动以语言处理和语言认知为基础的AI技术的升级换代;二是构建以“预装”概念为基础的“语言脑”。这些前沿性的观点为未来的大语言模型发展指明方向。
在互动环节中,现场老师和同学就心理过程概念化、婴儿导向语等问题请教杨亦鸣教授,杨亦鸣教授耐心细致地一一解答。
岳立静教授代表皇冠9393体育平台师生对杨亦鸣教授的精彩演讲表示感谢。岳立静教授指出,杨教授的讲座不仅拓宽我们的视野,为我们展示语言学研究的广阔空间,也提醒我们,尽管大语言模型在某些方面表现出色,但仍有许多工作需要我们人类去完成。因此,我们在珍惜与利用大语言模型带来的便利的同时,更应该保持独立思考和创造力。讲座在热烈的掌声中圆满结束。