[推荐]张俊林：大语言模型的涌现能力——现象与解释

　✒️ @halomaster　📅 13 Apr 2023, 06:20 GMT⋮　【AI】　

1. 涌现现象指的是当一个复杂系统由大量微观个体相互作用时,在宏观层面会出现这些微观个体无法解释的特殊现象。它是复杂系统的重要特征,提醒我们考虑系统作为一个整体。 2. 顿悟现象描述的是一个系统在学习过程中表现出的一种特征性变化。在模型训练一个新任务时,它的性能指标会经历“记忆期”→“平台期”→“泛化期”三个阶段。在“泛化期”,模型的性能会突然改善,这说明模型“顿悟”到了任务的本质,学会了泛化。 3. 提出了一个关键的问题,即为什么小规模的语言模型不会出现顿悟现象?这暗示顿悟现象与模型规模密切相关。如果两者无关,那么不可能用顿悟现象来解释大模型的涌现能力。 4. 要解释涌现现象,核心是理清顿悟现象与模型规模的关系。如果能证明大模型更易出现顿悟现象,并且顿悟带来的性能改善能够解释大模型的涌现能力,那么就可以使用顿悟现象来理解涌现现象。如果能证实大模型更易出现顿悟现象这一假设,并建立两者之间的理论联系,这将是理解机器学习中复杂系统动力学的重要进展。我个人的猜想如下: 1. 大模型由于参数更多,搜索空间更大,更易陷入局部最优,难以找到全局最优解。这使其更依赖于随机性进行搜索,更有可能在搜索过程中发现新的局部最优解,从而出现“顿悟”。 2. 大模型的表达能力更强,可以学习到更为抽象和复杂的特征表示。这使其更有可能在训练过程中突然发现一种简洁而高效的新特征表示方式,带来性能的突破,产生顿悟现象。 3. 大模型中的微观个体(如神经元)更多,相互作用更为复杂。在这种复杂相互作用下,更易出现非线性效应与突变,导致宏观层面上的顿悟现象。这些都是我个人的猜测,还需要实证来支持。但我认为,从复杂系统的角度考虑,这些假说都具有一定的合理性。如果能证实这些猜测,那么使用顿悟现象来理解涌现现象就是一种非常合适而简洁的解释方式。我很期待其他研究者在这方向上取得更深入的进展,这无疑将是这个领域的重要贡献。 https://mp.weixin.qq.com/s/d4YGDvs5467BToPvSg41wA

0 replies