一个大语言模型有没有“无法预测的词”?

 ✒️ @halomaster 📅 17 Mar 2023, 06:47 GMT⋮ 【AI】 

一个大语言模型也可能存在“无法预测的词”。这种情况通常出现在以下两种情况下: 1. 词表中存在语料库中没有的新词。这些新词在模型没见过,因此无法预测它们的概率,更无法预测它们是哪个类别。 2. 语料库中出现了极其罕见的词,导致模型在训练时没能学到有效的表示,因此也无法预测这些词的概率。 对于第一种情况,一种常见的解决方法是将新词归为一个特殊的未登录词(OOV)类别,然后将该类别的概率设置为一个小的常数或者均等分布的概率。这样虽然不够准确,但可以避免模型出现预测错误的情况。 对于第二种情况,可以采用一些处理罕见词的方法,比如对于出现次数较少的词,可以考虑使用词干提取、词形还原等方法进行处理,或者使用基于子词划分的方法来学习单词的词向量表示。 大语言模型在处理大型词表时,也可能存在无法预测的词的情况。常规的处理方法包括将其归为未登录词类别,以及采用一些处理罕见词的方法。


0 replies