生成式人工智能模型处理文本的方式不同于人类。理解它们基于”标记”的内部结构,有助于解释其行为和局限性。从Gemma到OpenAI的GPT-4o,大多数模型都基于转换器架构。由于转换器在文本和其他数据间建立关联的方式,它们无法直接处理原始文本,至少在没有大量计算的情况下是如此。因此,出于实用性和技术性的考虑,当前的转换器模型使用的文本已经被分解成更小的片段,这些片段被称为标记,这一过程被称为标记化。标记可以是单词,如”fantastic”,也可以是音节,如”fan”、”tas”和”tic”,甚至可以是单个字符,如”f”、”a”、”n”、”t”、”a”、”s”、”t”、”i”、”c”。这种方法允许转换器在达到上下文窗口的上限前接收更多信息,但标记化也会带来偏差。有些标记间距奇特会导致转换器出错。例如,标记化器可能将”once upon a time”编码为”once”、”on”、”a”、”time”,而将”once upon a “编码为”once”、”on”、”a”、”。”。根据提示不同,结果可能完全不同,因为模型无法像人一样理解相同意思。标记化器处理大小写的方式也不同。对模型来说,”Hello”并不等同于”HELLO”。”hello”通常是一个标记,而”HELLO”可能有三个标记。这就是许多转换器无法通过大写字母测试的原因。东北大学研究大型语言模型可解释性的博士生Sheridan Feucht表示:”对于语言模型来说,’词’到底应该是什么,这个问题很难解决,即使人类专家达成一致,模型可能仍会认为进一步分块是有用的。”这种模糊性意味着不存在完美的标记生成器。这种模糊性在处理非英语语言时问题更大。许多标记化方法认为句子中的空格表示一个新词,但并非所有语言都使用空格来分隔单词。汉语和日语不使用空格,韩语、泰语和高棉语也不使用。2023年,牛津大学研究发现,非英语语言的标记化方式不同,转换器完成任务的时间可能是英语任务的两倍。”标记效率”低的语言用户可能体验更差的性能,却支付更高费用,因为许多AI供应商按标记收费。标记化器通常将汉字等字符视为一个独立的标记,从而导致标记数较高。同样,标记化器在处理凝集语(如土耳其语)时,会将每个词素变成一个标记,从而增加标记数。在泰语中,”hello”的对应词สวัสดี有六个标记。2023年,Google DeepMind人工智能研究员Yennie Jun进行了一项分析,比较了不同语言的标记化及其下游效果。通过使用一个翻译成52种语言的平行文本数据集,Jun发现有些语言需要多达10倍的标记才能表达英语中的相同含义。除了语言不平等,标记化还解释了为什么模型在数学上表现不好。数字标记化不一致,标记化器可能将”380″视为一个标记,而将”381″视为两个标记,破坏了数字关系和公式结果,使转换器处理重复数字模式和上下文变得困难。Feucht指出,像MambaByte这样的”字节级”模型,通过取消标记化,可以摄取比转换器更多的数据而不影响性能。MambaByte能直接处理原始字节,在语言分析任务中可与转换器模型媲美,并且能更好地处理噪音,如交换字符、间距和大写字母。不过,像MambaByte这样的模型还处于早期研究阶段。Feucht说:”最好的办法可能是让模型直接查看字符,而不强加标记化,但现在这对变换器来说在计算上是不可行的。特别是对于变换器模型来说,计算量与序列长度成二次方关系,因此我们真的希望使用简短的文本表示”。