生成式人工智能失败的一个重要原因在于“咬文嚼字”

AIGC最新资讯1年前 (2024)更新 AiBots

108 0 0

生成式人工智能模型处理文本的方式不同于人类。理解它们基于”标记”的内部结构，有助于解释其行为和局限性。从Gemma到OpenAI的GPT-4o，大多数模型都基于转换器架构。由于转换器在文本和其他数据间建立关联的方式，它们无法直接处理原始文本，至少在没有大量计算的情况下是如此。

因此，出于实用性和技术性的考虑，当前的转换器模型使用的文本已经被分解成更小的片段，这些片段被称为标记，这一过程被称为标记化。

标记可以是单词，如”fantastic”，也可以是音节，如”fan”、”tas”和”tic”，甚至可以是单个字符，如”f”、”a”、”n”、”t”、”a”、”s”、”t”、”i”、”c”。这种方法允许转换器在达到上下文窗口的上限前接收更多信息，但标记化也会带来偏差。

有些标记间距奇特会导致转换器出错。例如，标记化器可能将”once upon a time”编码为”once”、”on”、”a”、”time”，而将”once upon a “编码为”once”、”on”、”a”、”。”。根据提示不同，结果可能完全不同，因为模型无法像人一样理解相同意思。

标记化器处理大小写的方式也不同。对模型来说，”Hello”并不等同于”HELLO”。”hello”通常是一个标记，而”HELLO”可能有三个标记。这就是许多转换器无法通过大写字母测试的原因。

东北大学研究大型语言模型可解释性的博士生Sheridan Feucht表示：”对于语言模型来说，’词’到底应该是什么，这个问题很难解决，即使人类专家达成一致，模型可能仍会认为进一步分块是有用的。”这种模糊性意味着不存在完美的标记生成器。

这种模糊性在处理非英语语言时问题更大。许多标记化方法认为句子中的空格表示一个新词，但并非所有语言都使用空格来分隔单词。汉语和日语不使用空格，韩语、泰语和高棉语也不使用。

2023年，牛津大学研究发现，非英语语言的标记化方式不同，转换器完成任务的时间可能是英语任务的两倍。”标记效率”低的语言用户可能体验更差的性能，却支付更高费用，因为许多AI供应商按标记收费。

标记化器通常将汉字等字符视为一个独立的标记，从而导致标记数较高。同样，标记化器在处理凝集语（如土耳其语）时，会将每个词素变成一个标记，从而增加标记数。在泰语中，”hello”的对应词สวัสดี有六个标记。

2023年，Google DeepMind人工智能研究员Yennie Jun进行了一项分析，比较了不同语言的标记化及其下游效果。通过使用一个翻译成52种语言的平行文本数据集，Jun发现有些语言需要多达10倍的标记才能表达英语中的相同含义。

除了语言不平等，标记化还解释了为什么模型在数学上表现不好。数字标记化不一致，标记化器可能将”380″视为一个标记，而将”381″视为两个标记，破坏了数字关系和公式结果，使转换器处理重复数字模式和上下文变得困难。

Feucht指出，像MambaByte这样的”字节级”模型，通过取消标记化，可以摄取比转换器更多的数据而不影响性能。MambaByte能直接处理原始字节，在语言分析任务中可与转换器模型媲美，并且能更好地处理噪音，如交换字符、间距和大写字母。

不过，像MambaByte这样的模型还处于早期研究阶段。

Feucht说：”最好的办法可能是让模型直接查看字符，而不强加标记化，但现在这对变换器来说在计算上是不可行的。特别是对于变换器模型来说，计算量与序列长度成二次方关系，因此我们真的希望使用简短的文本表示”。

生成式人工智能失败的一个重要原因在于“咬文嚼字”

# AIGC最新资讯

文章版权归作者所有，未经允许请勿转载。

智谱清言最新智能体-AI搜索

OneNav

238

百度萝卜快跑无人驾驶在11个城市试运行，成本降低，先斩普通人？

AiBots

227

李彦宏支持闭源，押注智能体，扎克伯格却极度反感闭源

AiBots

108

OpenAI刚刚与苹果联姻，小三Meta就已出现

AiBots

Kimi 你到底还隐藏了多少好功能

AiBots

227

AI 早报 2024年7月11日

AiBots

217

暂无评论

暂无评论...

生成式人工智能失败的一个重要原因在于“咬文嚼字”

沸腾吧！全球首个开源GPT-4o全面发布

追星星的AI：阿里巴巴推出国内首个孤独症儿童AI绘本工具

相关文章

暂无评论

热门网址

相关文章

生成式人工智能失败的一个重要原因在于“咬文嚼字”

沸腾吧！全球首个开源GPT-4o全面发布

追星星的AI：阿里巴巴推出国内首个孤独症儿童AI绘本工具

相关文章

暂无评论

热门网址

相关文章

广告位