当前位置: 首页>研究生规划> 正文

为什么 OpenAI 的 API 对于非英语语言来说更昂贵

2025-10-13132

短语“Helloworld”怎么可能有两个英语令牌和12个印地语令牌?

我没有意识到这个问题,但很快意识到这是一个活跃的研究领域:今年年初,Petrov等人[2]的一篇名为“语言模型标记器引入语言之间的不公平”的论文表明,“翻译成不同语言的相同文本可能具有截然不同的标记化长度,在某些情况下差异高达15倍。

作为复习,标记化是将文本拆分为标记列表的过程,标记列表是文本中的常见字符序列。

标记化示例

令牌化长度的差异是一个问题,因为OpenAIAPI以1,000个令牌为单位计费。因此,如果您在可比较文本中拥有多达15倍的代币,这将导致API成本增加15倍。

实验:不同语言的令牌数量

让我们将短语“Helloworld”翻译成日语(こんにちは世界)并将其转录为印地语(हैलोवर्ल्ड)。当我们使用OpenAI的GPT模型中使用的分词器标记新短语时,我们得到以下结果(您可以在本文末尾找到我用于这些实验的代码):cl100k_base

英语、日语和印地语中短语“Helloworld”的字母和标记()数cl100k_base

从上图中,我们可以做出两个有趣的观察:

字母数为

版权所有©Copyright © 2022-2030 研界探索者

备案号:新ICP备14003612号

网站地图