(资料图片仅供参考)
如今的大型语言模型(LLM)可以理解世界上很多语言,甚至是一些记载较少的语言。不过,大模型处理不同语言之间时,其性能上存在很大的差异,这是由于模型成本与其所训练的语言紧密挂钩。
牛津大学最近进行的一项研究表明,从诸多语言模型的计费方式看,英语的输入和输出比其他语言的输入和输出要便宜得多。例如,西班牙语的成本约为英语的倍,简体中文的价格约为2倍以上,缅甸掸语在15倍以上。
成本的差异也间接导致英语使用者和世界其他语言使用者之间形成AI鸿沟。
成本差异主要是因数据标记化所带来的。标记化就是将训练文本分解成更小的单元,这个更小的单元就是标记(Token)。这是一个人工智能(AI)公司将用户输入转换为计算成本的过程。
研究显示,使用英语以外的语言访问和训练模型的成本都更高。例如中文,无论是在语法上还是在字符数量上,都有更复杂的结构,从而导致更高的标记化(Token)率。
举例来看,基于OpenAI公司的GPT2模型,对于“国家不同,所得税的结构是不同的,税率和税率等级也有很大的差异”这句话的处理来看,在简体中文处理中运用到了66个Token,在英语处理中仅用到了24个Token,而在禅语处理中使用到了468个Token。
就每次输出所需的费用而言,汉语的成本是英语的两倍。所以在AI相关的费用中,英语的成本效益是最高的。
当涉及到语言模型时,设计者的主要目标是实现低成本和高效功能之间的平衡。随着AI领域的不断发展,科技公司必须仔细考虑语言选择对成本和可访问性的影响。
这种成本差异促使中国、印度等国家纷纷开发自己的母语LLM项目。
(文章来源:财联社)
热度渐涨的陪诊服务,离专业化还有多远? “我脑子里有北京22家大医院的地图。”两年前,闫军儒还在一家公司做人力资源工作,闲暇时
芍药成了销售“头牌” 康乃馨每枝9元左右 母亲节来临,鲜花热销。过去多年都是康乃馨唱主角,但这两年发生了明显的变化。“5月7日
“谢谢选择我做你的妈妈!” 这封信请18年后查收 扬子晚报讯(通讯员 刘威 记者 朱鼎兆)小时候,母亲常常在家里给我们留字条,
跟新冠病毒“赛跑” 他要让机器人完成核酸检测 经常学生们还不知道我怎么想的时候,我就把自己否定了。工作中需要有自我否定的勇气
助力无接触配送 上海无人车“上岗” 【疫情防控新举措】 科技日报讯 (记者符晓波)眼下,上海疫情蔓延趋势得到有效控制,不少
“态靶辨治” 帮助患者快速转阴 近日,随着患者清零,吉林省长春市北湖奥体中心篮球馆方舱医院等多个方舱陆续“休舱”,各医疗队也
四省市联合医疗队为患者全方位“解忧” 【同心守沪抗疫】 在上海城市足迹馆定点医院的宣传墙上,各类慢性病、基础病的健康宣教手
X 关闭
X 关闭