0.35 美元 vs 5 美元,硅谷巨头的 Token 价格战!不仅“卷”价格,还在拼推理速度

命理师任老师 840 0

  每经记者 文巧    每经编辑 兰素英    

0.35 美元 vs 5 美元	,硅谷巨头的 Token 价格战!不仅“卷”价格,还在拼推理速度 - 第 1 张图片 - 小城生活

  5 月以来,国内大模型打响了“价格战”。从每百万个 Token 只要 1 块钱,到只要 8 毛钱、5 毛钱……国内大厂如字节跳动 、阿里、百度、智谱 AI 、科大讯飞等不断接力 ,有厂商甚至直接打出了“免费”的口号,震惊整个科技圈子 。

  实际上,硅谷也在上演着类似的情形。《每日经济新闻》记者注意到 ,硅谷大模型的价格也出现了下降趋势。

  API 价格战首先在 OpenAI 和谷歌这对“老对手 ”之间展开 ,不过幅度相对较小 。其中,OpenAI 的 GPT-4o 调用 API 的价格比 GPT-4-turbo 降低了一半,为 5 美元 / 百万 Tokens ,谷歌 Gemini 1.5 Flash 的价格降到了 0.35 美元 / 百万 Tokens。

  到底是什么在左右 API“价格战”?在降价之外,有媒体指出,加快模型推理速度(即每秒生成 Token 的数量)也是硅谷大模型市场的主要竞争点。但“卷”价格、“卷 ”速度真的会赢得未来吗?

  硅谷在“拼”什么?

  5 月中旬 ,字节跳动豆包以 0.0008 元 / 千 Tokens 的价格直接将国内大模型的市场价格带入“厘时代” 。随即,大模型厂商便开始了价格上的角力。百度甚至直接祭出“文心大模型两大主力模型全面免费 ”的大招,直接将“价格战 ”推向新的高度。科大讯飞、腾讯等也“坐不住”了 ,要么降价,要么免费 。

  短短数天,国内大模型企业的混战便从“低价”走向了“免费 ” 。而在硅谷 ,类似的情形其实也在上演。

  《每日经济新闻》记者注意到,实际上,降低 API 价格和推升 AI 推理速度也已逐渐成为硅谷各大模型提供商的竞争焦点。

  API 价格战首先是在 OpenAI 和谷歌这对“老对手”之间展开的 。当地时间 5 月 13 日 ,OpenAI 发布全新模型 GPT-4o ,该模型支持免费试用,据传未来将供用户免费试用。此外,调用 GPT-4o API 的价格比 GPT-4-turbo 降低了一半 ,为 5 美元 / 百万 Tokens。

  在第二天的谷歌全球开发者大会上,谷歌宣布当家王牌 Gemini 大模型系列之一 Gemini 1.5 Flash 的 API 价格为 0.35 美元 / 百万 Tokens,远低于 GPT-4o 的价格 。

  比 GPT-4o 更具性价比的还有硅谷当红 AI 初创公司 Anthropic 和 Mistral AI 模型的 API 价格。 

0.35 美元 vs 5 美元	,硅谷巨头的 Token 价格战!不仅“卷”价格,还在拼推理速度 - 第 2 张图片 - 小城生活

  除了“拼”模型调用价格,有媒体指出,硅谷 AI 芯片公司正以加快模型推理速度——即每秒生成 Token 的数量——以吸引客户。例如 ,美国芯片厂商 Groq 公司专注于提高每秒生成 Token 的数量,以此作为其主要的市场竞争点 。

  据科技外媒 Medium 今年 4 月的报道,Groq 最新的 AI 芯片在 Meta 的开源模型 LLaMA 3 上达到了惊人的每秒生成 800 个 token ,并称这“标志着 AI 推理效率和能力的巨大转变”。截至目前 ,英伟达一直主导着 AI 芯片市场。该报道分析认为,Groq 的最新成就可能将对英伟达的统治地位构成严峻挑战 。

  根据 Groq 的数据,许多开源模型据称在 Groq 芯片上的运行速度都得到提升 ,例如,Mixtral8×7B 版本每秒输出 500 个 Token;Llama 2 70B 版本每秒输出 300 个 Token。

  《每日经济新闻》记者查询数据发现,当前配备英伟达芯片处理的硅谷热门大模型推理速度远低于此。例如 ,GPT-4 Turbo 每秒生成约 48 个 token,GPT- 4 为每秒约 10 个 token;谷歌的 Gemini 1.5 Pro 约为每秒 54.2 个 token 。 

0.35 美元 vs 5 美元,硅谷巨头的 Token 价格战!不仅“卷	”价格	,还在拼推理速度 - 第 3 张图片 - 小城生活

  API“价格战”背后:模型性能差距正在减小

  硅谷为何也会面临大模型的 API“价格战 ”问题?这主要是跟模型的性能有关 。

  上个月 ,纽约大学知名教授 Gary Marcus 发表了一篇名为《证据表明 LLM 正达到收益递减点》的文章,驳斥了宾夕法尼亚大学沃顿商学院教授 Ethan Mollick 的一个观点,后者声称目前对大型语言模型改进率的更佳估计显示 ,能力每 5~14 个月翻一番。

  Gary Marcus 认为 ,从某些指标来看,在 2020~2023 年间,大模型的能力的确遵照上述定律翻了一番 ,但在过去 13 个月里这种情况并未发生。“相反,我看到许多迹象表明我们已经进入了收益递减期 。”他这样写道。

  若以 MMLU(一种常见的大模型基准指标)为基准,可以看到 ,从 GPT- 2 到 GPT3 再到 GPT- 4 呈现了飞跃式的递增,但 GPT- 4 到今年 4 月发布的 GPT-4 Turbo 的能力改进并不明显。

0.35 美元 vs 5 美元,硅谷巨头的 Token 价格战!不仅“卷”价格	,还在拼推理速度 - 第 4 张图片 - 小城生活

  其次 ,自 GPT- 4 发布以来,硅谷各大模型的能力正在趋同 。LiquidAI 的机器学习科学家 Maxime Labonne 在 X 平台上表示,表现更好的闭源模型(GPT- 4 级别)和开源模型在性能上的差距正在越来越小。

0.35 美元 vs 5 美元	,硅谷巨头的 Token 价格战!不仅“卷”价格,还在拼推理速度 - 第 5 张图片 - 小城生活

  与此同时 ,随着企业对定制化大模型的需求越来越高,硅谷科技公司正在推出一系列小模型,例如微软在 4 月推出了名为 Phi-3 Mini 的轻量级模型。The Information 分析称 ,像 Phi 这类小型模型的激增可能会削弱 OpenAI 的主导地位 。

  据 The Information,微软产品团队已经将内置的 GPT- 4 换成开源模型,以在 Bing 等产品中执行更基本的任务。而最初为 OpenAI 大模型支付高价的一些公司 ,近期开始转向包括开源模型在内的更便宜的竞争对手。

  随着 GPT- 4 之后模型能力的趋同,以及更多开源模型和小模型的出现,竞争加剧之下 ,高价大模型的降价似乎是一种必然 。

  “卷”价格 、“卷 ”速度并非终点

  然而,一味“卷”价格会有未来吗?

  众所周知,算力成本是开发大模型无法绕过的难点之一。根据斯坦福大学 HAI 研究所今年发布的 AI 报告 ,训练巨型模型的成本呈指数级增长 ,谷歌 Gemini Ultra 的训练成本估计为 1.91 亿美元,GPT- 4 的训练成本估计为 7800 万美元。

  据报道,Anthropic 的 CEO 此前曾表示 ,目前正在训练的模型成本已接近 10 亿美元,到 2025 年和 2026 年,将飙升至 50 亿或 100 亿美元 。

  科技巨头已经在硅谷大模型领域建立牢固的立足点 ,前沿基础模型市场呈现出强烈的市场集中化趋势 。分析认为,价格战持续下去,公司利润势必被挤压 ,财力雄厚的科技巨头尚有基础,但初创公司则可能面临风险。

  对于大模型公司来说,提升模型性能才是赢得竞争的最终手段。正如 Gary Marcus 所讲 ,如果收益递减的趋势持续,低级错误无法修正,大模型可能永远无法到达黄金时段 。

  另一方面 ,对于芯片厂商来说 ,“卷”每秒生成 Token 的数量仍然更多只是一种噱头,缩短之一个 Token 生成的时间或将成为下一个新的竞争点。

  尽管 Medium 分析认为,每秒生成 Token 数量的提高等同于推理能力的上升 ,但硅谷 AI 公司 SambaNova 在 5 月初发表的一篇博客文章中表示,当涉及到一些较为复杂和繁重的长文本任务时,每秒生成 Token 数量并非最重要的指标 ,也不能全面反映大模型的推理性能。而相对地,之一个 Token 生成的时间才更加重要 。

  这篇文章直白地指出,对每秒高 Token 数量的追求可能是一种“炒作 ”。尽管其确实可以实现令人印象深刻的解码速度 ,但存在芯片利用率低,之一个 Token 生成速度较慢,难以处理较长的文本输入等重大缺点。

文章内容免责声明

加微信免费领取数字能量手机号旺运电子书

公众号

专家微信

1、本网站名称:吉运乾坤风水网 2、本站永久网址:https://www.mmssq.com 3 、本网站的文章部分内容可能来源于网络 ,仅供大家学习与参考,如有侵权,请联系站长进行删除处理 。 4 、本站一切资源不代表本站立场 ,并不代表本站赞同其观点和对其真实性负责。 5、本站一律禁止以任何方式发布或转载任何违法的相关信息 ,访客发现请向站长举报 6、本站资源大多存储在云盘,如发现链接失效,请联系我们我们会第一时间更新。

发布评论 0条评论)

还木有评论哦,快来抢沙发吧~