来源:科技参考
读者,你好。
欢迎回到《科技参考》,我是卓克。
2024年6月25日,OpenAI给所有开发者都发去了官方电子邮件,里面通知——从7月9日开始,阻止来自非支持国家和地区的API流量。
这个通知被很多人理解为要技术封锁中国,实际上这样理解有误。
首先,针对的不只是中国,而是所有的非支持国家和地区,包含了埃及、叙利亚、古巴、朝鲜、伊朗、俄罗斯和中国。
其次,阻止API流量并不等于技术封锁,而是拒绝销售的意思。相当于某个公司拒绝把产品卖给某个客户。
这件事是好是坏呢?对中国的AI创业企业来说,有一大批公司非常沮丧,还有一小批大公司拍手叫好。而这两类公司往往在激烈的竞争中都会被指为“套壳”公司。
这期《科技参考》,我们就来说说AI套壳产品的鄙视链,和OpenAI拒绝提供API服务的影响。
要给“套壳”下一个定义,我们需要理解大语言模型的历史。
今天所有大语言模型的DNA都起源于2017年谷歌发布的Transformer模型。因为在此之前,人们处理语言使用的主要是循环神经网络(RNN)和卷积神经网络(CNN),但效果都不理想。
Transformer模型的原始结构里包含两个核心组件——编码器、解码器。编码器用于理解输入的文本,解码器用于一个字一个字往下续写生成文本。
但是后续生成的各种工具,在Transformer模型上做了一些修改,主要分为三大流派——只用编码器、只用解码器、编码器和解码器都用。只用编码器的,就是后来谷歌的BERT;只用解码器的,就是后来OpenAI的GPT;都用的,就是谷歌的T5。
今天来看,只用编码器的这一支演化的历史终结在2021年,之后就没有后代了;编码器和解码器都用的这一支今天还有后代,但不多,唯一大家听说过的就是谷歌的Gemini,不知道这个流派后续还会不会壮大;而只用解码器的这一支是目前最人丁兴旺的,我们用过的绝大部分大语言模型几乎都是这一支的后代,比如GPT、Claude、LLaMa、Palm、Bard等等。
在这个层级上,如果你说,不发明出Transformer模型就都不算原创的话,谷歌、Anthropic、OpenAI、微软、Meta等公司做出的产品就都得算套壳产品了。
唯一在性能上还不错,还没有用Transformer模型的,可以算得上原创的就只有一个Mamba模型,它使用的不是Transformer构架,而是一种称为“结构化状态空间”的模型,简称S4。它的优势是,在处理长序列时,计算复杂度增加得很慢,内存瓶颈也比Tranformer小很多。但多年后的语言处理模型会不会沿着这一支涨起来,还要继续观察。
所以,今天业界并没有人把这个级别的改动和优化叫做套壳,否则全球所有顶尖科技公司都是套壳,“套壳”这个词就没有意义了。
鄙视链再往下一级,就是在模型构架已经定下来后,以是不是自己做的预训练来划定是不是套壳。
我们知道,一个几百上千亿参数规模的大语言模型,尽管构架已经敲定,但训练起来压力也是巨大的。想要获得和GPT-4第一版类似的性能,不找来大几千到一万张H100计算卡,不花费几个月时间,是无法完成预训练的。最低成本也要几十亿人民币,外加3-4个月的训练时长。这种事即便是OpenAI自己,一年也顶多做2-3次。
但毕竟模型构架有了,剩下的主要难点是钱,所以国内还是有几个公司有实力自己做预训练的。但如果要求性能接近第一版GPT-4模型的话,在国内这些公司加起来应该不到10个。最著名的,比如百度的文心一言、阿里的千问、腾讯的混元、智谱的GLM。于是,这个档次的公司有时会评论,除它们之外的其他AI创业项目是“套壳”。
鄙视链再往下延伸——即便是自己做预训练,钱也足够,计算卡也都买了,也还是有很多问题。比如说数据来源的问题。
因为今天全球自己做预训练的公司,能拿到的公开数据,其实各家都是大同小异的。那些真正能大幅提高模型性能的高质量数据只有少数几家公司才有,通常都是那些拥有大内容平台的公司,比如谷歌有Youtube、Meta有自己的社交平台等等。
不是谷歌、Meta的话,怎么获取优质数据呢?今天业界一个心照不宣但又违规的做法,就是去薅OpenAI的羊毛。OpenAI背靠微软,财大气粗,很早就搞定了GPT-4版本的高质量数据,于是先有一批科学家通过数学原理验证了一件事——知识蒸馏这件事是可行的,接着大家就都开始把手伸向了OpenAI。
什么是知识蒸馏?就是把大型复杂模型里的知识转移到另外一个较小模型中的方法。薅羊毛的具体动作就是,从GPT-4的输出中获取大量回答,把这些回答过滤筛选清洗之后,作为高质量数据,用来给自己的模型做预训练,提高性能。
比如,2023年12月,OpenAI就把字节跳动的API账户封了,原因就是被人家发现在薅羊毛,主要是量太大太明显了。
其实,业内很多公司都在这么做,甚至连公认不缺数据的谷歌也一度被列为薅OpenAI羊毛的嫌疑犯。今天有很多高校也推出过这类薅羊毛的模型,但OpenAI对这些高校是网开一面的。因为它们都公开声明,这些模型的训练数据来自ChatGPT,这些模型也都禁止用于商业用途。
除了自己完成预训练外,还有很多事情可做。比如2023年下半年中国AI圈所谓的“百模大战”,这里90%的模型都不是由创业公司自己预训练的,它们只是对已经完成预训练的模型做微调。通常使用的就是LLaMa2这个开源模型的不同版本——7B、13B、70B等。
微调的计算量就要远远低于预训练了,大约只有预训练的1%。预训练如果需要3个多月的时间,微调可能只需要1天或者几天就完成了。
但只微调的局限性也很大。比如,LLaMa2如果不更新了,或者美国对ENFORCE法案批准了,AI相关的硬件、软件、模型和参数值都不得流入外国竞争对手的话,像LLaMa2框架的性能其实是有上限的,于是再怎么微调都永远不可能超越GPT-4第一版的性能。
所以,这一档次创业公司的产品非常依赖于别家模型的进步,经常被称为套壳产品。
而实际上,还有很多连微调都不做的套壳产品,这些产品之间还可以再出分三六九等。
最高档次使用的是Embedding特定数据集的方式,虽然最终的产品形态也是回答用户问题,但却能回答ChatGPT无法准确给出答案的那些问题。
这个方法其实还是有一定技术门槛的——首先要收集数据,就是那些你打算嵌入的数据,比如技术文档、产品描述、医疗、法律、金融领域的专业知识、术语,然后使用选定的大语言模型,比如说LLaMa2 70B,把这些数据转换为向量表示,之后把所有这些向量存到数据库里,对向量进行索引,以便今后快速查询。对于用户这一侧来说,也会把他们的问题转化为向量表示。用户得到的答案是什么呢?就是之前数据库里的向量中和用户问题的向量最相似的那个。
这个方法不用微调大模型,而且更多时候,比如说GPT-4模型,你一个创业公司也不可能拿到这个模型,所以也就谈不上微调它,最终却可以实现一个微调的效果。
比如,今天最著名的AI搜索产品Perplexity,用的就是这种技术的代表。我就在专栏里隆重推荐过,因为确实好用,已经有好几百个用户在我的推荐下付费使用了。但很多业内人士也会把Perplexity称为套壳产品。
比Embedding特定数据集还不如的套壳,就是构建Prompt。
Prompt就是给大语言模型提问的问题内容,只不过你构建的问题更完善,更有角色代入感,更全面。
比如,你体检查出了高血压,你想了解怎么办,没有经验的你会直接问,我体检有轻微高血压,该怎么办?这样的问题得到的结果顶多是个及格分。
但如果你有Prompt技巧的话,就知道先给大语言模型设定一个角色,然后再问,通常会有更好的效果。所以,改进版的Prompt就是这样:如果你是一个家庭医生,现在我体检时的血压是多少多少,我多少岁,我想控制住血压,请你给我全方面的建议。这个方法如果系统化、规模化,把用户的问题都做更全面完整的自动优化,然后再输入给大模型,最后再把结果返回给用户,就是构建Prompt的方法。
当然,最Low的就是,直接引用OpenAI或者Anthropic、微软Azure这些公司的API接口,自己只做一个用户界面,作为中间商,帮用户传递问题和答案。没有比这个套壳的档次更低的了。
那么,OpenAI对中国完全关闭了API后,哪些产品受益?哪些产品受损呢?
其实,只有我最后说的那两类套壳产品,就是构建Prompt的产品和直接调用API的产品会受损。因为毕竟OpenAI提供的生成式服务质量好、价格低,现在突然不让用了,只好改用其他公司的,性能会下降一些,费用还会涨上去了。
但生成式AI的产品发展了两年,其实这两类产品还活着的已经不多,这两类产品绝大部分在2023年下半年就被淘汰掉了。
而只要是在Embedding特定数据集这个档次和之上套壳的,影响都不太大。
比如,就以Perplexity来说,你就可以在界面里选择大语言模型你打算用哪个,比如我就喜欢用Claude3 opus,我觉得这个帮我搜索的答案更精准,这时候,OpenAI假如禁止Perplexity继续调用API了,我是一点也不会受影响的。
在Embedding特定数据集层级之上的AI创业公司,至少都要手握着一个完整的模型,所以它们的产品是好是坏,和OpenAI是否提供API接口关系就不大了,最多就是不方便薅羊毛了。
更多曾经的国内用户会涌入到国产模型上来,这对自研的国产模型厂商来说是件大好事,因为毕竟今天很多国产模型的素质已经不错了。
虽然鄙视链上有高低,但最终还是市场上见输赢。虽然Perplexity这样的产品处于鄙视链下端,但一个拥有200万用户的套壳产品,显然比拥有一个自研模型但零用户得产品要好上万倍。
好,这就是今天的内容。我是卓克,我们明天再见。