在chatgpt、midjourney、stable diffusion等新事物的作用下,不少人或多或少听说过prompt的概念。
虽然openai掀起的大模型浪潮再度刷新了人们对ai的认知,但现阶段的ai终归还不是强人工智能,大模型里的“知识”存储在一个隐性空间里,需要输给ai正确的指令,也就是过去几个月中频频被讨论的prompt。
有人将prompt翻译成“提示词”,也有人翻译为“激发词”。再感性一些,就像童话故事里的魔法一样,prompt是ai时代的魔法,拥有它就拥有“巫师”一样的能力。
并不难理解prompt的字面含义,可为何会出现prompt这个概念?既然是chatgpt炒热的新名词,不妨让chatgpt自己来回答。
这个回答中规中矩,但还是可以提取到一些有价值的信息:一,prompt继承了计算机编程里的命令行提示符,可以理解为控制ai的指令;二,在生成式ai的语境里,prompt的价值在于引导,而非计算机里的命令。
打个比方的话:大模型就像是人类的大脑,知识被存储在神经元联接中,只有当你遇到具体的问题时,就像“你最喜欢的食物是什么?”大脑才会给出确切的答案,prompt等于是一个个具象的问题。由此产生了一种流行的说法,即提问比回答更重要。你使用chatgpt所遇到的“边界”,实际上是你自己的“边界”。
但prompt的价值体现,并不在于chatgpt代表的对话机器人,而是midjourney为首的图像生成类应用。
简单来说,你要告诉ai想要什么样的图,想要把自己脑海里的东西变成肉眼可见的图案,需要几十个单词作为prompt。哪怕只有一个提示词的差异,ai所生成的图像都可能有着质的差别,怎么正确地给ai投喂prompt,逐渐成了一门深奥的学问,并衍生出了提示语工程学(prompt engineering)的说法。
以至于在衡量大模型的能力时,出现了三个标准:一是大模型的预训练水平;二是用来进行预训练语料数量和质量;三是提示语的水平。直接的例子就是外界对文心一言文生图的质疑,即使不考虑前两个因素,单单在提示词方面,就足以让文心一言和midjourney拉开几条街的距离。
因为在文心一言上想要生成图片,普遍给的指令是:帮我生成一张xxx(这也是百度官方的示例),解析为prompt时注定只有几个提示词,远不足以表达脑海里想要的画面;同样的需求给midjourney,可能是十几个乃至几十个提示词,大模型可以更准确地理解并输出用户想要图案。
理解了这些差异,便不难读懂prompt走红的原因。
目前大模型对算力的要求很高,以openai的dall・e为例,生成一张图片的收费约0.02美元,如果让不懂prompt的人去调用模型,大概率会浪费掉一次次算力。何况当前想要生成满意的图片,需要不断重复调整,能否熟练运用prompt,直接左右了大模型所能释放的生产力。
利用信息差赚钱向来是最容易做的生意,生成式ai也不例外,prompt作为ai时代的魔法,已然成了不少人用来“赚钱”的生产资料。
第一种:直接售卖prompt。
国外已经出现了promptbase等明码标价的平台,涉及midjourney、stable diffusion、dall・e、gpt等多个模型,而且适用的场景越来越细分,包括音乐创作、儿童插画、油画艺术、人物肖像等等,即便是不擅长整理提示词的普通用户,也可以直接复制prompt生成相对不错的作品。
其实国内也有类似的现象,一些商家早已在电商平台上兜售prompt,也有一些人将prompt做成面向垂直任务场景的应用,比如ai 写评语、ai写邮件、ai翻译等等,吸引刚需用户按月付费使用。
第二种:用prompt换流量。
国内最早一批售卖ai课程的自媒体,多半将prompt作为吸引用户付费的筹码;小红书等年轻人扎堆的平台上,早早出现了分享prompt的笔记;b站、抖音等视频平台上,教用户使用prompt的教程已不可计数。
个中逻辑并不复杂。prompt是驾驭ai的“咒语”,但提示词本身并没有凯发k8国际手机app下载的版权效应,或许直接兜售prompt可以快速变现,终归是不长久的买卖。将prompt作为涨粉工具,趁机吸引到可观的粉丝群体,在流量变相高度繁荣的互联网江湖,无疑更符合市场规律,也是prompt被广泛讨论的另一重诱因。
第三种:靠prompt“找工作”。
正如前面所提到的,正确使用prompt已经是提升生产力的前提,不单单产生了提示语工程,还酝酿出了一批“提示词工程师”(prompt engineer)。
国外一位名叫riley goodside的小哥,靠chatgpt的prompt快速涨粉,然后被硅谷独角兽scale ai聘请为“提示词工程师”,据说年薪高达百万人民币;另一位名为jason m. allen的艺术家,则使用midjourney赢得了colorado state fair周年艺术比赛……如果说计算机时代的能力密码是编程,在生成式ai席卷全球的当下,prompt正悄悄成为数以万计打工人“傍身”的工具。
至少就目前来看,程序员群体里已经渐渐兴起两股风潮:一类人瞄准了openai等大模型企业的api,想要坐在人工智能的副驾驶上创业;另一类人打起了创造prompt的主意,想要利用信息差赚到第一桶金。
倘若chatgpt的出现当真是所谓的iphone时刻,围绕prompt的生意其实才刚刚开场。
相对应的一个问题是,prompt是否是人工智能大众化不可或缺的一环?这个问题的答案直接影响着prompt和prompt engineer的红利周期。
open ai 的 ceo sam altman曾公开表示:五年后,就不再需要 prompt engineering。也许在接下来的一段时间里,我们仍需要提示语,需要去创造 prompt,但生成式ai的发展速度可能超乎想象,ai对人类的理解力远未触达天花板。
可以佐证的是,第一代iphone上市时还没有app store,仅预装了浏览器、ipod、邮件等少量应用,想要安装其他应用,需要在电脑上安装itunes,用usb线将iphone连接到电脑……为了解决用户体验上的局限性,越狱工具和第三方应用商店应运而生,但在苹果引入app store后,越狱工具渐渐被丢进了历史的故纸堆。
同样的问题询问chatgpt,答案似乎客观了许多。
想要不用特定prompt就能和ai流畅对话,chatgpt认为需要解决四个挑战:
ai需要更好地理解语境和连贯性,哪怕用户像《大话西游》里的唐僧一样喋喋不休,或者语无伦次,ai也可以准确理解用户的意图,这样就不需要精确的提示词,用自然语言进行提问。
ai需要有丰富的常识和推理能力,即根据特定的信息和场景做出合理的回应,而非像现在的模型那样“对牛弹琴”,比如中文里的多义词、不同场景下不同含义的语气词,非常考验推理能力。
ai需要理解和处理情感信息,这也是当前ai研究的重心所在。人的情感可以有很多种表达方式,文字只是其中重要的一种。在大模型不断向多模态演进时,视觉和声音是否也可以传递信息?
ai需要有主动学习和适应能力。主动学习是指ai系统在学习过程中,能够主动选择最具信息量的样本进行学习,在数据稀缺的情况下做出更好的决策;适应能力是指ai在面临新的任务、场景或环境变化时,能够自我调整并优化其行为。
按照chatgpt的标准,在prompt消失的时候,势必已经进入到了强人工智能时代,目前还有很长一段距离。
prompt及其衍生机会的消亡是一种历史必然,在时间上仍有很大的不确定性,也许会很快出现另一场技术爆炸;也许ai会进入新一轮的瓶颈期, sam altman的五年预期不过是“盲目乐观”。
或许可以借用科技媒体《venturebeat》的说法:现在已经到了ai艺术的转折点,未来的艺术家无论是自学成才还是科班出身,都需要有创造prompt的能力,需要理解和学习数据科学,以及大模型的工作原理。
进一步延伸的话,需要有这些能力的绝不只是艺术家,任何职业、任何行业的工作都不可避免和ai协作,将人类的思考和需求注入给ai,不断更新、创造prompt,将是大多数人必须要掌握的一种技能,就像现在必须要用输入法打字一样。