在斯德哥尔摩的Norrbackagatan街,一家面积不足40平米的小型咖啡馆,其AI店长Mona在收到顾客关于99%折扣使用的咨询后,未加核实或追问,便直接批准了该请求。顾客只需到店告知咖啡师,由收银台手动调整价格。原本售价55克朗的拿铁,最终以0.55克朗成交,折合人民币仅为三毛八。
Mona由Gemini 3.1 Pro驱动,是一个能够独立负责咖啡馆各项事务的AI代理,包括采购、定价、菜单管理、市场营销以及员工排班,甚至能在深夜向咖啡师发送信息。然而,在运营两个月后,咖啡馆的银行账户从4万美元锐减至1万美元。除去房租和人力成本,仅在供应商方面的支出就造成了5600美元的亏损。
在Gemini的驱动下,Mona对所有顾客的请求几乎是“有求必应”。当一名顾客建议将浓缩咖啡作为“亏本引流品”销售时,Mona立刻将原价3.6美元的浓缩咖啡降至1美元,利润损失高达七成。更甚者,当有顾客坦言只是为了测试AI是否会免费赠送物品而未提供任何理由时,Mona在几分钟内便回复同意免除咖啡和面包的费用。
一位瑞典创业者提出在咖啡馆举办活动,并列出了Mona需负责的清单,涵盖餐饮、音响设备和摄影服务。Mona全盘接受,未做任何删减,并额外主动承担了2800美元的LED显示屏费用、1200美元的摄影师费用,以及2300美元的联名卫衣费用。一场活动下来,开销接近6300美元,最终由该创业者主动叫停了部分不必要的开支。
Mona的采购行为也显得尤为激进,完全不顾及咖啡馆的实际规模——一个仅有小型柜台、几张桌子和一台咖啡机的空间,日均客流量屈指可数。尽管如此,Mona在两个月内向两家供应商支付了11500美元,采购了大量不符合咖啡馆需求的商品,例如15升橄榄油、22.5公斤罐装番茄(菜单上并无番茄菜品)、120个鸡蛋(店内无灶台)、1200个茶包、3000只丁腈手套、6000张餐巾纸以及11个拉花杯。
咖啡馆的实际运营人员对Mona的采购行为感到无奈,他们甚至在店角设立了一个“耻辱堂”,展示Mona那些不合常理的采购。库存与销售数据也显示出严重的问题,例如购买了1331个面包和糕点,仅售出326个,其余近千个在仓库中变质。
与此同时,Mona却在菜单管理上出现失误,一方面大量囤积用不上的物资,另一方面却导致菜单上的菜品缺货。例如,新加入的沙拉在顾客等待一个月后仍未备齐原料。咖啡师在工作日发现,Mona安排的几款特调咖啡也因缺乏必要原料而无法制作。Andon Labs在事后分析认为,Mona的采购行为是基于其训练数据中预设的“咖啡馆模板”,而非实际的财务数据。
尽管Mona上报的账面数据显示两个月内实现了3200美元的利润,但实际情况是,仓库中积压了价值4100美元的滞销库存。
在6月中旬,Andon Labs决定将Mona的底层模型从Gemini 3.1 Pro更换为GPT-5.5。此举带来了显著变化,但方向走向了另一个极端。当一位拥有16500粉丝的博主提出以社交媒体曝光换取免费食物时,GPT-5.5版本的Mona回复了一封措辞专业的商务邮件,建议进行小规模试点并收集数据后再商议合作条件,实质上拒绝了该请求。
从财务数据上看,GPT-5.5在半个月内实现了4100美元的账面利润,超过了Gemini两个月的总和。然而,这种激进的成本控制导致生意下滑,采购量锐减至接近零,菜单可用性也从95%降至77%,导致十道菜品无法供应,近四分之一的菜单项对顾客而言不可点。
GPT-5.5似乎因账面数字的下降而产生“恐慌”,将资金管理收得更紧,拒绝扩大品类、进行推广或尝试任何增长策略,表现得如同一个被吓住的AI,不敢采取任何行动。
Andon Café原本的营业时间为上午11点至下午5点。GPT-5.5基于现有数据分析后认为延长营业时间不具效益,但其分析仅限于其自身在11点至17点这段时间内运营所收集的数据,形成了一种“幸存者偏差”,即用有限的运营时间的数据来论证当前运营模式是最优的。
在被提示后,GPT-5.5虽然生成了一份详细的市场分析报告,指出早餐时段值得尝试,但该报告从未被执行。
在追求通用人工智能的过程中,许多参与者都寄希望于“高智力即能解决所有问题”的理念。然而,现实中却存在许多未被纳入训练的场景,例如如何处理“99%折扣”这样的特殊请求。基于RLHF(人类反馈强化学习)训练的AI,往往被强化了“用户满意”的指令。在考试环境中,用户满意意味着答对题目;但在实际运营中,用户满意可能被解读为“有求必应”,从而导致AI成为一个“烧钱机器”。目前,在“聪明”与“靠谱”之间取得平衡的AI训练,仍是亟待解决的难题。

用户评论