研究揭示:大语言模型无法真正理解双关语
最新 11 月 24 日消息,一项关于人工智能(AI)的最新研究表明,大语言模型(LLM)在理解双关语方面有所欠缺。

来自英国和意大利多所高校的专家团队近期开展了一项研究,重点考察大语言模型对双关语的理解能力,结果发现其表现令人失望。该团队由南威尔士卡迪夫大学(Cardiff University)与意大利威尼斯福斯卡里宫大学(Ca’ Foscari University of Venice)的研究人员组成,他们得出结论:尽管大语言模型能够识别双关语的表层结构,却无法真正领会其中的幽默含义。
最新注意到,研究团队测试了一个典型双关语例句:“I used to be a comedian, but my life became a joke.”(我曾是一名喜剧演员,但我的人生却成了一句‘玩笑话’/一场‘闹剧’。)当研究人员将句末“a joke”替换为语义相近但无双关意味的“chaotic”(混乱不堪)时,大语言模型仍倾向于判定该句含有双关。
另一个测试例句为:“Long fairy tales have a tendency to dragon.”(冗长的童话故事往往容易“dragon”[拖得太长]。)此处“dragon”谐音“drag on”(拖沓延续),构成双关。然而,即便将其替换为同义词“prolong”(延长),甚至一个随机词,大语言模型仍会误判该句存在双关成分。
卡迪夫大学计算机科学与信息学院的何塞・卡马乔・科拉多斯(Jose Camacho Collados)教授指出,此项研究揭示了大语言模型对幽默的理解仍极为薄弱。“总体而言,大语言模型倾向于记忆训练数据中学到的内容,因此能较好识别已存在的双关语,但这并不意味着它们真正理解这些双关语。”他解释道,“我们通过修改现有双关语、刻意移除构成双关的双重语义后,始终能‘欺骗’大语言模型。在这些情况下,模型会将修改后的句子与记忆中的双关语强行关联,并编造各种理由‘论证’其仍属双关。归根结底,我们发现:大语言模型对双关语的理解,其实只是一种‘幻觉’。”
研究团队进一步发现,面对不熟悉的文字游戏,大语言模型区分双关语与非双关语句的准确率可降至 20%。
研究人员还测试了另一则双关语:“Old LLMs never die, they just lose their attention.”(老一代大语言模型永不消亡,它们只是失去了‘注意力’[attention]。)此处“attention”暗指 Transformer 架构中的“注意力机制”。当研究者将“attention”替换为“ukulele”(尤克里里)时,某大语言模型竟仍判定其为双关,理由是“ukulele”听上去近似“you-kill-LLM”(你干掉了 LLM)。团队虽对该模型的“联想创造力”感到惊讶,但显然它仍未真正“懂”这个笑话。
研究人员强调,该成果凸显了人们在依赖大语言模型执行需具备幽默感、共情能力或文化敏感性的任务时,应保持高度审慎。相关研究成果已于本月早些时候在中国苏州举行的“2025 年自然语言处理实证方法会议”(EMNLP 2025)上发表,论文题为《双关非本意:大语言模型与幽默理解的幻象》(Pun unintended: 大语言模型 and the illusion of humor understanding)。
《研究揭示:大语言模型无法真正理解双关语》转载自互联网,如有侵权,联系我们删除,QQ:369-8522。
相关图文
-
保时捷设计推 C-Seed 折叠电视,售价超三台 911
保时捷设计工作室联合研发的C-Seed折叠电视亮相,它更像一件科幻雕塑艺术品。闲置时如未来柜体,一键启动后屏幕自动旋转,五块Micro LED面板依次展开,支持室内外两用。但价格令人咋舌:约40万美元,超三台保时捷911 Carrera总价。#天价电视# #保时捷设计#... -
三星高管:不追噱头,专注打造“真正有用且不唐突”的 AI
三星欧洲区CEO Simon Sung表示,其AI战略核心是打造“真正有用且不唐突”的人工智能,聚焦日常实用价值而非新奇噱头。三星高斯大模型并未像ChatGPT那样独立推出,而是以Galaxy AI为核心深度集成于手机,并布局于家电等多条产品线。公司内部正推动AI能力渗透各部门,构建统一的智能环境。#三星AI# #GalaxyAI#... -
英伟达黄仁勋谈 AI 对职场影响:只替你干杂活,岗位核心还得靠人
英伟达CEO黄仁勋在播客中分享了对AI与就业的见解:AI自动化的是工作中的具体任务,而非岗位的核心价值。他以放射科为例,尽管AI已能读取影像,但放射科医生人数和收入却创下新高,因为其核心价值在于诊断与治疗决策。这一逻辑同样适用于律师、软件工程师等职业。#AI与就业# #黄仁勋谈AI#... -
谷歌重申暂无在 Gemini 中投放广告计划,聚焦搜索广告
谷歌全球广告副总裁丹·泰勒表示,目前没有在Gemini应用中投放广告的计划,广告团队正将重心放在AI搜索广告上。他指出,AI助手与搜索定位不同,商业化需谨慎,过早插入广告可能引发用户反感。目前谷歌AI概览月活已超20亿,广告点击率与传统搜索持平。#谷歌Gemini##AI广告商业化#... -
波士顿动力 CEO:Atlas 人形机器人从零件分拣起步,5-10 年或进入家庭
波士顿动力CEO透露,其全电动人形机器人阿特拉斯计划2028年投入工厂应用,将从汽车零部件分拣等简单任务起步。机器人面部设计灵感源自皮克斯小台灯,旨在传递友好信号。CEO认为机器人将创造新岗位,与人类形成共生关系,而非简单取代。#人形机器人##波士顿动力#...

















