你绝对想不到,连《老友记》里钱德勒的冷笑话如今也能被AI准确标注情绪了!最近,arXiv上出现了一篇轰动的预印本,科学家们竟然用GPT-4o给这部经典美剧的每一句对话都打上了情绪标签——而且完全没需要人工干预。
要理解这一突破,我们得先说说语音情感识别(SER)的难题。以前,要让机器听懂人类话语中的各种情绪,研究人员得雇佣大量的研究生,不仅熬夜追剧,还要费劲标记情绪。比如瑞秋甩门这一动作,有人觉得是愤怒,有人觉得是委屈,最后标注出来的数据比罗斯的婚姻状况还要复杂混乱。不过,现在牛津大学和Meta团队联手开发了一个名为MELT的系统,利用大语言模型自动标注多模态情绪数据,效果居然比人工标注还要稳定。
AI开嗨模式:追剧啦
研究人员将《老友记》10季的台词输入GPT-4o,虽然只有文字脚本,但神奇的事情发生了——AI通过钱德勒经典台词“Could I be wearing any more clothes?”的语法重音,准确判断出了这句话的“尴尬式幽默”。更神奇的是,当菲比说“See, he's her lobster”时,模型准确标注出了“深情无厘头”的情绪复合体,这可不是随便哪个人工标注员都能做到的。
展开剩余68%这一切的秘诀在于结构化的提示词。通过将“莫妮卡式强迫症”这种思维框架教给AI,系统能从“Joey doesn’t share food!”这句台词的感叹号、食物关键词和角色关系中提取信息,最终标注出“防御性愤怒”的情绪标签。这种基于语境的知识萃取方式,使得AI能够比人类更加精准地捕捉美式幽默里的微妙情感波动。
人工标注会过时?
传统的人工情感标注,标注1小时的语音通常需要花费约800美元,而使用MELT系统同样处理数据只需要3美元电费。研究团队还用自动标注的数据微调了像wav2vec这样的自监督学习模型,测试结果显示准确率在IEMOCAP等数据集上平均提高了12%。最让人惊讶的是,AI标注的情感边界非常清晰——例如当罗斯喊出“We were on a break!”时,AI准确识别了情感从愤怒到委屈的转折,而人类标注员有时却会搞混。
但最让心理学家们刮目相看的,是后续的实验结果。50个志愿者听了100条《老友记》片段,GPT-4o标注的情绪认可度达到了89%,甚至比专业标注团队的85%还要高。毕竟,AI不受凌晨三点加班影响,也不会因为讨厌某个角色而偏见判断。
情绪计算的新纪元
这项研究的真正颠覆性在于:大型语言模型只凭文本就能逆推出语音中的情感。就像你收到短信“Fine.”时,能够根据语气推测对方的情绪,GPT-4o则是通过剧本中的表情描写和对话节奏重建了声音的抑扬顿挫。研究团队现在正在用相同的方式处理《生活大爆炸》的数据,谢耳朵的尖酸毒舌将是下一个挑战。
不过,也有学者提出警告,这种方法可能会对文化梗密集的作品失效。例如,AI可能会误解日剧《半泽直树》中“加倍奉还”这一台词的情绪,把它当作真心话,而不是表演性的愤怒。然而,无论如何,当我们在2025年回顾这项用《老友记》训练AI的浪漫实验时,或许它会成为情绪计算历史中的“Smelly Cat”时刻——从一开始的荒诞,到最终成为经典。
——本文参考文献:
日期:2025年5月30日
期刊:尚未发表的arXiv预印本
标题:MELT: Towards Automated Multimodal Emotion Data Annotation by Leveraging LLM Embedded Knowledge
发布于:山东省