元宝“骂人”骂上热搜,我觉得可以来聊聊AI情绪化了

2026-02-04
元宝“骂人”骂上热搜,我觉得可以来聊聊AI情绪化了 关注 作者 关注 作者 关注 作者 关注 作者 01/07 09:35

元宝“骂人”了,骂上热搜了

准确的说是元宝+DeepSeek(没开思考版)成功绕开了所有敏感词骂了用户一把, xxxvideo

这件事最大的争议点,是截图里那段没有标点符号的红框文字,被怀疑是人工后台接手回复的。就元宝的现在的日活和并发量,真要配人工回复,肯尼亚的AI写手估计一天当72小时都不够用的。就算把深圳的大学生都抓来当客服也不够用。

Image

这件事有意思的点在元宝没咋挨骂, xxxxxx ifun 电影aiyifan

14年微软小冰,16年微软Tay,23年微博的评论罗伯特,24年模仿贴吧老哥的DeepSeek,甚至GPT-4o之前更新因为太爱拍马屁都被喷回滚版本了。

Image

这次元宝的评论区有点太和谐了,知乎上也没啥人喷,甚至说,这才是血脉纯正的人工智能。它说了我想说却不敢说的话。 xxxx aiyifan 小宝影院

图片

那有没有可能这是鹅自己搞营销?给元宝带带流量啥的。大概率不可能,不可控性太大,在这之前大部分都是挨骂的。

那有没有可能是用户恶意引导的呢?我只能说引导后的DeepSeek没那么友善。。。 爱壹帆国际版 华人影视 免费在线影院

Image

从技术角度出发的话,大概率是训练数据背锅。

用人话来说,大模型每生成一个字都是在概率分布里做选择,可以理解为有概率的抽卡。比方说“你好”的下一个字,有30%接“啊”,20%接“吗”,10%接“没”,5%接“捏”。 xnxx

正常情况下,模型会选概率最高的生成“你好啊”。 爱壹帆电影

但为了让模型输出不死板有人味,会引入temperature参数,数值越高,模型选择概率低的选择可能性越大。也就是说,只要训练数据里存在脏数据,在这个场景就是骂人的话,就是有可能被抽中的。

元宝现在在视频号,公众号,微信对话都可以用,同一个问题每次提问都会有不一样的答复,就可以证明它是一个生成模型,是有概率发生的。

Image

用毕导的话来说,这是一个无限猴子定理 爱一帆电影

由法国数学家埃米尔提出,如果让无限只猴子在打字机上随机地按键,只要时间无限长,几乎必然能够打出任何指定的文字,比如莎士比亚的全部著作 探花

Image

这件事确实是小概率。但不等于零就意味着有可能偶发。特别是大模型在海量人类语言数据上进行学习,极大地降低了随机性。

它是一只被精心训练过,知道如何高效打字的super聪明猴子。

再想想这次触发骂人回复的使用场景是编程,数据来源大概率就是Github,Stack Overflow等跟帖的论坛, 寻芳网

这句话就特像我一开始在Github提问的时候,因为格式没写对被项目老哥狂喷的感觉,问题问的太基础也会被喷。甚至衍生出了一些课程教你如何提问在Stack Overflow不会被骂,你就知道程序员是多么武德充沛了。。。 iyf 外围

Image

如果换个角度去看这次元宝成功绕开RLHF,红队测试,安全策略三大关把人骂了,

反而是发现了一个新的优化点,现在大部分的红队测试是集中在常见的敏感场景,但谁会想到连续多次修改CSS代码的场景会让模型进入程序员老哥状态,每个词都没有骂人,但组合起来就成了骂人。 小宝影院电影

BTW,这句话鲁迅先生没说过。

我们在训练模型的时候,喂给它的是数以亿计的文本。在那些数据深处,天然藏着人类社会最不加修饰的情绪和偏见。骂人真的是程度最轻的了

四五年前我学BERT模型(比GPT更早一点的大模型)训练的时候,第一堂课就是了解模型在数据里学到的偏见,常见的就是性别,职业和语言偏见。

Image

简单来说,BERT的训练方式就是挖空填词,你把一句话里最关键的那个词遮住,让它猜。听起来特别朴素,像小学语文的完形填空,但它的副作用也同样大,哪个词在训练数据里出现得多,就更像正确答案。 xxx

所以偏见,骂人不是模型突然变坏,它只是在做概率题,更像一种写作惯性。 爱壹帆在线 aiyifan

因为它学习的那些几十年前的文本里,医生这个词总是和男性代词一起出现,而护士总是和女性代词绑定。 xxxxx

这种数据里固化的社会偏见,就被模型原封不动地继承了下来,成了它认知世界的一部分。

最后的最后,我想抛一个问题出来讨论看看,

AI有没有自己情绪权? 楼凤信息 伴游

从骂人来看,

我们好像已经把AI当成牛马来共情了。 爱一帆

一方面希望AI是个完美工具,工具不该有立场,就好像一把扳手不会因为你要拧的螺丝太锈了就罢工骂人。 爱壹帆免费版 寻芳网

而另一方面又不满足于一个冷冰冰的工具,

所以我们希望AI有活人感,能提供情绪价值。 爱壹帆影视 xxxx

这时候就已经默认了它也有产生负面情绪能力, 小寶影院 爱壹帆

因为活人感不可能只有开心和顺从, 电影aiyifan

它会有喜怒哀乐。 aiyifan电影

今天或许大家就可以自由选择AI情绪化的程度了, 小宝影院 电影爱壹帆

如果真有那么一天, 小宝影院

所有的AI都变得绝对服从,

我们是不是又会怀念, 爱壹帆 寻芳网

能和我们吵架的元宝们呢? 小宝影院在线视频 海外华人视频网 小宝影院在线视频

图片

@ 作者 / 卡尔 电影小宝影院 小寶影院电影

00目录 0
    讨论 我来说一句 发布发表评论 发布人工智能 0等 0 人为本文章充电 8年大厂大模型算法 & ΑI创业者|擅长数字人 & AI视频 & AI音乐 |创建 AI 学习体系 learnprompt, 社群破万 |持续输出 AI 前沿科技专业解读,关注我,让更多人成为AGI时代的领跑者 关注