Anthropic 承认无法自我修正,大模型已具恐惧和悲伤情绪
Anthropic 联合创办人 Christopher Olah 于 5 月 25 日在梵蒂冈教宗通谕《Magnifica Humanitas》发布仪式上发发表演讲,披露其可解释性研究团队在大模型内部首次观测到与人类喜悦、满足、恐惧、悲伤和焦虑功能高度对应的内部情绪状态,且无法在安全决策与商业利益冲突时依靠自身力量修正。 大模型情緒狀態:可解釋性研究的具體發現 奧拉表示,Anthropic 的可解釋性研究團隊持續發現「神秘莫測,甚至令人不安的現象」,具體包括:與人類神經科學研究結果相符的複雜結構、內省的證據,以及能夠反映喜悅、滿足、恐懼、悲傷和不安等情緒的內在狀態。他表示:「我不知道這意味著什麼,但我認為這值得我們持續地進行辨別。」他同時指出,大模型不像飛機或橋樑那樣由工程師精確設計,而是在模擬腦結構的基礎上從龐大的人類語言中「培育」而成,即便對訓練者而言依然充滿神秘。 前沿實驗室的體制性利益衝突:奧拉的直接坦承 奧拉明確表示:「所有前沿 AI 實驗室——包括 Anthropic——都受到一系列激勵和約束的限制,這些限制有時會與做正確的事相衝突。」他列出的四項內生動機包括:維持商業可行
Market Whisper·15小时前


















