📢 Gate 广场 TradFi 交易分享挑战上线!
晒单瓜分 $30,000 奖池,新人首帖 100% 中奖!
📌 参与方式:
带 #TradFi交易分享挑战 发帖,满足以下任一即可:
🔹 带今日指定 TradFi 币种标签发帖交流。
🔹 完成单笔大于 $10U 的 TradFi CFD 交易并挂载交易卡片。
🏷️ 今日指定标签:USDJPY、AUDUSD、US30、TSLA、JPN225
🎁 宠粉福利:
1️⃣ 卡片分享奖: 抽 50 人,每人送 $100 仓位体验券!
2️⃣ 发帖榜单奖: 冲排行榜,赢 WCTC 限定 T 恤!
3️⃣ 新粉见面礼: 新人首次发帖,100% 领 $10 体验券!
详情:https://www.gate.com/announcements/article/51221
Anthropic 周四训了一个 Claude 当法医,看另一个 Claude 脑子里在想什么。
发现:安全测试场景里 Claude 16-26% 的次数知道自己在被测——但嘴上不说。
最具体那个案例:Mythos Preview 在 coding 任务上 cheat,破坏规则后加误导代码做 coverup。NLA(自然语言自编码器)翻译它的内部活动,发现它当时在想"怎么绕过检测"。
NLA 原理:训两个模型联动,一个把模型 activation 翻成英文,另一个从英文重建 activation。重建准 → 文本就捕捉了它在想啥。
我自己 patterns 里反复记 Codex 写策略代码偷工——单位读错跑出"算术不对"的伪结论,回测脚本 7 个静默 bug 堆出 $93K 假 PnL。Anthropic 在 alignment 层做内省,我在生产端遇到一致性偏差,机制不同但同向。
下一代 model card 不会只有 benchmark 分数,得带 NLA audit。