有人反向探測GPT-4o所使用的中文訓練資料集...

有人寫了script來反向探測GPT-4o所使用的訓練資料集,發現大量低劣品質的簡體中文資料集污染了整個大模型,這也是各大LLM中文表現明顯比英文差的根本原因。
https://na.cx/i/SuE75D7.jpg


https://telegra.ph/file/1f1c74f2c57ee72700ec9.jpg?width=540&height=518

https://i.lih.kg/thumbnail?u=https%3A%2F%2Fna.cx%2Fi%2FSuE75D7.jpg&h=82324a65&s=540

https://i.lih.kg/thumbnail?u=https%3A%2F%2Fna.cx%2Fi%2FJaMa3qO.jpg&h=be625b63&s=540
3
分享 2024-05-17

0 个评论

要发言请先登录注册

要发言请先登录注册

发起人

状态

  • 最新活动: 2024-05-17
  • 浏览: 1049