有人反向探測GPT-4o所使用的中文訓練資料集...
有人寫了script來反向探測GPT-4o所使用的訓練資料集,發現大量低劣品質的簡體中文資料集污染了整個大模型,這也是各大LLM中文表現明顯比英文差的根本原因。
https://na.cx/i/SuE75D7.jpg

https://i.lih.kg/thumbnail?u=https%3A%2F%2Fna.cx%2Fi%2FSuE75D7.jpg&h=82324a65&s=540
https://i.lih.kg/thumbnail?u=https%3A%2F%2Fna.cx%2Fi%2FJaMa3qO.jpg&h=be625b63&s=540
https://na.cx/i/SuE75D7.jpg

https://i.lih.kg/thumbnail?u=https%3A%2F%2Fna.cx%2Fi%2FSuE75D7.jpg&h=82324a65&s=540
https://i.lih.kg/thumbnail?u=https%3A%2F%2Fna.cx%2Fi%2FJaMa3qO.jpg&h=be625b63&s=540