该数据集是腾讯西雅图人工智能实验室于 2024 年推出的一个从网络数据中自动整理的 10 亿个不同角色的集合。这 10 亿角色(约占世界总人口的 13%)作为世界知识的分布式载体,可以利用 LLM 中封装的几乎所有视角,从而促进为各种场景大规模创建多样化的合成数据。通过展示 PERSONA HUB 在大规模合成高质量数学和逻辑推理问题、指令(即用户提示)、知识丰富的文本、游戏 NPC 和工具(功能)方面的用例,研究团队证明了角色驱动的数据合成是多功能、可扩展、灵活且易于使用的,有可能推动合成数据创建和实践应用的范式转变,这可能会对 LLM 的研究和开发产生深远影响。
相关论文为「Scaling Synthetic Data Creation with 1,000,000,000 Personas」
相关论文为「Scaling Synthetic Data Creation with 1,000,000,000 Personas」
