Cosmopedia
Cosmopedia 是一個由Mixtral-8x7B-Instruct-v0.1生成的合成教科書煞肾、博文咧织、故事、帖子和WikiHow文章的數(shù)據(jù)集籍救。該數(shù)據(jù)集包含超過3000萬個文件和250億個tokens习绢,是HuggingFace用了10k張H100生成的迄今為止最大的開放合成數(shù)據(jù)集。受 Phi1.5 工作的啟發(fā)蝙昙,Cosmopedia 的初始版本為合成數(shù)據(jù)領(lǐng)域的研究奠定了基礎(chǔ)闪萄。它作為不同主題的綜合資源,強調(diào)其在后續(xù)迭代中進一步增強的潛力奇颠。
Cosmopedia分為八個部分败去,每個部分都源自不同的種子樣本。這些分割包括 web_samples_v1 和 web_samples_v2大刊,約占數(shù)據(jù)集的 75%,源自類似于 RefinedWeb 的內(nèi)部 Web 數(shù)據(jù)集三椿。斯坦福分部利用了來自 stanford.edu 的課程大綱缺菌,而故事分部則采用了 UltraChat 和 OpenHermes2.5 生成的敘述。此外搜锰,WikiHow伴郁、OpenStax、KhanAcademy 和 automathtext 拆分涉及與其各自來源相關(guān)的提示蛋叼。
Dataset splits
Prompts都基于使用種子樣本(例如網(wǎng)頁摘錄)的概念焊傅,并要求模型生成與該種子樣本相關(guān)的新內(nèi)容(教科書、故事狈涮、博客文章)狐胎。數(shù)據(jù)集由8個拆分組成,具體取決于拆分中使用的種子數(shù)據(jù)的來源歌馍。下圖顯示了Cosmopedia中種子數(shù)據(jù)集握巢、世代格式和受眾的分布:
除了去污染外,Cosmopedia將解釋網(wǎng)絡(luò)樣本的主題聚類方法以及我們完善提示的迭代過程松却。主題聚類 我們的目標是以教科書等更干凈的格式生成大量合成數(shù)據(jù)暴浦,涵蓋廣泛的主題(本質(zhì)上溅话,在網(wǎng)絡(luò)上發(fā)現(xiàn)的任何有用的東西)
如何在魔哈上使用Cosmopedia
首先魔哈倉庫已經(jīng)完全同步了Cosmopedia數(shù)據(jù)集,并會在每天早上定期從 HuggingFace上更新最新版本的數(shù)據(jù)集
目前有兩種方式可以通過魔哈·Moha倉庫來加速您下載Cosmopedia數(shù)據(jù)集
設(shè)置魔哈官方地址直接下載數(shù)據(jù)集
export HF_ENDPOINT=https://moha.xiaoshiai.cn/huggingface
使用Moha專屬CDN加速從HuggingFace上下載數(shù)據(jù)集