魔哈鏡像迄今最大合成數(shù)據(jù)集 Cosmopedia

Cosmopedia

Cosmopedia 是一個由Mixtral-8x7B-Instruct-v0.1生成的合成教科書煞肾、博文咧织、故事、帖子和WikiHow文章的數(shù)據(jù)集籍救。該數(shù)據(jù)集包含超過3000萬個文件和250億個tokens习绢，是HuggingFace用了10k張H100生成的迄今為止最大的開放合成數(shù)據(jù)集。受 Phi1.5 工作的啟發(fā)蝙昙，Cosmopedia 的初始版本為合成數(shù)據(jù)領(lǐng)域的研究奠定了基礎(chǔ)闪萄。它作為不同主題的綜合資源，強調(diào)其在后續(xù)迭代中進一步增強的潛力奇颠。

Cosmopedia分為八個部分败去，每個部分都源自不同的種子樣本。這些分割包括 web_samples_v1 和 web_samples_v2大刊，約占數(shù)據(jù)集的 75%，源自類似于 RefinedWeb 的內(nèi)部 Web 數(shù)據(jù)集三椿。斯坦福分部利用了來自 stanford.edu 的課程大綱缺菌，而故事分部則采用了 UltraChat 和 OpenHermes2.5 生成的敘述。此外搜锰，WikiHow伴郁、OpenStax、KhanAcademy 和 automathtext 拆分涉及與其各自來源相關(guān)的提示蛋叼。

Dataset splits

Prompts都基于使用種子樣本（例如網(wǎng)頁摘錄）的概念焊傅，并要求模型生成與該種子樣本相關(guān)的新內(nèi)容（教科書、故事狈涮、博客文章）狐胎。數(shù)據(jù)集由8個拆分組成，具體取決于拆分中使用的種子數(shù)據(jù)的來源歌馍。下圖顯示了Cosmopedia中種子數(shù)據(jù)集握巢、世代格式和受眾的分布：

除了去污染外，Cosmopedia將解釋網(wǎng)絡(luò)樣本的主題聚類方法以及我們完善提示的迭代過程松却。主題聚類我們的目標是以教科書等更干凈的格式生成大量合成數(shù)據(jù)暴浦，涵蓋廣泛的主題（本質(zhì)上溅话，在網(wǎng)絡(luò)上發(fā)現(xiàn)的任何有用的東西）

如何在魔哈上使用Cosmopedia

首先魔哈倉庫已經(jīng)完全同步了Cosmopedia數(shù)據(jù)集，并會在每天早上定期從 HuggingFace上更新最新版本的數(shù)據(jù)集

目前有兩種方式可以通過魔哈·Moha倉庫來加速您下載Cosmopedia數(shù)據(jù)集

設(shè)置魔哈官方地址直接下載數(shù)據(jù)集

export HF_ENDPOINT=https://moha.xiaoshiai.cn/huggingface

使用Moha專屬CDN加速從HuggingFace上下載數(shù)據(jù)集

最后編輯于：2024.03.01 19:33:19

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者