Task2 數(shù)據(jù)讀取與數(shù)據(jù)分析
-
讀取數(shù)據(jù)
第一列為新聞的類別联四,第二列為新聞的字符。
-
數(shù)據(jù)洞察
- 賽題數(shù)據(jù)中撑教,新聞文本的長(zhǎng)度是多少朝墩?
- 賽題數(shù)據(jù)的類別分布是怎么樣的,哪些類別比較多伟姐?
- 賽題數(shù)據(jù)中收苏,字符分布是怎么樣的?
答1:文本長(zhǎng)度平均為872個(gè)字符愤兵,最小的有64個(gè)鹿霸,最長(zhǎng)的有7125個(gè),大部分在1000以下秆乳。
在數(shù)據(jù)集中標(biāo)簽的對(duì)應(yīng)的關(guān)系如下:{'科技': 0, '股票': 1, '體育': 2, '娛樂': 3, '時(shí)政': 4, '社會(huì)': 5, '教育': 6, '財(cái)經(jīng)': 7, '家居': 8, '游戲': 9, '房產(chǎn)': 10, '時(shí)尚': 11, '彩票': 12, '星座': 13}
答2:由此可見懦鼠,“體育”钻哩、“股票” 占比最高,“科技”肛冶、“娛樂”次之街氢,類別分布不是很均衡。
答3:最多的字符睦袖,平均30次/篇珊肃,高頻的字符很可能是標(biāo)點(diǎn)或停用詞,需要過濾馅笙。
引用官方說明
通過上述分析我們可以得出以下結(jié)論:
1.賽題中每個(gè)新聞包含的字符個(gè)數(shù)平均為1000個(gè)伦乔,還有一些新聞字符較長(zhǎng);
2.賽題中新聞?lì)悇e分布不均勻董习,科技類新聞樣本量接近4w烈和,星座類新聞樣本量不到1k;
3.賽題總共包括7000-8000個(gè)字符皿淋;
通過數(shù)據(jù)分析招刹,我們還可以得出以下結(jié)論:
1.每個(gè)新聞平均字符個(gè)數(shù)較多,可能需要截?cái)啵?br> 2.由于類別不均衡沥匈,會(huì)嚴(yán)重影響模型的精度蔗喂;
本章作業(yè)
- 假設(shè)字符3750忘渔,字符900和字符648是句子的標(biāo)點(diǎn)符號(hào)高帖,請(qǐng)分析賽題每篇新聞平均由多少個(gè)句子構(gòu)成?
- 統(tǒng)計(jì)每類新聞中出現(xiàn)次數(shù)對(duì)多的字符