界門綱目科屬種述暂,學(xué)生物的同學(xué)應(yīng)該都很熟悉预厌,比方說(shuō)我們做為綱哺乳綱靈長(zhǎng)目人科人屬的智人(Homo sapiens)娩鹉,因?yàn)閷W(xué)會(huì)了“八卦”這項(xiàng)重要技能攻谁,從而走上了一條和尼安德特人不同的道路(笑)。
生物的分類表一般在書(shū)籍中可以查詢弯予,但我手頭卻沒(méi)有電子版的戚宦,正好百度了一份魚(yú)類分類表,做個(gè)范例锈嫩,展示如何把有內(nèi)在規(guī)律的表格變成我們常見(jiàn)的表格形式受楼,方便查詢或VLOOKUP引用垦搬。
收到的PDF是這個(gè)樣子.
先用word打開(kāi)看看有無(wú)坑人的格式,一般來(lái)說(shuō)PDF轉(zhuǎn)word總會(huì)出現(xiàn)奇怪的問(wèn)題艳汽,只能具體情況具體分析。
打開(kāi)之后發(fā)現(xiàn)變成了表格格式,這很常見(jiàn)也易處理馏鹤,全選-復(fù)制-選擇性粘貼-只保留文本即可垢村。同時(shí)不要忘記點(diǎn)一下清除所有格式,把文件自帶的格式全部去除馋艺,便于處理栅干。
這個(gè)時(shí)候我們觀察會(huì)發(fā)現(xiàn),文本是有內(nèi)在規(guī)律的捐祠,即綱目科屬的順序排序碱鳞,但是一個(gè)目可能對(duì)應(yīng)多個(gè)科,一個(gè)科可能對(duì)應(yīng)多個(gè)屬踱蛀,所以不能簡(jiǎn)單生成表格劫笙,仍要在處理。因?yàn)樽詈鬁?zhǔn)備以Excel呈現(xiàn)星岗,同時(shí)也方便填大,所以下一步處理的目的是方便Excel的步驟。我的思路是將每個(gè)階元和元素重排成一列俏橘,在Excel中在按階元分開(kāi)允华。
觀察發(fā)現(xiàn),在每個(gè)拉丁名末尾加上段落符號(hào)是最好的方式寥掐,因此使用替換功能靴寂,這里要用到正則表達(dá)式,在替換裝選擇使用通配符召耘,將“拉丁名”替換為“拉丁名+回車”的形式百炬。(此處歡迎指正)
結(jié)果是下圖的樣子,可讀性很強(qiáng)而且規(guī)則衫贬。
下面的工作是把內(nèi)容復(fù)制進(jìn)Excel處理德澈,把不同的階元分開(kāi)。復(fù)制的時(shí)候固惯,選擇第一個(gè),按住Ctrl+Shift+End梆造,可以選擇到末尾。
但在Excel中我發(fā)現(xiàn)有不規(guī)則的列
回到word觀察可以發(fā)現(xiàn)葬毫,原來(lái)表格換列的時(shí)候镇辉,存在了退格(TAB)屡穗。解決方法是“退格”替換為“^p”即可,同時(shí)還發(fā)現(xiàn)有空行忽肛,用“^p”替換“^p^p”即可鸡捐。
接下來(lái)進(jìn)行階元分類,這里我沒(méi)有選擇數(shù)組函數(shù)麻裁,而是用COUNTIF實(shí)現(xiàn)箍镜,會(huì)復(fù)雜一點(diǎn)但容易理解(其實(shí)是不會(huì))。
這個(gè)函數(shù)簡(jiǎn)單地返回含有“綱”的單元格煎源,使用IF是為空格添加0色迂,方便后面處理。
現(xiàn)在的問(wèn)題是每個(gè)階元并沒(méi)有對(duì)應(yīng)手销,這里我準(zhǔn)備進(jìn)行一次向下填充歇僧,以目為例,方法是:復(fù)制并選擇性粘貼為數(shù)值-選取“目”-查找“0”-全選查找結(jié)果-在單元格中輸入“=上一格單元格”-Ctrl+Enter锋拖,就完成了向下填充诈悍。
這時(shí)候兽埃,只需要?jiǎng)h除屬中含0的行就得到了一一對(duì)應(yīng)的分類表侥钳。刪除行可以先排序在手動(dòng)刪除,查找含0的單元格柄错,然后刪除行舷夺。后者在數(shù)據(jù)多的時(shí)候更方便。
下一步是分開(kāi)中文名和拉丁名方便使用售貌,方法也有兩種
1.快速填充法
如同然后選擇快速填充即可给猾。
2.函數(shù)法
下拉填充即可。
但是K炭纭8疑臁!在即將勝利的前一刻恒削,我發(fā)現(xiàn)了有不合理的幾個(gè)單元格(這證明了檢查的重要性)
某些復(fù)雜漢字竟然占1個(gè)字節(jié)池颈,導(dǎo)致填充錯(cuò)誤,中文名都少了“屬”字蔓同。為了方便理解(又不想用簡(jiǎn)單辦法)饶辙,處理辦法選擇最簡(jiǎn)單的:在右邊插入一列蹲诀,用如下公式解決之后在把正確的列返回回去斑粱。
最后,排序獲得全表脯爪。
總結(jié)一下矿微,這次的操作沒(méi)用到復(fù)雜的函數(shù),全部使用基礎(chǔ)函數(shù)和Excel的常規(guī)功能尚揣。
正則表達(dá)式
COUNTIF\IF函數(shù)和LIFT/LEN/LENB函數(shù)
查找功能涌矢、排序功能
基礎(chǔ)的內(nèi)容其實(shí)就可以完成復(fù)雜的工作,在工作之前觀察原始文件的規(guī)律很重要快骗,可以事倍功半娜庇,同時(shí)在進(jìn)入Excel工作前,一定要用word的查找功能和通配符處理掉源文件的格式的小錯(cuò)誤方篮,以提高效率名秀。
有用請(qǐng)點(diǎn)贊哦!