Unix莉钙、Windows、OSX系統(tǒng)下的換行符
Windows系統(tǒng)下筛谚,換行是<回車換行>(Carriage Return and Line Feed磁玉,即 CRLF):
- CR - \r,在ASCII字符表里的編號(hào)是13驾讲,用二進(jìn)制表示即 0x0d
- LF - \n蚊伞,在ASCII字符表里的編號(hào)是10,用二進(jìn)制表示即 0x0a
Unix系統(tǒng)吮铭,采用的是 LF 作為換行符时迫。
Mac系統(tǒng)曾經(jīng)使用過 CR 作為換行符,但是在 Mac OS X 之后谓晌,又換為了LF掠拳。
- Command-line tools in OS X (and other UNIX or Linux variants) use UNIX-style line endings. This means that each line in a text file ends with a newline character (character 10/0xA, often abbreviated LF).
- Many older Mac applications use "Mac-style” line endings. This means that each line in a text file ends with a carriage return character (character 13/0xD, often abbreviated CR).
以上摘自Designing Scripts for Cross-Platform Deployment
如何查看換行符
使用xxd
命令可以查看二進(jìn)制文件,從而可以看出文件的換行符是\r纸肉、\n溺欧、還是\r\n。
~ cat /tmp/aaaa
abc
def
ghi
~ xxd /tmp/aaaa
00000000: 6162 630a 6465 660a 6768 690a abc.def.ghi.
可以看出該文件的換行符是 LF, 即0a柏肪、\n
注:當(dāng)前系統(tǒng)是OS X姐刁,上面以及下面的測(cè)試都是在該環(huán)境下進(jìn)行的。
VIM下切換換行符
Vim 可以通過set ff=mac|unix|dos
的方式進(jìn)行換行符的切換烦味。
切換成Mac系統(tǒng)
~ cat /tmp/aaaa
abc
def
ghi
~ xxd /tmp/aaaa
00000000: 6162 630a 6465 660a 6768 690a abc.def.ghi.
~ vim /tmp/aaaa (執(zhí)行命令 :set ff=mac聂使,)
~ xxd /tmp/aaaa
00000000: 6162 630d 6465 660d 6768 690d abc.def.ghi.
切換成Dos系統(tǒng)
~ cat /tmp/aaaa
abc
def
ghi
~ xxd /tmp/aaaa
00000000: 6162 630a 6465 660a 6768 690a abc.def.ghi.
~ vim /tmp/aaaa (執(zhí)行命令 :set ff=mac,)
~ xxd /tmp/aaaa
00000000: 6162 630d 0a64 6566 0d0a 6768 690d 0a abc..def..ghi..
換行符不同會(huì)帶來的問題
以換行符CR為例:
用VIM打開換行符為CR的文件
當(dāng)前系統(tǒng)是OS X谬俄,使用的是Unix模式柏靶,所以是以LF作為換行符,在查不到該字符的情況下凤瘦,也就不會(huì)換行宿礁,所以看起來像是只有一行。
輸入^M這個(gè)符號(hào)的方式是:Ctrl V + Ctrl M
對(duì)文件的處理
~ xxd /tmp/aaaa
00000000: 6162 630d 6465 660d 6768 690d abc.def.ghi.
~ cat /tmp/aaaa
~ wc /tmp/aaaa
0 3 12 /tmp/aaaa
~ wc -l /tmp/aaaa
0 /tmp/aaaa
cat
命令無法正確打印出該文件的內(nèi)容蔬芥,wc -l
命令也無法正確打印出該文件的行數(shù)梆靖。
此外控汉,很多程序在處理文件時(shí),都默認(rèn)以LF做為換行符返吻,那么在讀取文件時(shí)姑子,如果一直掃描不到LF,那么就無法解析和結(jié)束测僵。
總結(jié)此篇分享的原因就是街佑,在使用logstash
的split
插件處理以CR為換行符的文件時(shí),程序會(huì)卡住捍靠。
注意:
Vim保存文檔時(shí)會(huì)自動(dòng)在結(jié)尾加上0a
在測(cè)試環(huán)境調(diào)試split時(shí)沐旨,我用“截短后的原始數(shù)據(jù)”,調(diào)試成功榨婆。
但是實(shí)際上磁携,這樣的數(shù)據(jù)和真正的原始數(shù)據(jù)是不一樣的,導(dǎo)致用split處理真正的數(shù)據(jù)時(shí)卡住了良风。
~ xxd /tmp/aaaa
00000000: 6162 630d 6465 660d 6768 690d abc.def.ghi.
~ vim /tmp/aaaa (在最前頭增加一個(gè) a谊迄,然后保存退出)
~ xxd /tmp/aaaa
00000000: 6161 6263 0d64 6566 0d67 6869 0d0a aabc.def.ghi..
(最后面多了一個(gè)0a,這就是Vim自動(dòng)加上的)