如何輸出列表中的指定列烁竭?

最新更新:
最簡(jiǎn)單的方法還是R 一句話d <-data1[,data2$Header] (data1就是這里的1.txt, data2就是2.txt)

今天遇到了一個(gè)小問(wèn)題颖变,想把轉(zhuǎn)錄組read count矩陣中指定樣品(指定列)的表達(dá)量挑選出來(lái)听想,總共從500多個(gè)樣中選200個(gè)马胧,數(shù)據(jù)量在500Mb左右佩脊。為了簡(jiǎn)化問(wèn)題,我先測(cè)試了一下威彰。
假設(shè)有1.txt和2.txt兩個(gè)文件歇盼,格式如下:

$ more 1.txt
1       2       3       4       5       6
a       b       c       d       e       f
g       h       i       j       k       l
$ more 2.txt
1
2

現(xiàn)在根據(jù)2.txt里指定列的信息從1.txt里挑第一列和第二列出來(lái),最終想得到這樣的結(jié)果:

1   2
a   b
g   h

方案1. shell腳本(冗雜且提取失敳础)

我寫(xiě)了一個(gè)簡(jiǎn)易的shell腳本可惜不成功

$ more test.sh
a=`awk '{print NF}' 1.txt`  #統(tǒng)計(jì)1.txt的列數(shù)
b=`wc -l |2.txt`   #統(tǒng)計(jì)2.txt的行數(shù)
for (( i=1;i<=$a;i++))
do
for(( j=1;j<=$b;j++ ))
do
h=`cat 1.txt |awk 'NR==1{print}'|awk '{print '$i'}'` #逐個(gè)讀取1.txt第一列
k=`cat 2.txt |awk 'NR=='$j'{print}'` #讀取2.txt的每一行
     if [[ h -eq k ]];
    # then echo $k
     then echo `cat 1.txt |awk '{print '$i'}'`  
fi
done
$ sh test.sh 
1 1 
2 2 

echo結(jié)果不太對(duì),提取列之后要paste 還是不方便組合

琢磨了一陣后侍匙,我向生信技能樹(shù)的小伙伴們求助叮雳,果然群體的智慧是無(wú)窮的~

方案2. awk提攘辈弧(感謝王詩(shī)翔的建議和幫助)

原話:

linux處理文本的核心是以行為基礎(chǔ),我的意思是利用現(xiàn)有的腳本將列變成行唬滑,然后使用join拼接 awk '{for(i=0;++i<=NF;)a[i]=a[i]?a[i] FSi:i}END{for(i=0;i++<NF;)print a[i]}' 1.txt | join - 2.txt | awk '{for(i=0;++i<=NF;)a[i]=a[i]?a[i] FSi:$i}END{for(i=0;i++<NF;)print a[i]}' 行列轉(zhuǎn)換的命令網(wǎng)上就有棺弊,也可以自己寫(xiě)

$ awk '{for(i=0;++i<=NF;)a[i]=a[i]?a[i] FS $i:$i}END{for(i=0;i++<NF;)print a[i]}'  1.txt | join - 2.txt |  awk '{for(i=0;++i<=NF;)a[i]=a[i]?a[i] FS $i:$i}END{for(i=0;i++<NF;)print a[i]}' 
1 2
a b
g h

拆解一下 先把行和列置換模她,然后再用join命令按行匹配,再置換一次就好了

$ awk '{for(i=0;++i<=NF;)a[i]=a[i]?a[i] FS $i:$i}END{for(i=0;i++<NF;)print a[i]}'  1.txt >01
1 a g
2 b h
3 c i
4 d j
5 e k
6 f l
$ join 01 2.txt >02
1 a g
2 b h
$ awk '{for(i=0;++i<=NF;)a[i]=a[i]?a[i] FS $i:$i}END{for(i=0;i++<NF;)print a[i]}' 02
1 2
a b
g h

不得不說(shuō)學(xué)好這里shell命令真的方便,join實(shí)現(xiàn)的功能之前我是用python腳本弄的......

不過(guò)尊勿,這里有個(gè)問(wèn)題需要注意畜侦,join是按行提取的旋膳,如果有一行在1.txt和2.txt里面不匹配,就會(huì)停止檢索验懊。
比如义图,2.txt里面多加一行9(1.txt里面沒(méi)有)

$ more 2.txt
1
2
9
3
$join 1.txt 2.txt
1 a g
2 b h

后面的第3行3 c i就沒(méi)有被提取出來(lái)

方案3. R包dplyr select()提取(感謝嚴(yán)濤的建議和幫助娃承,這是他的個(gè)人R學(xué)習(xí)筆記里的一部分)

首先在2.txt首行加個(gè)Header 方便提取

$ more 2.txt
Header
1
2
$ R
>library(dplyr)
>3.txt <- 1.txt %>% select(one_of(dput(as.character(2.txt$Header))))

這里%>% 是管道函數(shù),把左邊文件的值發(fā)送給右邊文件桶蛔,并作為右邊文件件表達(dá)式的第一個(gè)參數(shù), select()允許我們快速通過(guò)變量名對(duì)數(shù)據(jù)集取子集漫谷,后面的看的不是很懂
推薦一篇王詩(shī)翔寫(xiě)的介紹dplyr的博客詳細(xì)了解一下
使用dplyr進(jìn)行數(shù)據(jù)轉(zhuǎn)換

方案4.python按行提忍蚴尽(我之前用的腳本)

還是要先轉(zhuǎn)置,然后再提,不過(guò)只提了前兩列

#!/usr/bin/python
file1=open("",'r')
file2=open("1.txt",'r')
file3=open"2.txt",'w')
file1_dict={}
while 1:
    line1=file1.readline()
    if not line1:
        break
    lin=line1.strip('\n')
    lin1=lin.split('\t')
    file1_dict[lin1[0]]=lin1[1]
while 1:
    line2=file2.readline()
    if not line2:
        break
    line=line2.strip('\n')
    if line in file1_dict:
        value=file1_dict[line]
        file3.write(line+'\t'+value+'\n')
file1.close()
file2.close()
file3.close()

方案5. perl腳本提仁病(感謝劉帥的建議和幫助)

perl腳本處理的思路有很多俺祠,這里是用先轉(zhuǎn)置成行再存數(shù)組匹配,大致是這樣
轉(zhuǎn)置

while (my $tem=<IN>){
      chomp $tem;
   my @ll=split /\t/,$tem;
   push @sample,$ll[0];
      for my $i (1..$#ll){
       push @{$snp{$snp_name[$i]}},$ll[$i];
   }
}

提取行

while (<IN1>) {
        chomp;
        my @a=split/\s+/,$_;
        push @sample,$a[0];

}
while (<IN2>) {
        chomp;
        my @b=split/\s+/,$_;
foreach $i(@sample) {
        if ($i eq $b[0]) {
                print OUT "$_\n";
        }

完整版看這里:
Trans.pl

my @id;
my @chr;
my @pos;
my $head1=<IN>;
chomp $head1;
my @snp_name=split /\t/,$head1;


while (my $tem=<IN>){
      chomp $tem;
   my @ll=split /\t/,$tem;
   push @sample,$ll[0];
      for my $i (0..$#ll){
       push @{$snp{$snp_name[$i]}},$ll[$i];
   }
}

open (OUT,">$outfile") || die "Can't creat $outfile, $!\n" ;;
    for my $i (0..$#snp_name) {
        my $content=join("\t",@{$snp{$snp_name[$i]}});
        print OUT "$snp_name[$i]\t",$content,"\n";
    }


sub USAGE {#
    my $usage=<<"USAGE";
ProgramName: Transpose of Matrix
Version:    $version
Contact:    Shuai Liu <ls2106\@msstate.edu>; 
Program Date:   2018.6.9
Usage:
    Options:
    -infile     <file>  input file,forced
    -outfile    <file>  output file,forced
    -h          Help

USAGE
    print $usage;
    exit;
}

Extract.pl

#!/usr/bin/perl -w
use strict;
use warnings;
use Getopt::Long;
my $version="1.0";
#######################################################################################
my ($list,$infile,$outfile);
GetOptions(
                "help|?" =>\&USAGE,
                "list:s"=>\$list,
                "infile:s"=>\$infile,
                "outfile:s"=>\$outfile,
                                ) or &USAGE;
&USAGE unless ($list||$infile||$outfile);
#########################  vcffilter &  vcf imputation     ###############################
open (IN1, "<$list") || die "Can't creat $list, $!\n" ;
my @sample;
my $a;
my $i;
my @b;
my @a;
while (<IN1>) {
    chomp;
    my @a=split/\s+/,$_;
    push @sample,$a[0];
}
open (IN2, "<$infile") || die "Can't creat $list, $!\n" ;
open (OUT, ">$outfile") || die "Can't creat $list, $!\n" ;

while (<IN2>) {
    chomp;
    my @b=split/\s+/,$_;
foreach $i(@sample) {
    if ($i eq $b[0]) {
        print OUT "$_\n";
    }
}
}
sub USAGE {#
    my $usage=<<"USAGE";
ProgramName: Extract rows from list
Version:    $version
Contact:    Shuai Liu <ls2106\@msstate.edu>; 
Program Date:   2018.6.9
Usage:
    Options:
    -list       <file>  list file,forced
    -infile     <file>  input file,forced
    -outfile    <file>  output file,forced
    -h          Help
USAGE
    print $usage;
    exit;
}

方案6. plink提饶韪住(樣品很多的終極選擇)

plink --vcf input.vcf --noweb --keep-fam id.txt --recode --make-be
d --out output

id.txt里面按行寫(xiě)入要提取的列名就行,很方便

網(wǎng)盤(pán)下載鏈接 鏈接:
Extract.pl
https://pan.baidu.com/s/1pCdM0tch8Jl2QeZO4clQ9g 密碼:97hy

Trans.pl
https://pan.baidu.com/s/18aMepxBrk7EHbAXmTfVyOw 密碼:b10o

非常感謝給予幫助的小伙伴吐葱,當(dāng)然還有很多方法可以實(shí)現(xiàn)校翔。P.S.最初的簡(jiǎn)陋版shell如果有高手看出問(wèn)題防症,歡迎留言給我~~

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子烧给,更是在濱河造成了極大的恐慌础嫡,老刑警劉巖酝惧,帶你破解...
    沈念sama閱讀 217,277評(píng)論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件晚唇,死亡現(xiàn)場(chǎng)離奇詭異盗似,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)悍及,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,689評(píng)論 3 393
  • 文/潘曉璐 我一進(jìn)店門霸褒,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)夜畴,“玉大人剪勿,你說(shuō)我怎么就攤上這事耻姥『ⅲ” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 163,624評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵鸽嫂,是天一觀的道長(zhǎng)据某。 經(jīng)常有香客問(wèn)我诗箍,道長(zhǎng),這世上最難降的妖魔是什么筷狼? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,356評(píng)論 1 293
  • 正文 為了忘掉前任匠童,我火速辦了婚禮汤求,結(jié)果婚禮上严拒,老公的妹妹穿的比我還像新娘竖独。我一直安慰自己,他們只是感情好种蘸,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,402評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布格二。 她就那樣靜靜地躺著,像睡著了一般沧奴。 火紅的嫁衣襯著肌膚如雪长窄。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 51,292評(píng)論 1 301
  • 那天,我揣著相機(jī)與錄音嚣潜,去河邊找鬼。 笑死只冻,一個(gè)胖子當(dāng)著我的面吹牛计技,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播舍悯,決...
    沈念sama閱讀 40,135評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼睡雇,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼萌衬!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起它抱,我...
    開(kāi)封第一講書(shū)人閱讀 38,992評(píng)論 0 275
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤秕豫,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后抗愁,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體馁蒂,經(jīng)...
    沈念sama閱讀 45,429評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,636評(píng)論 3 334
  • 正文 我和宋清朗相戀三年蜘腌,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了沫屡。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,785評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡撮珠,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出芯急,到底是詐尸還是另有隱情勺届,我是刑警寧澤,帶...
    沈念sama閱讀 35,492評(píng)論 5 345
  • 正文 年R本政府宣布娶耍,位于F島的核電站免姿,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏榕酒。R本人自食惡果不足惜胚膊,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,092評(píng)論 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望想鹰。 院中可真熱鬧紊婉,春花似錦、人聲如沸辑舷。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,723評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)何缓。三九已至肢础,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間歌殃,已是汗流浹背乔妈。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,858評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留氓皱,地道東北人路召。 一個(gè)月前我還...
    沈念sama閱讀 47,891評(píng)論 2 370
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像波材,于是被迫代替她去往敵國(guó)和親股淡。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,713評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容

  • 轉(zhuǎn)載 原文的排版和內(nèi)容都更加友好,并且詳細(xì),我只是在這里貼出了一部分留作自己以后參考和學(xué)習(xí),如希望更詳細(xì)了解AWK...
    XKirk閱讀 3,214評(píng)論 2 25
  • 應(yīng)不應(yīng)該廷区,合不合適唯灵,可不可以……
    沉淀AQ閱讀 155評(píng)論 0 0
  • 看著干凈明朗的宿舍埠帕,心情也一下子明朗了起來(lái)垢揩。 有時(shí)候你真的不會(huì)知道只是簡(jiǎn)單地拾掇房間這樣的小事也會(huì)改變你的心情。 ...
    春無(wú)憂閱讀 1,504評(píng)論 6 3
  • 01 話接上回敛瓷,從老家來(lái)上海投奔姑父以后叁巨,我立即就開(kāi)始尋思找工作的事情。 姑父客氣的說(shuō)道:“不急不急呐籽,先休息個(gè)幾天...
    西門吹餅閱讀 219評(píng)論 2 2