如何輸出列表中的指定列烁竭？

最新更新：
最簡(jiǎn)單的方法還是R 一句話d <-data1[,data2$Header] （data1就是這里的1.txt, data2就是2.txt）

今天遇到了一個(gè)小問(wèn)題颖变，想把轉(zhuǎn)錄組read count矩陣中指定樣品（指定列）的表達(dá)量挑選出來(lái)听想，總共從500多個(gè)樣中選200個(gè)马胧，數(shù)據(jù)量在500Mb左右佩脊。為了簡(jiǎn)化問(wèn)題，我先測(cè)試了一下威彰。
假設(shè)有1.txt和2.txt兩個(gè)文件歇盼，格式如下：

$ more 1.txt
1       2       3       4       5       6
a       b       c       d       e       f
g       h       i       j       k       l
$ more 2.txt
1
2

現(xiàn)在根據(jù)2.txt里指定列的信息從1.txt里挑第一列和第二列出來(lái)，最終想得到這樣的結(jié)果：

1   2
a   b
g   h

方案1. shell腳本（冗雜且提取失敳础）

我寫(xiě)了一個(gè)簡(jiǎn)易的shell腳本可惜不成功

$ more test.sh
a=`awk '{print NF}' 1.txt`  #統(tǒng)計(jì)1.txt的列數(shù)
b=`wc -l |2.txt`   #統(tǒng)計(jì)2.txt的行數(shù)
for (( i=1;i<=$a;i++))
do
for(( j=1;j<=$b;j++ ))
do
h=`cat 1.txt |awk 'NR==1{print}'|awk '{print '$i'}'` #逐個(gè)讀取1.txt第一列
k=`cat 2.txt |awk 'NR=='$j'{print}'` #讀取2.txt的每一行
     if [[ h -eq k ]];
    # then echo $k
     then echo `cat 1.txt |awk '{print '$i'}'`  
fi
done
$ sh test.sh 
1 1 
2 2

echo結(jié)果不太對(duì)，提取列之后要paste 還是不方便組合

琢磨了一陣后侍匙，我向生信技能樹(shù)的小伙伴們求助叮雳，果然群體的智慧是無(wú)窮的~

方案2. awk提攘辈弧（感謝王詩(shī)翔的建議和幫助）

原話：

linux處理文本的核心是以行為基礎(chǔ)，我的意思是利用現(xiàn)有的腳本將列變成行唬滑，然后使用join拼接 $awk '{for(i=0;++i<=NF;)a[i]=a[i]?a[i] FS$ i: $i}END{for(i=0;i++<NF;)print a[i]}' 1.txt | join - 2.txt | awk '{for(i=0;++i<=NF;)a[i]=a[i]?a[i] FS$ i:$i}END{for(i=0;i++<NF;)print a[i]}' 行列轉(zhuǎn)換的命令網(wǎng)上就有棺弊，也可以自己寫(xiě)

$ awk '{for(i=0;++i<=NF;)a[i]=a[i]?a[i] FS $i:$i}END{for(i=0;i++<NF;)print a[i]}'  1.txt | join - 2.txt |  awk '{for(i=0;++i<=NF;)a[i]=a[i]?a[i] FS $i:$i}END{for(i=0;i++<NF;)print a[i]}' 
1 2
a b
g h

拆解一下先把行和列置換模她，然后再用join命令按行匹配,再置換一次就好了

$ awk '{for(i=0;++i<=NF;)a[i]=a[i]?a[i] FS $i:$i}END{for(i=0;i++<NF;)print a[i]}'  1.txt >01
1 a g
2 b h
3 c i
4 d j
5 e k
6 f l
$ join 01 2.txt >02
1 a g
2 b h
$ awk '{for(i=0;++i<=NF;)a[i]=a[i]?a[i] FS $i:$i}END{for(i=0;i++<NF;)print a[i]}' 02
1 2
a b
g h

不得不說(shuō)學(xué)好這里shell命令真的方便，join實(shí)現(xiàn)的功能之前我是用python腳本弄的......

不過(guò)尊勿，這里有個(gè)問(wèn)題需要注意畜侦，join是按行提取的旋膳，如果有一行在1.txt和2.txt里面不匹配，就會(huì)停止檢索验懊。
比如义图，2.txt里面多加一行9（1.txt里面沒(méi)有）

$ more 2.txt
1
2
9
3
$join 1.txt 2.txt
1 a g
2 b h

后面的第3行3 c i就沒(méi)有被提取出來(lái)

方案3. R包dplyr select()提取（感謝嚴(yán)濤的建議和幫助娃承，這是他的個(gè)人R學(xué)習(xí)筆記里的一部分）

首先在2.txt首行加個(gè)Header 方便提取

$ more 2.txt
Header
1
2
$ R
>library(dplyr)
>3.txt <- 1.txt %>% select(one_of(dput(as.character(2.txt$Header))))

這里%>% 是管道函數(shù)，把左邊文件的值發(fā)送給右邊文件桶蛔，并作為右邊文件件表達(dá)式的第一個(gè)參數(shù), select()允許我們快速通過(guò)變量名對(duì)數(shù)據(jù)集取子集漫谷，后面的看的不是很懂
推薦一篇王詩(shī)翔寫(xiě)的介紹dplyr的博客詳細(xì)了解一下
使用dplyr進(jìn)行數(shù)據(jù)轉(zhuǎn)換

方案4.python按行提忍蚴尽（我之前用的腳本）

還是要先轉(zhuǎn)置，然后再提,不過(guò)只提了前兩列

#!/usr/bin/python
file1=open("",'r')
file2=open("1.txt",'r')
file3=open"2.txt",'w')
file1_dict={}
while 1:
    line1=file1.readline()
    if not line1:
        break
    lin=line1.strip('\n')
    lin1=lin.split('\t')
    file1_dict[lin1[0]]=lin1[1]
while 1:
    line2=file2.readline()
    if not line2:
        break
    line=line2.strip('\n')
    if line in file1_dict:
        value=file1_dict[line]
        file3.write(line+'\t'+value+'\n')
file1.close()
file2.close()
file3.close()

方案5. perl腳本提仁病（感謝劉帥的建議和幫助）

perl腳本處理的思路有很多俺祠，這里是用先轉(zhuǎn)置成行再存數(shù)組匹配，大致是這樣
轉(zhuǎn)置

while (my $tem=<IN>){
      chomp $tem;
   my @ll=split /\t/,$tem;
   push @sample,$ll[0];
      for my $i (1..$#ll){
       push @{$snp{$snp_name[$i]}},$ll[$i];
   }
}

提取行

while (<IN1>) {
        chomp;
        my @a=split/\s+/,$_;
        push @sample,$a[0];

}
while (<IN2>) {
        chomp;
        my @b=split/\s+/,$_;
foreach $i(@sample) {
        if ($i eq $b[0]) {
                print OUT "$_\n";
        }

完整版看這里：
Trans.pl

my @id;
my @chr;
my @pos;
my $head1=<IN>;
chomp $head1;
my @snp_name=split /\t/,$head1;


while (my $tem=<IN>){
      chomp $tem;
   my @ll=split /\t/,$tem;
   push @sample,$ll[0];
      for my $i (0..$#ll){
       push @{$snp{$snp_name[$i]}},$ll[$i];
   }
}

open (OUT,">$outfile") || die "Can't creat $outfile, $!\n" ;;
    for my $i (0..$#snp_name) {
        my $content=join("\t",@{$snp{$snp_name[$i]}});
        print OUT "$snp_name[$i]\t",$content,"\n";
    }


sub USAGE {#
    my $usage=<<"USAGE";
ProgramName: Transpose of Matrix
Version:    $version
Contact:    Shuai Liu <ls2106\@msstate.edu>; 
Program Date:   2018.6.9
Usage:
    Options:
    -infile     <file>  input file,forced
    -outfile    <file>  output file,forced
    -h          Help

USAGE
    print $usage;
    exit;
}

Extract.pl

#!/usr/bin/perl -w
use strict;
use warnings;
use Getopt::Long;
my $version="1.0";
#######################################################################################
my ($list,$infile,$outfile);
GetOptions(
                "help|?" =>\&USAGE,
                "list:s"=>\$list,
                "infile:s"=>\$infile,
                "outfile:s"=>\$outfile,
                                ) or &USAGE;
&USAGE unless ($list||$infile||$outfile);
#########################  vcffilter &  vcf imputation     ###############################
open (IN1, "<$list") || die "Can't creat $list, $!\n" ;
my @sample;
my $a;
my $i;
my @b;
my @a;
while (<IN1>) {
    chomp;
    my @a=split/\s+/,$_;
    push @sample,$a[0];
}
open (IN2, "<$infile") || die "Can't creat $list, $!\n" ;
open (OUT, ">$outfile") || die "Can't creat $list, $!\n" ;

while (<IN2>) {
    chomp;
    my @b=split/\s+/,$_;
foreach $i(@sample) {
    if ($i eq $b[0]) {
        print OUT "$_\n";
    }
}
}
sub USAGE {#
    my $usage=<<"USAGE";
ProgramName: Extract rows from list
Version:    $version
Contact:    Shuai Liu <ls2106\@msstate.edu>; 
Program Date:   2018.6.9
Usage:
    Options:
    -list       <file>  list file,forced
    -infile     <file>  input file,forced
    -outfile    <file>  output file,forced
    -h          Help
USAGE
    print $usage;
    exit;
}

方案6. plink提饶韪住（樣品很多的終極選擇）

plink --vcf input.vcf --noweb --keep-fam id.txt --recode --make-be
d --out output

id.txt里面按行寫(xiě)入要提取的列名就行，很方便

網(wǎng)盤(pán)下載鏈接鏈接:
Extract.pl
https://pan.baidu.com/s/1pCdM0tch8Jl2QeZO4clQ9g 密碼:97hy

Trans.pl
https://pan.baidu.com/s/18aMepxBrk7EHbAXmTfVyOw 密碼:b10o

非常感謝給予幫助的小伙伴吐葱，當(dāng)然還有很多方法可以實(shí)現(xiàn)校翔。P.S.最初的簡(jiǎn)陋版shell如果有高手看出問(wèn)題防症，歡迎留言給我~~

最后編輯于：2018.12.11 22:37:21

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子烧给，更是在濱河造成了極大的恐慌础嫡，老刑警劉巖酝惧，帶你破解...
沈念sama閱讀 217,277評(píng)論 6贊 503
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件晚唇，死亡現(xiàn)場(chǎng)離奇詭異盗似，居然都是意外死亡，警方通過(guò)查閱死者的電腦和手機(jī)悍及，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,689評(píng)論 3贊 393
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門霸褒，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)夜畴，“玉大人剪勿，你說(shuō)我怎么就攤上這事耻姥『ⅲ” “怎么了？”我有些...
開(kāi)封第一講書(shū)人閱讀 163,624評(píng)論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵鸽嫂，是天一觀的道長(zhǎng)据某。經(jīng)常有香客問(wèn)我诗箍，道長(zhǎng)，這世上最難降的妖魔是什么筷狼？我笑而不...
開(kāi)封第一講書(shū)人閱讀 58,356評(píng)論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任匠童，我火速辦了婚禮汤求，結(jié)果婚禮上严拒，老公的妹妹穿的比我還像新娘竖独。我一直安慰自己，他們只是感情好种蘸，可當(dāng)我...
茶點(diǎn)故事閱讀 67,402評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布格二。她就那樣靜靜地躺著，像睡著了一般沧奴。火紅的嫁衣襯著肌膚如雪长窄。梳的紋絲不亂的頭發(fā)上，一...
開(kāi)封第一講書(shū)人閱讀 51,292評(píng)論 1贊 301
城市分裂傳說(shuō)
那天，我揣著相機(jī)與錄音嚣潜，去河邊找鬼。笑死只冻，一個(gè)胖子當(dāng)著我的面吹牛计技，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播舍悯，決...
沈念sama閱讀 40,135評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼睡雇，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼萌衬！你這毒婦竟也來(lái)了？” 一聲冷哼從身側(cè)響起它抱，我...
開(kāi)封第一講書(shū)人閱讀 38,992評(píng)論 0贊 275
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤秕豫，失蹤者是張志新（化名）和其女友劉穎，沒(méi)想到半個(gè)月后抗愁，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體馁蒂，經(jīng)...
沈念sama閱讀 45,429評(píng)論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,636評(píng)論 3贊 334
?白月光啟示錄
正文我和宋清朗相戀三年蜘腌，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了沫屡。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 39,785評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡撮珠，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出芯急，到底是詐尸還是另有隱情勺届，我是刑警寧澤，帶...
沈念sama閱讀 35,492評(píng)論 5贊 345
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布娶耍，位于F島的核電站免姿，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏榕酒。R本人自食惡果不足惜胚膊，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,092評(píng)論 3贊 328
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望想鹰。院中可真熱鬧紊婉，春花似錦、人聲如沸辑舷。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 31,723評(píng)論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)何缓。三九已至肢础，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間歌殃，已是汗流浹背乔妈。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 32,858評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留氓皱，地道東北人路召。一個(gè)月前我還...
沈念sama閱讀 47,891評(píng)論 2贊 370
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像波材，于是被迫代替她去往敵國(guó)和親股淡。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,713評(píng)論 2贊 354

如何輸出列表中的指定列？