@565c25972d57 理論上是的,分步只是為了跑自己想跑的命令
生信log6細(xì)菌全基因組建樹|基于GTDB-KT抽單拷貝蛋白序列-iqtree2 && fasttree建樹前言 最近在跑一個(gè)很大的數(shù)據(jù)集铜秆,大概有3500條以上的基因序列奢米,因?yàn)閿?shù)量太大抓韩,跑樹有點(diǎn)搞不定,特此來記錄一下這個(gè)過程 超過3000個(gè)基因組iqtree直接跑斷直接跑了iqtr...
@565c25972d57 理論上是的,分步只是為了跑自己想跑的命令
生信log6細(xì)菌全基因組建樹|基于GTDB-KT抽單拷貝蛋白序列-iqtree2 && fasttree建樹前言 最近在跑一個(gè)很大的數(shù)據(jù)集铜秆,大概有3500條以上的基因序列奢米,因?yàn)閿?shù)量太大抓韩,跑樹有點(diǎn)搞不定,特此來記錄一下這個(gè)過程 超過3000個(gè)基因組iqtree直接跑斷直接跑了iqtr...
啊恃慧,因?yàn)榫W(wǎng)絡(luò)問題無法在服務(wù)器中直接用Singularity拉取鏡像了园蝠,因此在本地電腦中拉取。由于系統(tǒng)是MacOS, Singularity官方并沒有提供Mac系統(tǒng)的安裝包而是...
最近重新深入生信分析的學(xué)習(xí)痢士,重新看一下轉(zhuǎn)錄組還有其他分析方法看新工具和新思路彪薛。這篇日志記錄Trim Galore的Singularity鏡像用法(目前沒有singularit...
經(jīng)常有人問怎么找項(xiàng)目練手茂装,只能說把眼睛打開,學(xué)會(huì)搜索處處都是修煉場(chǎng)善延。 在校學(xué)生可聯(lián)系有生信分析需求的老師和實(shí)驗(yàn)室人員了少态; 自己復(fù)現(xiàn)領(lǐng)域經(jīng)典文獻(xiàn)里面的內(nèi)容(數(shù)據(jù)處理和圖表,選擇...
生信log|基因組數(shù)據(jù)注釋到底是怎么回事? 在一開始做生信分析的時(shí)候易遣,我對(duì)下游的分析其實(shí)不太了解彼妻,當(dāng)時(shí)頻繁接觸到的概念叫“注釋”,注釋后就可獲得關(guān)鍵基因相關(guān)的一些數(shù)據(jù)豆茫。后來深...
在求學(xué)階段,經(jīng)常聽到老師或者沒有做生信的同學(xué)說生信就是跑流程的揩魂,一些大佬也有發(fā)文自嘲和解釋過生信不是跑流程幽邓。我自己在剛上手生信分析時(shí),對(duì)這個(gè)說法強(qiáng)烈反對(duì)火脉,參加工作或者說上手多...
生信log-不學(xué)就虧了牵舵,聊聊生信就業(yè)前置技能-便利工具和延伸教程總結(jié) 強(qiáng)烈大家去《MIT計(jì)算機(jī)教育中缺失的一課》, 雖說這個(gè)是計(jì)算機(jī)的課程倦挂,但是生物信息不就是一門需要寫代碼的...
基因組數(shù)據(jù)的數(shù)據(jù)量一般來說都不小畸颅,一個(gè)細(xì)菌基因組測(cè)序clean data的壓縮文件都能去到1個(gè)G,更別說其他非原核的物種了方援。實(shí)驗(yàn)室的數(shù)據(jù)是不能隨便刪除的没炒,更別說公司甚至是公共...
因?yàn)闃I(yè)務(wù)需求,做了一個(gè)按頁數(shù)拆分pdf的小工具肯骇,本質(zhì)還是服務(wù)于數(shù)據(jù)分析的模塊 0. 思路 按指定頁數(shù)進(jìn)行拆分 處理的包:PyPDF2, click 環(huán)境:python >= ...
目前網(wǎng)絡(luò)上有非常完備的訓(xùn)練框架窥浪,如抱臉蟲的transformers、達(dá)摩的modelscope,swift框架笛丙,使得模型的調(diào)用和訓(xùn)練過程都非常的直觀漾脂。上述的框架都沒有離開主流...
此前在疫情期間學(xué)習(xí)了AI的經(jīng)典算法理論,但一直沒有機(jī)會(huì)實(shí)戰(zhàn)敲敲代碼胚鸯,總感覺有遺憾骨稿,現(xiàn)在抓緊時(shí)間實(shí)戰(zhàn)一下!下面的筆記其實(shí)就是的pytorch官方學(xué)習(xí)代碼加上個(gè)人的理解姜钳,代碼已經(jīng)...
此處選擇趨動(dòng)云啟動(dòng)擴(kuò)散模型坦冠,學(xué)習(xí)手冊(cè)參考Datawhale的設(shè)置,我不是藝術(shù)從業(yè)者所以對(duì)畫圖這一塊一直沒太關(guān)注哥桥,但是身邊有學(xué)這個(gè)的朋友決定來學(xué)習(xí)一下辙浑。 0、部署 采取的是網(wǎng)頁...
接著modelscope的學(xué)習(xí)判呕,今天依靠Swift跑通了訓(xùn)練的部分倦踢,modelscope平臺(tái)出了一個(gè)Swift框架可以讓小白,愛好者非AI專業(yè)人士無痛訓(xùn)練大模型侠草,僅需少量代碼...
最近終于有時(shí)間看大模型相關(guān)的教程辱挥,由于huggingface國內(nèi)訪問受阻,因此探索了一下阿里的modelscope边涕,并記錄常用的組件和模塊供以后學(xué)習(xí)工作復(fù)查晤碘。 0、準(zhǔn)備篇 看...
最近在查看一些數(shù)據(jù)集功蜓,發(fā)現(xiàn)有些非常老的數(shù)據(jù)庫里面只有GRCh37的數(shù)據(jù)园爷,一些經(jīng)常更新的數(shù)據(jù)庫里面只有GRCh38的數(shù)據(jù),如果恰好手頭上有兩個(gè)版本的基因組數(shù)據(jù)可就非常頭疼了霞赫。為...
最近的任務(wù)需要做一個(gè)工具腮介,這個(gè)工具會(huì)定期查詢文件或者數(shù)據(jù)庫,原本打算從日志中提取端衰,但日志中太多其他標(biāo)準(zhǔn)輸出的內(nèi)容了,提取信息可能很困難甘改,也很容易導(dǎo)致錯(cuò)誤旅东,因此考慮了sqlit...
1 了解 conda,anaconda十艾,miniconda抵代,bioconda 1.1 conda conda是一個(gè)軟件模塊管理工具,也是一個(gè)可執(zhí)行命令忘嫉,其核心功能是包管理與環(huán)...
最近需要下載和傳輸?shù)臄?shù)據(jù),還有傳輸數(shù)據(jù)庆冕,過程中涉及到好多驗(yàn)證的問題康吵,因此小記這一篇,關(guān)于驗(yàn)證的原理有機(jī)會(huì)再探討访递,本log不作贅述晦嵌。 為什么需要校驗(yàn)數(shù)據(jù)及導(dǎo)致數(shù)據(jù)不一致的原因是...
有使用超算或者服務(wù)器的同學(xué)應(yīng)該會(huì)接觸過超算投遞系統(tǒng),在提交生信任務(wù)時(shí)拷姿,我們需要設(shè)置好資源惭载,比如說cpu用多少,內(nèi)存給多少响巢。學(xué)生時(shí)代的我是有多大內(nèi)存提供就設(shè)多大內(nèi)存描滔,有多少CP...
以前自學(xué)機(jī)器學(xué)習(xí)的時(shí)候經(jīng)常遇到一些,10幾個(gè)G甚至更大的數(shù)據(jù)集踪古,自己的電腦的存儲(chǔ)不太夠含长,就沒有做那些數(shù)據(jù)集了券腔。直到最近因分析需求需要清洗100G+的數(shù)據(jù),才真正接觸到真正意義...