Basic Information
- 英文標(biāo)題: Database resources of the National Center for Biotechnology Information
- 中文標(biāo)題:國家生物技術(shù)信息中心的數(shù)據(jù)庫資源
- 發(fā)表日期:22 November 2023
- 文章類型:Na
- 所屬期刊:Nucleic Acids Research
- 文章作者:Eric W Sayers | Stephen T Sherry
- 文章鏈接:https://academic.oup.com/nar/article/52/D1/D33/7442534
Abstract
- 國家生物技術(shù)信息中心(NCBI)為生物學(xué)提供了在線信息資源,包括GenBank?核酸序列數(shù)據(jù)庫和PubMed?生命科學(xué)期刊出版物的引文及摘要數(shù)據(jù)庫闲勺。
- NCBI為這些數(shù)據(jù)中的大部分提供了來自35個不同數(shù)據(jù)庫的搜索和檢索操作菜循。
- E-utilities作為這些數(shù)據(jù)庫的主要編程接口债朵。
- 在過去一年中進(jìn)行了重大更新的資源包括PubMed、PMC粤咪、Bookshelf寥枝、SciENcv囊拜、美國國立衛(wèi)生研究院比較基因組資源(CGR)冠跷、NCBI病毒、SRA橄务、RefSeq蜂挪、外來污染篩選工具棠涮、分類學(xué)故爵、iCn3D劲室、ClinVar很洋、GTR喉磁、MedGen、dbSNP孕暇、ALFA妖滔、ClinicalTrials.gov座舍、病原體檢測曲秉、抗微生物耐藥性資源以及PubChem岸浑。
- 這些資源可以通過NCBI主頁https://www.ncbi.nlm.nih.gov進(jìn)行訪問矢洲。
Introduction
NCBI overview
NCBI 概覽
Para_01
- 國家生物技術(shù)信息中心(NCBI)是位于美國國立衛(wèi)生研究院(NIH)內(nèi)的國家醫(yī)學(xué)圖書館(NLM)的一個中心,成立于1988年袁滥,旨在為分子生物學(xué)開發(fā)信息系統(tǒng)揩徊。
- 本文首先簡要概述了NCBI的數(shù)據(jù)庫集合塑荒,隨后總結(jié)了我們在過去一年中進(jìn)行了重大更新的資源彼硫。
- 我們提供了更全面的NCBI資源介紹凌箕,可在各個數(shù)據(jù)庫的主頁以及NCBI手冊中找到(https://www.ncbi.nlm.nih.gov/books/NBK143764/)串绩。
NCBI databases
NCBI數(shù)據(jù)庫
Para_02
- NCBI 維護(hù)著一組多樣化的 35 個數(shù)據(jù)庫赏参,這些數(shù)據(jù)庫合計包含 43 億條記錄(表 1 和圖 1),其中大部分可通過 Entrez 檢索系統(tǒng)獲取腰涧,網(wǎng)址為 https://www.ncbi.nlm.nih.gov/search/窖铡。
- 圖 2 以圖形方式表示了這些數(shù)據(jù)庫中的幾個费彼,并將它們分為三組:文獻(xiàn)箍铲、生物分子和臨床遺傳學(xué)颠猴。
- 下面將按此順序討論這些數(shù)據(jù)庫。
- 每個數(shù)據(jù)庫支持使用簡單的布爾查詢進(jìn)行文本搜索资盅,以多種格式下載數(shù)據(jù)振峻,并基于聲明的關(guān)系在數(shù)據(jù)庫之間鏈接記錄扣孟。
- 在 Entrez 中檢索到的記錄可以多種格式顯示凤价,并可單獨(dú)或批量下載利诺。
- Entrez 功能的應(yīng)用編程接口(E-utilities)可供使用慢逾,并提供了詳細(xì)的文檔侣滩,網(wǎng)址為 https://eutils.ncbi.nlm.nih.gov/君珠。
Table 1. NCBI databases (as of 21 August 2023)
Database | Records | Description |
---|---|---|
Literature | ||
PubMed | 36,100,644 | scientific and medical abstracts/citations |
PubMed Central | 9,268,952 | full-text journal articles |
NLM Catalog | 1,634,653 | index of NLM collections |
Bookshelf | 983,634 | books and reports |
MeSH | 353,699 | ontology used for PubMed indexing |
DNA/RNA | ||
Nucleotide | 605,293,217 | DNA and RNA sequences from GenBank and RefSeq |
BioSample | 34,796,756 | descriptions of biological source materials |
SRA | 28,858,671 | high-throughput DNA/RNA sequence read archive |
Taxonomy | 2,653,432 | taxonomic classification and nomenclature catalog |
Assembly | 1,782,091 | genome assembly information |
BioProject | 712,423 | biological projects providing data to NCBI |
Genome | 79,671 | genome sequencing projects by organism |
BioCollections | 8,497 | museum, herbaria, and biorepository collections |
Genes | ||
GEO Profiles | 128,414,055 | gene expression and molecular abundance profiles |
Gene | 47,059,151 | collected information about gene loci |
GEO DataSets | 6,874,686 | functional genomics studies |
PopSet | 404,340 | sequence sets from phylogenetic/population studies |
HomoloGene | 141,268 | homologous gene sets for selected organisms |
Proteins | ||
Protein | 1,194,803,871 | protein sequences from GenBank and RefSeq |
Identical Protein Groups | 629,076,260 | protein sequences grouped by identity |
Protein Clusters | 1,137,329 | sequence similarity-based protein clusters |
Structure | 208,741 | experimentally-determined biomolecular structures |
Protein Family Models | 166,131 | conserved domain architectures, HMMs, and BlastRules |
Conserved Domains | 64,234 | conserved protein domains |
Chemicals | ||
PubChem Substance | 307,634,967 | deposited substance and chemical information |
PubChem Compound | 115,669,131 | chemical information with structures, information, and links |
PubChem BioAssay | 1,626,630 | bioactivity screening studies |
PubChem Pathways | 240,671 | molecular pathways with links to genes, proteins, and chemicals |
Clinical Genetics | ||
dbSNP | 1,121,739,543 | short genetic variations |
dbVar | 7,749,330 | genome structural variation studies |
ClinVar | 2,339,222 | human variations of clinical significance |
ClinicalTrials.gov | 463,200 | registry of clinical studies |
MedGen | 216,373 | medical genetics literature and links |
GTR | 81,209 | genetic testing registry |
dbGaP | 1,406 | genotype/phenotype interaction studies |
- 圖 1. 截至2023年8月21日唯竹,每個NCBI數(shù)據(jù)庫記錄數(shù)量的年增長率浸颓。
- 圖 2. 選自 NCBI 的數(shù)據(jù)庫和工具,根據(jù)文中討論被歸類為三大類別蒂秘。
Data sources and collaborations
數(shù)據(jù)來源與合作
Para_03
- NCBI從三個來源接收數(shù)據(jù):研究人員的直接提交姻僧,與國內(nèi)外數(shù)據(jù)提供者及研究聯(lián)盟的合作或協(xié)議撇贺,以及內(nèi)部的整理工作艘狭。
- 例如巢音,NCBI管理GenBank數(shù)據(jù)庫官撼,并作為國際核酸序列數(shù)據(jù)庫合作組織(INSDC)的合作伙伴,與歐洲分子生物學(xué)實(shí)驗(yàn)室-歐洲生物信息研究所(EMBL-EBI)的歐洲核苷酸檔案庫(ENA)和日本DNA數(shù)據(jù)銀行(DDBJ)合作巩踏。
- 有關(guān)直接提交過程的詳細(xì)信息可從NCBI提交頁面(https://www.ncbi.nlm.nih.gov/home/submit.shtml)和各資源主頁獲惹炅础(例如GenBank頁面,https://www.ncbi.nlm.nih.gov/genbank/)榛了。
- 關(guān)于各種合作霜大、協(xié)議和整理工作的更多信息也可通過各資源的主頁獲得曙强。
Literature updates
PubMed
PubMed
Para_04
- PubMed 提供免費(fèi)在線訪問生物醫(yī)學(xué)文獻(xiàn)的引文和摘要碟嘴,并促進(jìn)了對 MEDLINE错沃、PubMed Central 和 Bookshelf 文獻(xiàn)資源的搜索枢析。
- 在過去的一年里,PubMed 添加了超過 140 萬條引文辐益,使數(shù)據(jù)庫在 2023 年的總引文數(shù)量增長到超過 3600 萬條智政。
- 現(xiàn)在,PubMed 在選定的搜索字段中提供了鄰近搜索功能(https://www.nlm.nih.gov/pubs/techbull/nd22/nd22_pubmed_proximity_search_available.html)牙瓢。
- 這個備受期待的功能支持搜索出現(xiàn)在彼此特定距離內(nèi)的術(shù)語,為在 PubMed 中搜索可能以多種方式表示的概念或捕捉短語的變化提供了一種強(qiáng)大的新方法(https://pubmed.ncbi.nlm.nih.gov/help/#proximity-searching)间校。
- 例如矾克,對于 '配給醫(yī)療保健' 的鄰近搜索也可以捕捉到諸如醫(yī)療保健配給、醫(yī)療保健的配給憔足、醫(yī)療保健中的配給胁附、普遍醫(yī)療保健的配給策略、有限醫(yī)療保健的配給等變化,而無需單獨(dú)搜索這些短語弓候。
- 此外邦蜜,PubMed E-utilities API 已更新為使用支持 PubMed 網(wǎng)頁界面相同的技術(shù)棧(https://ncbiinsights.ncbi.nlm.nih.gov/2022/11/22/updated-pubmed-eutilities-live/)毕籽。
- 這次更新使 PubMed E-utilities API 的功能與網(wǎng)站保持一致,以提供一致的行為和搜索結(jié)果睡榆。
Para_05
- 我們的最佳匹配算法既反映了文章與查詢的相關(guān)性包雀,也考慮了用戶對文章類型的選擇偏好。
- 隨著用戶偏好的變化讹堤,該模型會進(jìn)行更新以適應(yīng)這些變化沾凄。
- 過去婴削,這些更新需要人工審核,因此更新頻率較低股缸。
- 現(xiàn)在,一個穩(wěn)健的自動化系統(tǒng)能夠判斷新模型是否可靠迷守,因此更新變得更加頻繁茵瘾。
- 我們還簡化了作者姓名識別過程圣絮,使得PubMed中的計算作者信息可以每周持續(xù)更新奸腺。
PubMed Central (PMC)
PubMed Central (PMC)
Para_06
- PMC是NLM的免費(fèi)全文檔案庫,收錄了生物醫(yī)學(xué)和生命科學(xué)期刊文獻(xiàn)。
- 2023年陨舱,PMC檔案館的公開可用全文期刊文章蛮粮、作者手稿和預(yù)印本數(shù)量超過了900萬篇。
- 2023年令哟,PMC啟動了NIH預(yù)印本試點(diǎn)項目的第二階段,擴(kuò)大了試點(diǎn)項目的范圍,包括來自符合條件的預(yù)印本服務(wù)器的NIH資助研究產(chǎn)生的預(yù)印本甜滨。
- 作為NLM的一個項目,NIH預(yù)印本試點(diǎn)項目于2020年啟動,旨在探索增加NIH支持研究成果可見度的新方法,第一階段重點(diǎn)關(guān)注COVID-19及SARS-CoV-2病毒相關(guān)的NIH資助研究酌予。
- 截至2023年8月建椰,已有近13,000篇預(yù)印本記錄通過該試點(diǎn)項目被加入到PMC中啦逆,從而加速并擴(kuò)展了對NIH資助研究的發(fā)現(xiàn)盲镶。
Para_07
- 在2022年3月成功推出現(xiàn)代化PMC網(wǎng)站的基礎(chǔ)上枫吧,PMC發(fā)布了幾項改進(jìn)文章顯示的功能例隆,以支持用戶最需要的活動皿曲,這些改進(jìn)基于從用戶和利益相關(guān)者那里獲得的直接反饋和用戶研究。
- 這些更新包括改進(jìn)桌面和移動設(shè)備上引用信息的展示方式;一種簡便的方法可將文章直接添加到特定的My NCBI收藏夾;以及增強(qiáng)的"資源"部分,提供對類似文章、被引文章和NCBI其他數(shù)據(jù)庫中的相關(guān)數(shù)據(jù)記錄的便捷訪問。
- (https://ncbiinsights.ncbi.nlm.nih.gov/2023/02/27/enhancements-pmc-website/)
Para_08
- 此外,PMC進(jìn)行了多項更新幅聘,以明確其作為數(shù)字檔案的角色葛超,并改進(jìn)PMC內(nèi)容的描述胖替、展示和分享方式好芭,服務(wù)于具有不同知識水平的廣大且多樣化的用戶群體邻薯,這些用戶對NLM、NIH以及學(xué)術(shù)出版流程了解程度不一。
- 這些背景信息更新包括在所有PMC文章頁面上顯著位置添加注釋,以闡明NLM與其在PMC中歸檔的文章之間的關(guān)系虱岂;更新默認(rèn)的社交媒體展示形式,當(dāng)從PMC分享文章時;以及在文檔頁面上新增的信息圖,展示了PMC中不同類型的內(nèi)容及其如何融入學(xué)術(shù)出版流程。
- 隨著美國及全球COVID-19公共衛(wèi)生緊急狀態(tài)聲明的到期,PMC將其COVID-19公共衛(wèi)生緊急倡議轉(zhuǎn)變?yōu)镻MC COVID-19集合,繼續(xù)致力于確保對超過50家出版商提交的超過35萬篇文章的永久訪問。
- 最后,在二月份,NLM擴(kuò)大了PMC的資格要求,考慮接受主要以西班牙語出版的非MEDLINE期刊的申請,這是朝著將PMC的范圍更緊密地與MEDLINE以及更廣泛的NLM收藏相一致邁出的第一步。
Bookshelf
書架
Para_09
- NCBI Bookshelf 提供生命科學(xué)奢赂、醫(yī)療保健和醫(yī)學(xué)領(lǐng)域的全文書籍和文檔的免費(fèi)在線訪問轧钓。
- 在過去的一年里而柑,Bookshelf 添加了超過 1000 本書伟葫,使資料庫總數(shù)增長到超過 11 600 本渐溶,來自超過 150 家內(nèi)容提供商拖陆。
- 2023 年新增加的重要同行評審集合涉及毒理學(xué)店枣、健康差異、護(hù)理和公共衛(wèi)生等領(lǐng)域。
- Bookshelf 還啟動了一個試點(diǎn)項目來收集開放教育資源 (OER)。
- 作為這個試點(diǎn)項目的一部分弱匪,首次添加的開放教科書是 Open RN 項目創(chuàng)建和更新的教科書(https://www.ncbi.nlm.nih.gov/books/NBK590025/)哑诊,該項目由奇皮瓦河谷技術(shù)學(xué)院領(lǐng)導(dǎo)暑劝,并部分由教育部資助。
- 為了幫助用戶更容易找到 Bookshelf 中所有可用的教科書和 OER 資源,目前大約有 150 本書稍浆,Bookshelf 為此系列添加了搜索過濾器,并在其網(wǎng)站上所有教科書頁面的底部添加了指向這些資源列表的鏈接。
SciENcv
SciENcv
Para_10
- SciENcv(Science Experts Network Curriculum Vitae,網(wǎng)址:https://www.ncbi.nlm.nih.gov/sciencv)對于那些尋求來自聯(lián)邦組織如美國國立衛(wèi)生研究院、國家科學(xué)基金會和教育部教育科學(xué)研究所等機(jī)構(gòu)的聯(lián)邦研究資助的人來說是一個有用的資源闰挡。
- 通過將ORCID賬戶與SciENcv關(guān)聯(lián)起來夺脾,用戶可以享受到一系列的好處乙墙,包括在文檔中包含持久性標(biāo)識符汉买、從ORCID資料自動填充字段以及能夠無縫地將ORCID資料中的引用整合到個人簡介中出牧。
- 這樣能夠輕松地在個人簡介中加入來自O(shè)RCID資料的引用信息伯复。
Para_11
- SciENcv最近進(jìn)行了針對用戶需求的界面增強(qiáng)丈积,包括諸如對必填項進(jìn)行錯誤驗(yàn)證、通過日歷實(shí)現(xiàn)用戶友好的日期輸入以及字符計數(shù)器確保遵守政策規(guī)定的文字限制等功能。
- SciENcv將保持動態(tài)更新,以適應(yīng)聯(lián)邦機(jī)構(gòu)不斷變化的需求,這些機(jī)構(gòu)在尋求更全面的申請人信息的同時躯保,正朝著標(biāo)準(zhǔn)化申請表的方向發(fā)展。
Biomolecule updates
DNA/RNA
脫氧核糖核酸/核糖核酸
NIH comparative genomics resource
美國國立衛(wèi)生研究院比較基因組學(xué)資源
Para_12
- 美國國立衛(wèi)生研究院比較基因組資源庫(CGR)(https://www.ncbi.nlm.nih.gov/datasets/cgr/)通過最大化真核研究生物及其基因組數(shù)據(jù)對生物醫(yī)學(xué)研究的影響歌溉。
- CGR通過社區(qū)合作和美國國立生物技術(shù)信息中心基因組工具包匙头,促進(jìn)所有真核生物可靠比較基因組學(xué)分析。
- 社區(qū)合作對于CGR的成功至關(guān)重要,因?yàn)樗_定了將更多與基因組相關(guān)的數(shù)據(jù)和元數(shù)據(jù)與美國國立生物技術(shù)信息中心的基因組工具包連接起來的機(jī)會借帘,并提供了有價值的反饋來推動進(jìn)一步的發(fā)展拾碌。
- 該工具包通過相互關(guān)聯(lián)的數(shù)據(jù)庫提供高質(zhì)量的基因組相關(guān)數(shù)據(jù)展融,這些數(shù)據(jù)庫具有接入點(diǎn)燕偶,可實(shí)現(xiàn)美國國立生物技術(shù)信息中心內(nèi)容和工具的無縫導(dǎo)航,還可以融入用戶的操作流程之中盗似。
Para_13
- 我們在過去一年中發(fā)布了或更新了該工具包的多個組件心赶。
- 其中包括一個新的實(shí)驗(yàn)性BLAST數(shù)據(jù)庫,該數(shù)據(jù)庫僅限于真核生物序列(nt_euk)曙搬,以及分別針對原核生物(nt_prok)诗箍、病毒(nt_viruses)和其他序列(nt_others)的數(shù)據(jù)庫匠童。
- 這些較小的數(shù)據(jù)庫下載時間更短竖独,減少了搜索時間格二,并將搜索集中到感興趣的序列上。
- 自2022年9月以來,我們向SPARCLE添加了超過4500個經(jīng)過整理和發(fā)布的域結(jié)構(gòu)(特定和超家族)椅贱,這些信息可在保守域搜索(CD-Search)結(jié)果和蛋白質(zhì)家族數(shù)據(jù)庫中獲取垮媒。
- 這些結(jié)構(gòu)提供了蛋白質(zhì)產(chǎn)物名稱和蛋白質(zhì)屬性奄薇,如基因本體(GO)術(shù)語沫屡、酶委員會(EC)編號、PubMed ID以及來自其他資源的ID,例如轉(zhuǎn)運(yùn)蛋白分類數(shù)據(jù)庫(TCDB)想鹰、MEROPS(肽酶數(shù)據(jù)庫)和CAZy(碳水化合物活性酶數(shù)據(jù)庫)。
- 這支持了更加準(zhǔn)確和全面的比較蛋白質(zhì)分析,并通過提高分類資源的互操作性使數(shù)據(jù)更加符合FAIR原則。
Para_14
- 我們以多種方式更新了真核基因組注釋管道(EGAP)廷区,這是另一個工具組件的更新敛瓷,這些改進(jìn)提高了注釋效果,并使生成的注釋集更加有用。
- 通過使用STAR和minimap2對齊器生成的對齊結(jié)果進(jìn)行額外過濾垫释,改善了串聯(lián)重復(fù)基因簇中的注釋曼尊,而實(shí)現(xiàn)方面的改進(jìn)提高了跨物種的對齊率肴裙。
- 此外宛乃,現(xiàn)在使用InterProScan為注釋的基因分配GO術(shù)語,相關(guān)數(shù)據(jù)可通過FTP和NCBI Gene獲取纺讲。
- 最后乡括,EGAP現(xiàn)在利用Subread featureCounts軟件計算每項RNA-Seq運(yùn)行以及每個基因的表達(dá)量哀蘑。
Para_15
- 比較基因組瀏覽器(CGV)(https://ncbi.nlm.nih.gov/genome/cgv/) 允許用戶基于兩個基因組之間的比對進(jìn)行視覺檢查,自2023年初以來,已增加了超過200種物種和375個比對的數(shù)據(jù)律罢,其中許多是哺乳動物間的跨物種例子。
- 除了國家生物技術(shù)信息中心(NCBI)生成的比對外阱高,這些新數(shù)據(jù)還包括加州大學(xué)圣克魯茲分腥Π担基因組研究所生成并在最小程度上由NCBI處理以便展示的比對野揪。
- 我們在工具中增加了一個點(diǎn)圖(二維)顯示功能殴边,以幫助檢測具有大范圍基因組重排區(qū)域,例如易位或片段重復(fù)放接。
Para_16
- 由于我們在CGR方面的工作捧韵,NCBI也在提供工具和分析以提高基因組序列質(zhì)量方面取得了重大進(jìn)展。
- 繼去年的測試版發(fā)布之后扳抽,現(xiàn)在可以下載一個穩(wěn)定的Foreign Contamination Screening (FCS)工具套件(https://github.com/ncbi/fcs),該套件能夠檢測組裝基因組中的接頭和跨物種污染,使基因組提交者能夠在提交前改進(jìn)他們的基因組質(zhì)量斜姥。
- 該工具支持對真核和原核生物基因組進(jìn)行篩選糕非。
- 基因組提交門戶已更新,使用快速且靈敏度更高的FCS-GX篩選方法浪箭,加快了流程,并有助于減少新提交基因組中的錯誤明也。
- 超過150萬個現(xiàn)有基因組的污染數(shù)據(jù)也可通過FTP獲任章辍(https://ftp.ncbi.nlm.nih.gov/genomes/TOOLS/FCS/reports/)瓢棒。
- 我們進(jìn)一步利用平均核苷酸同一性(ANI)分析來檢測原核生物基因組中的污染搀继。
- 我們使用FCS和ANI結(jié)果的組合,在NCBI的基因組資源中標(biāo)記某些真核和原核生物基因組為‘受污染’袁辈,并將它們排除在NCBI RefSeq集合之外。
- 更多匯總報告可在FTP上獲取(https://ftp.ncbi.nlm.nih.gov/genomes/ASSEMBLY_REPORTS/)措拇,包括帶有擴(kuò)展基因組和注釋統(tǒng)計信息的assembly_summary文件粘衬。
- 正在進(jìn)行的努力將進(jìn)一步揭示序列質(zhì)量信息屯阀,幫助用戶對其研究使用的數(shù)據(jù)做出明智決策苍凛。
NCBI virus
NCBI病毒
Para_17
- NCBI病毒資源(https://www.ncbi.nlm.nih.gov/labs/virus/)作為一個用戶友好的平臺,用于搜索和獲取病毒基因組序列及標(biāo)準(zhǔn)化元數(shù)據(jù)往枷。
- 為了確保遺傳變異評估的一致性和準(zhǔn)確性导而,NCBI開發(fā)了一套分析流程(https://www.ncbi.nlm.nih.gov/sra/docs/sars-cov-2-variant-calling/)遥巴,旨在系統(tǒng)地識別存儲在序列讀取檔案(SRA)和GenBank倉庫中的超過1480萬個SARS-CoV-2序列樣本中的核苷酸和蛋白質(zhì)變化携栋。
- 作為NCBI病毒資源的一部分何之,SARS-CoV-2變異概覽儀表板(https://www.ncbi.nlm.nih.gov/activ)利用了來自NCBI SARS-CoV-2變異分析流程的見解舰褪。
- 最近進(jìn)行了改進(jìn)贝次,該儀表板現(xiàn)在提供了使用序列變異或遺傳譜系作為搜索參數(shù)來查詢SARS-CoV-2記錄的功能笋轨。
- 搜索后处渣,界面提供可查看的序列記錄和元數(shù)據(jù),這些信息既可以在界面上查看钧嘶,也可以下載為文件。
- SARS-CoV-2變異概覽還包括各國和美國各州的譜系地理位置和頻率以及定義譜系的突變的可視化掠抬。
- 該界面是在與美國國立衛(wèi)生研究院加速COVID-19治療干預(yù)和疫苗(ACTIV)追蹤抗藥性和冠狀病毒進(jìn)化(TRACE)倡議合作下開發(fā)的(https://www.nih.gov/research-training/medical-research-initiatives/activ/tracking-resistance-coronavirus-evolution-trace)嘀倒。
Sequence read archive (SRA)
序列讀取存檔 (SRA)
Para_18
- NCBI 慶祝 SRA 數(shù)據(jù)上云三周年挨约,目前數(shù)據(jù)總量已超過 25 艾字節(jié)。
- 其中包括超過 2700 萬個公開的 SRA 文件刀诬,既有規(guī)范化格式也有精簡格式,以及相關(guān)元數(shù)據(jù)和 STAT 分析。
- 這些數(shù)據(jù)可在亞馬遜網(wǎng)絡(luò)服務(wù)開放數(shù)據(jù)項目和谷歌云平臺公共數(shù)據(jù)集項目中獲仍甓狻(https://www.ncbi.nlm.nih.gov/sra/docs/sra-cloud/)。
- 我們旨在通過提高識別和訪問的便利性來促進(jìn)艾字節(jié)級別的發(fā)現(xiàn)丁溅,這一目標(biāo)正在逐步實(shí)現(xiàn)。
- 利用 SRA 云端數(shù)據(jù)起意,Edgar 等人極大地擴(kuò)展了我們對病毒多樣性的認(rèn)識亡嫌。
- 公共衛(wèi)生領(lǐng)域的研究者正積極利用云端的 STAT 結(jié)果控淡,既監(jiān)測自己的提交數(shù)據(jù)者冤,也監(jiān)控如小兒麻痹癥和麻疹等疾病操灿。
- Hodgins 等人指出斥扛,"傳統(tǒng)的基于同源性的搜索方法(例如 BLAST)無法應(yīng)用于如此大規(guī)模的數(shù)據(jù)",他們通過使用‘谷歌的大查詢 API 在 2021 年 3 月 15 日搜索 NCBI-STAT 數(shù)據(jù)庫中與 tax_id = 1513 匹配的序列’,在宏基因組考古樣本中發(fā)現(xiàn)了古老的破傷風(fēng)梭菌相關(guān)序列霉颠。
- 通過參與 NIH ACTIV TRACE 項目,NCBI 提供了對原始源文件稚瘾、SRA 文件以及從這些文件生成的 VCF 文件的開放訪問,重點(diǎn)關(guān)注 SRA 數(shù)據(jù)中的 SARS-CoV-2 子集。
- 最后,這些公開數(shù)據(jù)激發(fā)了在最近的一次編程馬拉松活動中探索 VCF 文件用于群體遺傳學(xué)的可能性(https://ncbiinsights.ncbi.nlm.nih.gov/event/vcf-for-population-genomics-codeathon)。
RefSeq
RefSeq
Para_19
- 截至2023年8月11日,NCBI RefSeq收藏現(xiàn)在包括311,967個原核生物和1,735個真核生物基因組,這兩類基因組每年的增長率均為21%。
- 本期刊中有一篇單獨(dú)的文章描述了原核生物收藏的改進(jìn)。
- 在真核生物收藏中,現(xiàn)在已有1,056個物種的基因組使用NCBI的真核生物基因組注釋管道(EGAP)進(jìn)行了注釋,其中包括對人類疲恢、小鼠、大鼠和其他分類群的大量人工校正工作。
- 我們已經(jīng)修訂了新的EGAP注釋運(yùn)行的命名系統(tǒng):這些名稱基于組裝存取號,并有一個日期后綴與注釋運(yùn)行相對應(yīng),例如GCF_000001405.40-RS_2023_03表示2023年3月的人類GRCh38.p14注釋牲览。
- 這提高了報告組裝和注釋數(shù)據(jù)的清晰度载佳,并使數(shù)據(jù)更加FAIR(可發(fā)現(xiàn)、可訪問、可交互操作和可重用)甜熔。
- RefSeq對人類基因組的注釋顯著地融合了來自NCBI和EMBL-EBI的匹配注釋(MANE)數(shù)據(jù)集币叹。
- 最新的MANE發(fā)布版本(v1.2)包含了99.4%蛋白質(zhì)編碼基因的轉(zhuǎn)錄本,作為臨床變異報告的通用標(biāo)準(zhǔn)。
- 我們鼓勵采用MANE轉(zhuǎn)錄本來提高臨床報告的一致性蚯窥,簡化臨床解讀蠢笋,并促進(jìn)資源之間的數(shù)據(jù)比較和交換忍啸。
- 我們還增加了歷史人類RefSeq轉(zhuǎn)錄本的比對和注釋數(shù)據(jù)叉钥,以幫助臨床團(tuán)隊將遺留數(shù)據(jù)集遷移到GRCh38.p14參考基因組洞焙。
- 除了為人類GRCh38.p14和T2T-CHM13v2.0基因組提供的全面注釋外,我們現(xiàn)在還為其他基因組上的策劃基因提供注釋,如人類HPRC聯(lián)盟的基因組伍掀,作為泛基因組資源試點(diǎn)項目的組成部分收擦。
Para_20
- 人類和小鼠基因組注釋包括了RefSeq功能元件(RefSeqFEs)數(shù)量的巨大增長送淆,這些元件記錄了多樣且功能重要的非基因編碼元件谒出,如基因調(diào)控元件和其他已在文獻(xiàn)中實(shí)驗(yàn)驗(yàn)證的基因組區(qū)域呜象。
- 對于人類GRCh38.p14和T2T-CHM13v2.0的GCF_000001405.40-RS_2023_03和GCF_009914755.1-RS_2023_03注釋讲坎,自2022年對這些組裝體進(jìn)行注釋以來瞄勾,分別新增了超過78,000和66,000個新的RefSeqFE特征费奸。
- 對于GRCm39上的小鼠GCF_000001635.27-RS_2023_04注釋,自2020年最后一次小鼠注釋以來进陡,新增了超過3,900個新的RefSeqFE特征愿阐。
- 2023年的其他RefSeqFE改進(jìn)包括:為注釋特征提供的可提取細(xì)胞類型活動數(shù)據(jù)、下載文件中的額外字段以供數(shù)據(jù)挖掘趾疚、基因調(diào)控元件的附加目標(biāo)基因鏈接以及GRCh38.p14缨历、T2T-CHM13v2.0和GRCm39組裝體上RefSeqFE軌道中心的更新。
- 更多詳情糙麦,包括數(shù)據(jù)訪問選項辛孵,可在RefSeqFE網(wǎng)頁上找到(https://www.ncbi.nlm.nih.gov/refseq/functionalelements/)。
- 我們鼓勵使用這個快速增長的數(shù)據(jù)集作為實(shí)驗(yàn)驗(yàn)證的非基因編碼區(qū)域的參考資源赡磅。
Taxonomy
分類學(xué)
Para_21
- NCBI 繼續(xù)維護(hù)原核生物模式菌株及其基因組魄缚,以支持 ANI 分析。
- 我們已經(jīng)在分類學(xué) FTP 站點(diǎn)(https://ftp.ncbi.nlm.nih.gov/pub/taxonomy/new_taxdump)引入了新的文件仆邓,用于列出以前在文獻(xiàn)和公共資源中錯誤地列出的排除類型(excludedfromtype.dmp)鲜滩。
- 我們也展示了 ANI 作為一種評估分類合并有效性的工具的實(shí)用性伴鳖。
- 當(dāng)兩個獨(dú)立描述的分類單元被識別為屬于同一物種時,它們會被合并徙硅,而后來描述的分類單元成為最初描述分類單元的異名榜聂。
- 因此,我們預(yù)計來自異名的組裝將顯示出較高的 ANI 值嗓蘑。
- 如果異名的基因組顯示較低的身份或較低的 ANI 值须肆,則可能表明所涉及的物種實(shí)際上是不同的,不應(yīng)該被合并桩皿。
- 我們收集了此類可能存在疑問的分類合并及其相關(guān)的 ANI 值(ftp.ncbi.nlm.nih.gov/genomes/ASSEMBLY_REPORTS/prokaryote_ANI_suspect_heterotypic_synonyms.txt)豌汇。
- 由于 ANI 過程依賴于高質(zhì)量的模式菌株基因組序列,因此在沒有這類數(shù)據(jù)的情況下泄隔,其潛力受到限制拒贱。
- 不幸的是,仍有許多物種沒有任何來自模式材料的基因組佛嬉,所以我們強(qiáng)烈鼓勵對這些物種進(jìn)行測序并將基因組提交(ftp.ncbi.nlm.nih.gov/genomes/ASSEMBLY_REPORTS/prokaryote_without_type_assembly.txt)逻澳。
Para_22
- 最終,我們完成了兩項備受矚目的名稱變更:細(xì)菌和古菌的新門名稱以及流感的二名法種名暖呕。
- 這些變更由《原核生物國際命名法規(guī)》(ICNP) 和《病毒分類與命名國際法規(guī)》(ICVCN) 制定的規(guī)則更改所觸發(fā)斜做。
- 我們在 NCBI Insights 博客文章中以及 FTP 站點(diǎn)上更詳細(xì)地描述了這些變更(https://ftp.ncbi.nih.gov/pub/taxonomy/Major_taxonomic_updates_2023.txt)。
Proteins
蛋白質(zhì)
iCn3D
iCn3D
Para_23
- NCBI 跟蹤的大量蛋白質(zhì)序列可以映射到實(shí)驗(yàn)得出或計算預(yù)測的三維結(jié)構(gòu)湾揽。
- 我們繼續(xù)開發(fā)三維結(jié)構(gòu)查看器 iCn3D瓤逼,作為比較分析序列和結(jié)構(gòu)以及探索序列-結(jié)構(gòu)-功能關(guān)系的強(qiáng)大工具。
- iCn3D 可以顯示實(shí)驗(yàn)確定的三維結(jié)構(gòu)以及預(yù)測的結(jié)構(gòu)库物,并從各種在線資源檢索三維坐標(biāo)集霸旗。
- 我們現(xiàn)在提供了從蛋白質(zhì) BLAST 搜索結(jié)果直接可視化的鏈接。
- 在 BLAST 結(jié)果的‘對齊’窗格中艳狐,對于每個我們可以鏈接到實(shí)驗(yàn)或預(yù)測結(jié)構(gòu)的序列定硝,在每個序列右側(cè)的‘相關(guān)信息’列表下會出現(xiàn)此類鏈接。
- 點(diǎn)擊該鏈接將在瀏覽器標(biāo)簽中打開 iCn3D毫目,顯示用戶查詢序列與結(jié)構(gòu)相關(guān)聯(lián)序列之間的對齊,以及三維結(jié)構(gòu)或模型诲侮。
- iCn3D 將檢索模板結(jié)構(gòu)上的注釋镀虐,例如保守域足跡、功能位點(diǎn)和序列變異沟绪,并允許用戶將查詢-主體保守模式與這些注釋及詳細(xì)的三維構(gòu)象進(jìn)行比較刮便。
- 我們繼續(xù)頻繁更新 iCn3D,通常是對用戶的直接請求作出響應(yīng)绽慈。
- 更新記錄在 https://github.com/ncbi/icn3d/blob/master/CHANGELOG.md恨旱,并且可以在 https://www.ncbi.nlm.nih.gov/Structure/icn3d 訪問 iCn3D辈毯。
Chemicals
化學(xué)物質(zhì)
Para_24
- 過去一年里,作為NCBI的公共化學(xué)數(shù)據(jù)庫搜贤,PubChem擴(kuò)大了其數(shù)據(jù)內(nèi)容的范圍谆沃,現(xiàn)在提供了來自超過930個數(shù)據(jù)來源的超過1億1500萬種化合物的信息。
- 值得注意的是仪芒,來自FDA全球物質(zhì)注冊系統(tǒng)(GSRS)的數(shù)據(jù)被整合到PubChem中唁影,用于注釋化合物,這使得獲取受FDA監(jiān)管的化學(xué)品信息變得更加容易掂名。
- 同樣值得注意的是据沈,NLM于2022年12月停止了其化學(xué)信息資源ChemIDPlus和藥物信息門戶的服務(wù),并且這些資源中的數(shù)據(jù)現(xiàn)在可以在PubChem中獲取饺蔑。
- 相關(guān)鏈接:https://www.nlm.nih.gov/pubs/techbull/ja22/ja22_pubchem.html锌介。
Para_25
- 去年里,我們對PubChem的網(wǎng)頁界面進(jìn)行了重大改動猾警,具體總結(jié)可在PubChem幫助網(wǎng)站上找到(https://pubchem.ncbi.nlm.nih.gov/docs/user-interface-updates-2023)掏湾。
- 一個值得注意的變化是引入了綜合文獻(xiàn)表格,該表格列出了關(guān)于特定化合物的所有論文肿嘲。
- 我們通過整合來自多種文獻(xiàn)數(shù)據(jù)源的信息來生成這個列表融击,包括期刊、出版商和數(shù)據(jù)庫雳窟。
- 綜合文獻(xiàn)表格使用戶可以在一個地方搜索尊浪、排序和下載數(shù)據(jù)。
- 我們還更新了PubChemRDF封救,這是一種采用資源描述框架(RDF拇涤;https://www.w3.org/RDF/)格式的機(jī)器可讀的PubChem數(shù)據(jù)。
- 增加了共現(xiàn)子域誉结,用于根據(jù)化學(xué)物質(zhì)鹅士、基因/蛋白質(zhì)和疾病在生物醫(yī)學(xué)文獻(xiàn)中的出現(xiàn)情況編碼它們之間的關(guān)系。
- 這一更新使得用戶能夠通過SPARQL查詢識別與給定命名實(shí)體一起被提及的化學(xué)物質(zhì)惩坑、基因/蛋白質(zhì)和疾病掉盅。
Clinical genetics updates
ClinVar
ClinVar
Para_26
- ClinVar 是 NCBI 的人類遺傳變異存檔庫,這些變異已被分類用于疾病和藥物反應(yīng)以舒。
- 在過去的一年里趾痘,ClinVar 向數(shù)據(jù)庫新增了 78 萬條新變異記錄,這些記錄來源于 100 萬條新提交的數(shù)據(jù)蔓钟。
- 我們向 ClinVar 提交門戶增加了幾個功能永票,以便提交者更輕松地維護(hù)與其組織相關(guān)的信息。
- ‘編輯提交者組’和‘編輯人員’按鈕允許提交者輕松編輯關(guān)于其組織提交者的資料(即有權(quán)代表該組織提交的人)以及人員(即在 ClinVar 上該組織頁面公開列出的人)。
- ‘查看/添加斷言標(biāo)準(zhǔn)文件’按鈕使提交者能夠添加新的文件作為 ClinVar 提交的斷言標(biāo)準(zhǔn)侣集。
- 現(xiàn)在键俱,斷言標(biāo)準(zhǔn)文件獨(dú)立于變異提交進(jìn)行提交,這意味著提交者只需提供一次每個斷言標(biāo)準(zhǔn)文件世分,之后它將始終可用于未來的提交使用编振。
Para_27
- ClinVar 團(tuán)隊還為體細(xì)胞變異分類開發(fā)了一個原型。
- 設(shè)計了新的字段來表示體細(xì)胞變異的臨床影響(治療罚攀、診斷或預(yù)后)以及其致癌性党觅,這與該變異的生殖細(xì)胞分類區(qū)分開來。
- 我們還開發(fā)了新的變異頁面和提交電子表格模板斋泄,并針對體細(xì)胞分類進(jìn)行了修改杯瞻,然后通過視頻訪談的方式與用戶進(jìn)行了測試。
- 我們利用這些訪談反饋對變異頁面和電子表格模板進(jìn)行了修改炫掐,并以此指導(dǎo)體細(xì)胞變異匯總的設(shè)計魁莉。
- 我們將 ClinVar XML 和提交電子表格模板預(yù)期更改的預(yù)覽發(fā)布到了 GitHub (https://github.com/ncbi/clinvar),以幫助用戶和提交者為此項變更做好準(zhǔn)備募胃。
- 我們將在有可用信息時發(fā)布更多預(yù)覽旗唁,例如預(yù)期對 ClinVar VCF 文件的更新。
Genetic testing registry (GTR)
遺傳檢測登記庫(GTR)
Para_28
- 遺傳檢測注冊庫(GTR痹束,https://www.ncbi.nlm.nih.gov/gtr/)是美國國家生物技術(shù)信息中心(NCBI)的可訂購臨床和研究遺傳檢測以及分子和血清學(xué)檢測的數(shù)據(jù)庫检疫,用于傳染病。
- GTR旨在通過提供遺傳檢測信息并為遺傳檢測領(lǐng)域帶來透明度來支持醫(yī)療保健提供者祷嘶。
- 截至2023年7月屎媳,GTR包含由來自48個國家的492個實(shí)驗(yàn)室提供的77,486項臨床檢測和233項研究檢測,其中包括279個美國實(shí)驗(yàn)室论巍。
- 在臨床檢測中烛谊,實(shí)驗(yàn)室已為2,237項檢測分配了現(xiàn)行程序術(shù)語(CPT?)代碼,并為519項檢測分配了LOINC?代碼嘉汰。
- GTR包含74,973項分子檢測丹禀,其中近90%是單基因檢測,其余的是多基因面板鞋怀、外顯子組和全基因組檢測双泪。
- 次世代測序(NGS)是最常用的技術(shù)(占檢測的72%)。
- GTR還包括細(xì)胞遺傳學(xué)檢測(2,563項檢測涉及1,314個獨(dú)特的染色體區(qū)域或線粒體)以及生物化學(xué)遺傳檢測(137項檢測測量111種蛋白質(zhì)接箫;209項檢測測量69種酶攒读;596項檢測測量2,346種分析物)
Para_29
- 在過去的一年里,GTR專注于改善數(shù)據(jù)提交者的提交體驗(yàn)辛友。
- 新功能包括重新設(shè)計的主頁,以實(shí)現(xiàn)更直觀的提交體驗(yàn)。
- 新的頁面提供了快速訪問小組功能的方式废累,提交者可以管理實(shí)驗(yàn)室工作人員的權(quán)限邓梅,這些人員可以代表實(shí)驗(yàn)室提交數(shù)據(jù),并且可以一鍵下載所有臨床測試數(shù)據(jù)邑滨。
- 一個新的測試提交頁面允許提交者添加新的測試日缨、下載Excel模板、上傳電子表格以及跟蹤API提交掖看。
- 我們還改進(jìn)了GTR提交網(wǎng)站內(nèi)的導(dǎo)航匣距,使其更容易在主頁、實(shí)驗(yàn)室記錄哎壳、測試管理工具和測試提交頁面之間切換毅待。
- 測試管理工具提供了幾個好處:它改進(jìn)了搜索和選擇需要更新或刪除的測試的方式,使提交者能更輕松地追蹤和更新測試數(shù)據(jù)归榕,并為提交者提供了一種方式來下載選定數(shù)量的測試數(shù)據(jù)尸红。
- 一個新的功能允許提交者同時為多個臨床測試更新一組數(shù)據(jù)字段。
- 最后刹泄,提交者可以使用一個提交API外里,該API支持完全自動化的測試記錄提交。
MedGen
MedGen
Para_30
- MedGen 是 NCBI 的面向具有遺傳成分疾病的臨床信息門戶特石。
- 其目標(biāo)是支持臨床遺傳學(xué)在醫(yī)學(xué)實(shí)踐中的整合盅蝗。
- 為了實(shí)現(xiàn)這一目標(biāo),MedGen 提供了一個關(guān)于遺傳表型信息的在線門戶姆蘸,并從社區(qū)權(quán)威來源協(xié)調(diào)臨床遺傳學(xué)信息墩莫。
- MedGen 還作為 ClinVar 和 GTR 的表型基礎(chǔ)。
- MedGen 致力于提供對適用于臨床護(hù)理的遺傳學(xué)知識庫的訪問乞旦,以便這些數(shù)據(jù)在護(hù)理點(diǎn)有用贼穆,同時也有助于計算互操作性的發(fā)展。
Para_31
- MedGen是推動遺傳表型數(shù)據(jù)標(biāo)準(zhǔn)化社區(qū)中的關(guān)鍵參與者兰粉。
- 它匯集并協(xié)調(diào)來自權(quán)威來源的人類疾病名稱和屬性故痊,包括NLM內(nèi)的UMLS、OMIM玖姑、Mondo愕秫、HPO、Orphanet(https://orpha.net)焰络、向GTR提交檢測描述的檢測實(shí)驗(yàn)室戴甩,以及向ClinVar提交變異解釋信息的組織。
- 術(shù)語可用作平面文件(如OMIM)或本體(如Mondo闪彼、HPO)甜孤,MedGen對它們進(jìn)行不同處理协饲,以便以易于使用的格式在其網(wǎng)站上呈現(xiàn)給GTR和ClinVar用戶,并在FTP站點(diǎn)上的報告中供外部組織使用缴川。
- 當(dāng)需要記錄來支持GTR和ClinVar提交茉稠,而權(quán)威資源中沒有此類記錄時,MedGen會創(chuàng)建新記錄把夸,并每月向UMLS發(fā)送報告以供審核而线。
- 例如,MedGen通過使用通用藥品名稱和響應(yīng)一詞創(chuàng)建記錄恋日,來表示個體基于其基因型對藥物可能產(chǎn)生的反應(yīng)膀篮,即‘藥物反應(yīng)’。
- 在處理多個來源的數(shù)據(jù)時岂膳,有時會發(fā)現(xiàn)不一致之處誓竿,MedGen的策展人會審查問題,并找到解決方案或?qū)栴}報告給來源方闷营,從而使整個社區(qū)從數(shù)據(jù)標(biāo)準(zhǔn)化中受益烤黍。
- MedGen可能需要拆分記錄、合并多個記錄或創(chuàng)建新記錄傻盟。
- 一些審查需要來自數(shù)據(jù)源和其他社區(qū)利益相關(guān)者的輸入速蕊。
- 一個常見的數(shù)據(jù)沖突是測試實(shí)驗(yàn)室與數(shù)據(jù)來源之間所需的概念粒度不同,這促使了策展審查娘赴。
- 其他例子包括表示臨床表現(xiàn)與特定遺傳亞型之間的區(qū)別规哲、有沖突的同義詞(如癌癥和肉瘤)、使用諸如‘基因相關(guān)障礙’之類的術(shù)語指代多種不同的表型诽表,以及使用寬泛的概念描述多種不同的表型唉锌。
- MedGen員工與社區(qū)合作,并提供數(shù)據(jù)不一致性的報告竿奏,以將來自多個來源的疾病概念映射統(tǒng)一到一個具體袄简、統(tǒng)一的記錄上,這個記錄可用于臨床醫(yī)生泛啸、臨床實(shí)驗(yàn)室绿语、研究人員和數(shù)據(jù)來源方。
dbSNP and ALFA
dbSNP 和 ALFA
Para_32
- 為了紀(jì)念 dbSNP 成立 25 周年候址,2023 年 dbSNP 發(fā)布了第 156 版本和 ALFA 第 3 版本吕粹,這是一個重要的里程碑,擁有超過 10 億條帶有等位基因頻率的 RefSNP(rs)記錄岗仑。
- dbSNP 第 156 版本整合了來自數(shù)千個來源的數(shù)據(jù)匹耕,包括大規(guī)模人群研究,如 1000Genomes荠雕、TOPMed稳其、gnomAD 和 NCBI ALFA 第 3 版本驶赏。
- dbSNP 第 156 版本提供了人群頻率、分子見解欢际、ClinVar 臨床解讀母市、出版物和專注于人類單核苷酸變異矾兜、插入和缺失的基因組映射损趋。
- 此外,NCBI ALFA 第 3 版本(版本 20230706150541)的發(fā)布代表了一個重大成就椅寺,因?yàn)樗藖碜猿^ 20 萬個人的全球人群數(shù)據(jù)浑槽。
- ALFA 第 3 版本通過添加基因型頻率數(shù)據(jù)和哈迪-溫伯格平衡概率改進(jìn)了早期版本的變異分析。
- 此次發(fā)布匯總了驚人的 5.8 兆總基因型返帕,產(chǎn)生了 9.047 億種獨(dú)特變異桐玻,其中包括 55.4 萬個 dbSNP 第 156 版本中未知的新變異。
- 它是可用的最完整的變異集合之一荆萤,提供了 12 個主要人群的等位基因和基因型頻率镊靴。
- 關(guān)于項目的信息和數(shù)據(jù)訪問可在 dbSNP(https://www.ncbi.nlm.nih.gov/snp/)和 ALFA(https://www.ncbi.nlm.nih.gov/snp/docs/gsr/alfa/)網(wǎng)站上找到。
- dbSNP 與 ALFA 結(jié)合使用增強(qiáng)了對遺傳多樣性的理解链韭,推動了針對常見變異和臨床突變的個性化醫(yī)學(xué)和疾病遺傳學(xué)的進(jìn)步偏竟。
ClinicalTrials.gov
臨床試驗(yàn).gov
Para_33
- ClinicalTrials.gov(https://clinicaltrials.gov/)于2000年啟動,是一個提供由贊助商或研究者提交的大約46萬個全球臨床研究項目的網(wǎng)站和在線數(shù)據(jù)庫敞峭,其中包括近6萬個研究項目的摘要結(jié)果踊谋。
- 自2019年10月以來,NLM一直在與利益相關(guān)者互動旋讹,并利用反饋來現(xiàn)代化ClinicalTrials.gov殖蚕,以便在一個更新的平臺上提供更好的用戶體驗(yàn),該平臺能夠適應(yīng)增長并提高效率沉迹。
- 2023年6月睦疫,NLM推出了現(xiàn)代化的ClinicalTrials.gov網(wǎng)站。
- 這個新設(shè)計包括簡單的網(wǎng)頁組件鞭呕,例如左側(cè)菜單和可展開的折疊面板蛤育,這些組件改善了導(dǎo)航并使信息易于查找。
- 此外琅拌,現(xiàn)代化的網(wǎng)站針對移動設(shè)備進(jìn)行了優(yōu)化缨伊。
- 現(xiàn)代化的網(wǎng)站取代了經(jīng)典版的ClinicalTrials.gov,后者將持續(xù)提供服務(wù)直至2024年进宝。
Para_34
- 2022年刻坊,NLM發(fā)布了Protocol Registration and Results System(PRS)測試版的初始版本,這是ClinicalTrials.gov的數(shù)據(jù)錄入和管理系統(tǒng)党晋。
- 2023年谭胚,對該測試版網(wǎng)站的發(fā)布包括了PRS中的所有Protocol Section模塊徐块。
- 這些模塊每個都包含了新的設(shè)計、改進(jìn)的導(dǎo)航以及更新的在線幫助和滑出抽屜式的幫助內(nèi)容灾而。
- 在PRS測試版中錄入的數(shù)據(jù)將同時保存在經(jīng)典版和測試版網(wǎng)站上胡控,而且在2023年晚些時候,用戶將能夠在現(xiàn)代化的PRS版本中提交他們的研究方案并獲得國家臨床試驗(yàn)編號旁趟。
Pathogen detection
病原體檢測
Para_35
- NCBI 病原體檢測項目(https://www.ncbi.nlm.nih.gov/pathogens/)通過整合從培養(yǎng)的細(xì)菌分離物獲得的病原體基因組序列昼激,并快速聚類和識別相關(guān)序列,幫助公共衛(wèi)生科學(xué)家調(diào)查疾病爆發(fā)锡搜。
- 研究者已成功利用該項目幫助揭示了一起因受污染蘑菇引發(fā)的國際性疫情橙困,并證明了它對減少美國食源性病原體導(dǎo)致的疾病和疾病負(fù)擔(dān)的重要貢獻(xiàn)。
- 截至2023年8月10日耕餐,超過158萬5千種病原體分離物凡傅,覆蓋80種細(xì)菌分類群和一種新興真菌病原體——耳念珠菌,正在被積極分析肠缔。
- 分析結(jié)果每天都在隔離株瀏覽器中提供(https://www.ncbi.nlm.nih.gov/pathogens/isolates)夏跷。
Para_36
- 這種接近實(shí)時更新的綜合性公共數(shù)據(jù)現(xiàn)在已成為美國及國際上許多細(xì)菌爆發(fā)檢測和分析工作的核心。
- 通過GenomeTrakr項目明未,F(xiàn)DA利用NCBI病原體檢測系統(tǒng)發(fā)起了1056項旨在保護(hù)消費(fèi)者免受食源性疾病侵害的行動(https://www.fda.gov/food/whole-genome-sequencing-wgs-program/genometrakr-network)槽华。
- 它還用于調(diào)查醫(yī)院內(nèi)的疫情爆發(fā);例如亚隅,哈佛醫(yī)學(xué)院和多個公共衛(wèi)生機(jī)構(gòu)的研究人員使用Pathogen Detection聚類信息來識別新生兒重癥監(jiān)護(hù)室患者中的隱匿性耐甲氧西林金黃色葡萄球菌(MRSA)疫情硼莽,并使用AMRFinderPlus結(jié)果來表征分離株的抗藥性和毒性基因。
- 更多關(guān)于NCBI病原體檢測資源如何促進(jìn)公共衛(wèi)生和研究的例子煮纵,請參見https://www.ncbi.nlm.nih.gov/pathogens/success_stories懂鸵。
Antimicrobial resistance
抗微生物耐藥性
Para_37
- 病原體檢測團(tuán)隊持續(xù)改進(jìn)并發(fā)布了抗菌素耐藥性(AMR)的更新資源(https://www.ncbi.nlm.nih.gov/pathogens/antimicrobial-resistance/)。
- 截至2023年8月發(fā)布,團(tuán)隊已整理了總計7827種蛋白質(zhì)(包括6757種AMR蛋白質(zhì)、252種應(yīng)激反應(yīng)蛋白質(zhì)和818種毒力蛋白質(zhì))撑教,以及1217個點(diǎn)突變和3818篇關(guān)于蛋白質(zhì)及點(diǎn)突變的出版物參考记罚。
- AMRFinderPlus軟件更新包括自動解析來自九種常用注釋工具和數(shù)據(jù)庫的輸出系馆,以及平均超過60%的處理速度提升。
- AMRFinderPlus也被納入其他科學(xué)家的工作流程;一個例子是它被包含在一個用于從全基因組測序數(shù)據(jù)中檢測AMR決定因素的ISO認(rèn)證管道中,其輸出經(jīng)過調(diào)整周崭,適用于臨床抗生素敏感性預(yù)測和公共衛(wèi)生微生物學(xué)報告。
Para_38
- 我們使用AMRFinderPlus(https://www.ncbi.nlm.nih.gov/pathogens/antimicrobial-resistance/AMRFinder/)分析Pathogen Detection Isolates Browser中的所有細(xì)菌分離株喳张,抗性基因续镇、應(yīng)激基因和毒力基因這三類基因均可在Isolates Browser中獲取。
- 目前超過152萬個分離株至少含有一個已識別的抗性基因销部,超過128萬個分離株至少含有一個已識別的應(yīng)激響應(yīng)基因摸航,超過92萬個分離株至少含有一個已識別的毒力基因制跟。
- 對于GenBank中有組裝序列的分離株子集,通過AMRFinderPlus識別出的超過2200萬個基因和點(diǎn)突變的詳細(xì)信息及序列可在微生物遺傳與基因組元件識別瀏覽器(MicroBIGG-E酱虎;https://www.ncbi.nlm.nih.gov/pathogens/microbigge)中獲取雨膨,這些基因和點(diǎn)突變來自超過110萬個組裝。
- 抗生素敏感性數(shù)據(jù)的抗菌譜模板可供使用读串,并與BioSample提交相關(guān)聯(lián)(https://www.ncbi.nlm.nih.gov/pathogens/submit-data/#ast)聊记,用戶提交的敏感性判斷顯示在超過23000個分離株的Isolates Browser中。
- Isolate Browser和MicroBIGG-E的數(shù)據(jù)也在Google Cloud Platform上提供爹土,包括MicroBIGG-E中所有2200萬個基因和點(diǎn)突變的contig和蛋白質(zhì)序列(https://www.ncbi.nlm.nih.gov/pathogens/docs/gcp)甥雕。
- 最近的一次NCBI網(wǎng)絡(luò)研討會展示了如何使用這些云資源(https://www.ncbi.nlm.nih.gov/pathogens/docs/ncbi_minute_230329)。
For further information
- 待補(bǔ)充
Data availability
Para_40
- 這些資源可以通過NCBI主頁https://www.ncbi.nlm.nih.gov訪問胀茵。
本文由mdnice多平臺發(fā)布