數(shù)據(jù)庫分享 | NCBI 關(guān)于 2023 年資源更新的最新報告

Basic Information

英文標(biāo)題： Database resources of the National Center for Biotechnology Information
中文標(biāo)題：國家生物技術(shù)信息中心的數(shù)據(jù)庫資源
發(fā)表日期：22 November 2023
文章類型：Na
所屬期刊：Nucleic Acids Research
文章作者：Eric W Sayers | Stephen T Sherry
文章鏈接：https://academic.oup.com/nar/article/52/D1/D33/7442534

Abstract

國家生物技術(shù)信息中心（NCBI）為生物學(xué)提供了在線信息資源，包括GenBank?核酸序列數(shù)據(jù)庫和PubMed?生命科學(xué)期刊出版物的引文及摘要數(shù)據(jù)庫闲勺。
NCBI為這些數(shù)據(jù)中的大部分提供了來自35個不同數(shù)據(jù)庫的搜索和檢索操作菜循。
E-utilities作為這些數(shù)據(jù)庫的主要編程接口债朵。
在過去一年中進(jìn)行了重大更新的資源包括PubMed、PMC粤咪、Bookshelf寥枝、SciENcv囊拜、美國國立衛(wèi)生研究院比較基因組資源（CGR）冠跷、NCBI病毒、SRA橄务、RefSeq蜂挪、外來污染篩選工具棠涮、分類學(xué)故爵、iCn3D劲室、ClinVar很洋、GTR喉磁、MedGen、dbSNP孕暇、ALFA妖滔、ClinicalTrials.gov座舍、病原體檢測曲秉、抗微生物耐藥性資源以及PubChem岸浑。
這些資源可以通過NCBI主頁https://www.ncbi.nlm.nih.gov進(jìn)行訪問矢洲。

Introduction

NCBI overview

NCBI 概覽

Para_01

國家生物技術(shù)信息中心（NCBI）是位于美國國立衛(wèi)生研究院（NIH）內(nèi)的國家醫(yī)學(xué)圖書館（NLM）的一個中心，成立于1988年袁滥，旨在為分子生物學(xué)開發(fā)信息系統(tǒng)揩徊。
本文首先簡要概述了NCBI的數(shù)據(jù)庫集合塑荒，隨后總結(jié)了我們在過去一年中進(jìn)行了重大更新的資源彼硫。
我們提供了更全面的NCBI資源介紹凌箕，可在各個數(shù)據(jù)庫的主頁以及NCBI手冊中找到（https://www.ncbi.nlm.nih.gov/books/NBK143764/）串绩。

NCBI databases

NCBI數(shù)據(jù)庫

Para_02

NCBI 維護(hù)著一組多樣化的 35 個數(shù)據(jù)庫赏参，這些數(shù)據(jù)庫合計包含 43 億條記錄（表 1 和圖 1），其中大部分可通過 Entrez 檢索系統(tǒng)獲取腰涧，網(wǎng)址為 https://www.ncbi.nlm.nih.gov/search/窖铡。
圖 2 以圖形方式表示了這些數(shù)據(jù)庫中的幾個费彼，并將它們分為三組：文獻(xiàn)箍铲、生物分子和臨床遺傳學(xué)颠猴。
下面將按此順序討論這些數(shù)據(jù)庫。
每個數(shù)據(jù)庫支持使用簡單的布爾查詢進(jìn)行文本搜索资盅，以多種格式下載數(shù)據(jù)振峻，并基于聲明的關(guān)系在數(shù)據(jù)庫之間鏈接記錄扣孟。
在 Entrez 中檢索到的記錄可以多種格式顯示凤价，并可單獨(dú)或批量下載利诺。
Entrez 功能的應(yīng)用編程接口（E-utilities）可供使用慢逾，并提供了詳細(xì)的文檔侣滩，網(wǎng)址為 https://eutils.ncbi.nlm.nih.gov/君珠。

Table 1. NCBI databases (as of 21 August 2023)

Database	Records	Description
Literature
PubMed	36,100,644	scientific and medical abstracts/citations
PubMed Central	9,268,952	full-text journal articles
NLM Catalog	1,634,653	index of NLM collections
Bookshelf	983,634	books and reports
MeSH	353,699	ontology used for PubMed indexing
DNA/RNA
Nucleotide	605,293,217	DNA and RNA sequences from GenBank and RefSeq
BioSample	34,796,756	descriptions of biological source materials
SRA	28,858,671	high-throughput DNA/RNA sequence read archive
Taxonomy	2,653,432	taxonomic classification and nomenclature catalog
Assembly	1,782,091	genome assembly information
BioProject	712,423	biological projects providing data to NCBI
Genome	79,671	genome sequencing projects by organism
BioCollections	8,497	museum, herbaria, and biorepository collections
Genes
GEO Profiles	128,414,055	gene expression and molecular abundance profiles
Gene	47,059,151	collected information about gene loci
GEO DataSets	6,874,686	functional genomics studies
PopSet	404,340	sequence sets from phylogenetic/population studies
HomoloGene	141,268	homologous gene sets for selected organisms
Proteins
Protein	1,194,803,871	protein sequences from GenBank and RefSeq
Identical Protein Groups	629,076,260	protein sequences grouped by identity
Protein Clusters	1,137,329	sequence similarity-based protein clusters
Structure	208,741	experimentally-determined biomolecular structures
Protein Family Models	166,131	conserved domain architectures, HMMs, and BlastRules
Conserved Domains	64,234	conserved protein domains
Chemicals
PubChem Substance	307,634,967	deposited substance and chemical information
PubChem Compound	115,669,131	chemical information with structures, information, and links
PubChem BioAssay	1,626,630	bioactivity screening studies
PubChem Pathways	240,671	molecular pathways with links to genes, proteins, and chemicals
Clinical Genetics
dbSNP	1,121,739,543	short genetic variations
dbVar	7,749,330	genome structural variation studies
ClinVar	2,339,222	human variations of clinical significance
ClinicalTrials.gov	463,200	registry of clinical studies
MedGen	216,373	medical genetics literature and links
GTR	81,209	genetic testing registry
dbGaP	1,406	genotype/phenotype interaction studies

圖 1. 截至2023年8月21日唯竹，每個NCBI數(shù)據(jù)庫記錄數(shù)量的年增長率浸颓。

圖 2. 選自 NCBI 的數(shù)據(jù)庫和工具，根據(jù)文中討論被歸類為三大類別蒂秘。

Data sources and collaborations

數(shù)據(jù)來源與合作

Para_03

NCBI從三個來源接收數(shù)據(jù)：研究人員的直接提交姻僧，與國內(nèi)外數(shù)據(jù)提供者及研究聯(lián)盟的合作或協(xié)議撇贺，以及內(nèi)部的整理工作艘狭。
例如巢音，NCBI管理GenBank數(shù)據(jù)庫官撼，并作為國際核酸序列數(shù)據(jù)庫合作組織(INSDC)的合作伙伴，與歐洲分子生物學(xué)實(shí)驗(yàn)室-歐洲生物信息研究所(EMBL-EBI)的歐洲核苷酸檔案庫(ENA)和日本DNA數(shù)據(jù)銀行(DDBJ)合作巩踏。
有關(guān)直接提交過程的詳細(xì)信息可從NCBI提交頁面(https://www.ncbi.nlm.nih.gov/home/submit.shtml)和各資源主頁獲惹炅础（例如GenBank頁面，https://www.ncbi.nlm.nih.gov/genbank/）榛了。
關(guān)于各種合作霜大、協(xié)議和整理工作的更多信息也可通過各資源的主頁獲得曙强。

Literature updates

PubMed

PubMed

Para_04

PubMed 提供免費(fèi)在線訪問生物醫(yī)學(xué)文獻(xiàn)的引文和摘要碟嘴，并促進(jìn)了對 MEDLINE错沃、PubMed Central 和 Bookshelf 文獻(xiàn)資源的搜索枢析。
在過去的一年里，PubMed 添加了超過 140 萬條引文辐益，使數(shù)據(jù)庫在 2023 年的總引文數(shù)量增長到超過 3600 萬條智政。
現(xiàn)在，PubMed 在選定的搜索字段中提供了鄰近搜索功能（https://www.nlm.nih.gov/pubs/techbull/nd22/nd22_pubmed_proximity_search_available.html）牙瓢。
這個備受期待的功能支持搜索出現(xiàn)在彼此特定距離內(nèi)的術(shù)語，為在 PubMed 中搜索可能以多種方式表示的概念或捕捉短語的變化提供了一種強(qiáng)大的新方法（https://pubmed.ncbi.nlm.nih.gov/help/#proximity-searching）间校。
例如矾克，對于 '配給醫(yī)療保健' 的鄰近搜索也可以捕捉到諸如醫(yī)療保健配給、醫(yī)療保健的配給憔足、醫(yī)療保健中的配給胁附、普遍醫(yī)療保健的配給策略、有限醫(yī)療保健的配給等變化，而無需單獨(dú)搜索這些短語弓候。
此外邦蜜，PubMed E-utilities API 已更新為使用支持 PubMed 網(wǎng)頁界面相同的技術(shù)棧（https://ncbiinsights.ncbi.nlm.nih.gov/2022/11/22/updated-pubmed-eutilities-live/）毕籽。
這次更新使 PubMed E-utilities API 的功能與網(wǎng)站保持一致，以提供一致的行為和搜索結(jié)果睡榆。

Para_05

我們的最佳匹配算法既反映了文章與查詢的相關(guān)性包雀，也考慮了用戶對文章類型的選擇偏好。
隨著用戶偏好的變化讹堤，該模型會進(jìn)行更新以適應(yīng)這些變化沾凄。
過去婴削，這些更新需要人工審核，因此更新頻率較低股缸。
現(xiàn)在，一個穩(wěn)健的自動化系統(tǒng)能夠判斷新模型是否可靠迷守，因此更新變得更加頻繁茵瘾。
我們還簡化了作者姓名識別過程圣絮，使得PubMed中的計算作者信息可以每周持續(xù)更新奸腺。

PubMed Central (PMC)

PubMed Central (PMC)

Para_06

PMC是NLM的免費(fèi)全文檔案庫，收錄了生物醫(yī)學(xué)和生命科學(xué)期刊文獻(xiàn)。
2023年陨舱，PMC檔案館的公開可用全文期刊文章蛮粮、作者手稿和預(yù)印本數(shù)量超過了900萬篇。
2023年令哟，PMC啟動了NIH預(yù)印本試點(diǎn)項目的第二階段，擴(kuò)大了試點(diǎn)項目的范圍，包括來自符合條件的預(yù)印本服務(wù)器的NIH資助研究產(chǎn)生的預(yù)印本甜滨。
作為NLM的一個項目，NIH預(yù)印本試點(diǎn)項目于2020年啟動，旨在探索增加NIH支持研究成果可見度的新方法，第一階段重點(diǎn)關(guān)注COVID-19及SARS-CoV-2病毒相關(guān)的NIH資助研究酌予。
截至2023年8月建椰，已有近13,000篇預(yù)印本記錄通過該試點(diǎn)項目被加入到PMC中啦逆，從而加速并擴(kuò)展了對NIH資助研究的發(fā)現(xiàn)盲镶。

Para_07

在2022年3月成功推出現(xiàn)代化PMC網(wǎng)站的基礎(chǔ)上枫吧，PMC發(fā)布了幾項改進(jìn)文章顯示的功能例隆，以支持用戶最需要的活動皿曲，這些改進(jìn)基于從用戶和利益相關(guān)者那里獲得的直接反饋和用戶研究。
這些更新包括改進(jìn)桌面和移動設(shè)備上引用信息的展示方式；一種簡便的方法可將文章直接添加到特定的My NCBI收藏夾；以及增強(qiáng)的"資源"部分，提供對類似文章、被引文章和NCBI其他數(shù)據(jù)庫中的相關(guān)數(shù)據(jù)記錄的便捷訪問。
（https://ncbiinsights.ncbi.nlm.nih.gov/2023/02/27/enhancements-pmc-website/）

Para_08

此外，PMC進(jìn)行了多項更新幅聘，以明確其作為數(shù)字檔案的角色葛超，并改進(jìn)PMC內(nèi)容的描述胖替、展示和分享方式好芭，服務(wù)于具有不同知識水平的廣大且多樣化的用戶群體邻薯，這些用戶對NLM、NIH以及學(xué)術(shù)出版流程了解程度不一。
這些背景信息更新包括在所有PMC文章頁面上顯著位置添加注釋，以闡明NLM與其在PMC中歸檔的文章之間的關(guān)系虱岂；更新默認(rèn)的社交媒體展示形式，當(dāng)從PMC分享文章時；以及在文檔頁面上新增的信息圖，展示了PMC中不同類型的內(nèi)容及其如何融入學(xué)術(shù)出版流程。
隨著美國及全球COVID-19公共衛(wèi)生緊急狀態(tài)聲明的到期，PMC將其COVID-19公共衛(wèi)生緊急倡議轉(zhuǎn)變?yōu)镻MC COVID-19集合，繼續(xù)致力于確保對超過50家出版商提交的超過35萬篇文章的永久訪問。
最后，在二月份，NLM擴(kuò)大了PMC的資格要求，考慮接受主要以西班牙語出版的非MEDLINE期刊的申請，這是朝著將PMC的范圍更緊密地與MEDLINE以及更廣泛的NLM收藏相一致邁出的第一步。

Bookshelf

書架

Para_09

NCBI Bookshelf 提供生命科學(xué)奢赂、醫(yī)療保健和醫(yī)學(xué)領(lǐng)域的全文書籍和文檔的免費(fèi)在線訪問轧钓。
在過去的一年里而柑，Bookshelf 添加了超過 1000 本書伟葫，使資料庫總數(shù)增長到超過 11 600 本渐溶，來自超過 150 家內(nèi)容提供商拖陆。
2023 年新增加的重要同行評審集合涉及毒理學(xué)店枣、健康差異、護(hù)理和公共衛(wèi)生等領(lǐng)域。
Bookshelf 還啟動了一個試點(diǎn)項目來收集開放教育資源 (OER)。
作為這個試點(diǎn)項目的一部分弱匪，首次添加的開放教科書是 Open RN 項目創(chuàng)建和更新的教科書（https://www.ncbi.nlm.nih.gov/books/NBK590025/）哑诊，該項目由奇皮瓦河谷技術(shù)學(xué)院領(lǐng)導(dǎo)暑劝，并部分由教育部資助。
為了幫助用戶更容易找到 Bookshelf 中所有可用的教科書和 OER 資源，目前大約有 150 本書稍浆，Bookshelf 為此系列添加了搜索過濾器，并在其網(wǎng)站上所有教科書頁面的底部添加了指向這些資源列表的鏈接。

SciENcv

SciENcv

Para_10

SciENcv（Science Experts Network Curriculum Vitae，網(wǎng)址：https://www.ncbi.nlm.nih.gov/sciencv）對于那些尋求來自聯(lián)邦組織如美國國立衛(wèi)生研究院、國家科學(xué)基金會和教育部教育科學(xué)研究所等機(jī)構(gòu)的聯(lián)邦研究資助的人來說是一個有用的資源闰挡。
通過將ORCID賬戶與SciENcv關(guān)聯(lián)起來夺脾，用戶可以享受到一系列的好處乙墙，包括在文檔中包含持久性標(biāo)識符汉买、從ORCID資料自動填充字段以及能夠無縫地將ORCID資料中的引用整合到個人簡介中出牧。
這樣能夠輕松地在個人簡介中加入來自O(shè)RCID資料的引用信息伯复。

Para_11

SciENcv最近進(jìn)行了針對用戶需求的界面增強(qiáng)丈积，包括諸如對必填項進(jìn)行錯誤驗(yàn)證、通過日歷實(shí)現(xiàn)用戶友好的日期輸入以及字符計數(shù)器確保遵守政策規(guī)定的文字限制等功能。
SciENcv將保持動態(tài)更新，以適應(yīng)聯(lián)邦機(jī)構(gòu)不斷變化的需求，這些機(jī)構(gòu)在尋求更全面的申請人信息的同時躯保，正朝著標(biāo)準(zhǔn)化申請表的方向發(fā)展。

Biomolecule updates

DNA/RNA

脫氧核糖核酸/核糖核酸

NIH comparative genomics resource

美國國立衛(wèi)生研究院比較基因組學(xué)資源

Para_12

美國國立衛(wèi)生研究院比較基因組資源庫（CGR）（https://www.ncbi.nlm.nih.gov/datasets/cgr/）通過最大化真核研究生物及其基因組數(shù)據(jù)對生物醫(yī)學(xué)研究的影響歌溉。
CGR通過社區(qū)合作和美國國立生物技術(shù)信息中心基因組工具包匙头，促進(jìn)所有真核生物可靠比較基因組學(xué)分析。
社區(qū)合作對于CGR的成功至關(guān)重要，因?yàn)樗_定了將更多與基因組相關(guān)的數(shù)據(jù)和元數(shù)據(jù)與美國國立生物技術(shù)信息中心的基因組工具包連接起來的機(jī)會借帘，并提供了有價值的反饋來推動進(jìn)一步的發(fā)展拾碌。
該工具包通過相互關(guān)聯(lián)的數(shù)據(jù)庫提供高質(zhì)量的基因組相關(guān)數(shù)據(jù)展融，這些數(shù)據(jù)庫具有接入點(diǎn)燕偶，可實(shí)現(xiàn)美國國立生物技術(shù)信息中心內(nèi)容和工具的無縫導(dǎo)航，還可以融入用戶的操作流程之中盗似。

Para_13

我們在過去一年中發(fā)布了或更新了該工具包的多個組件心赶。
其中包括一個新的實(shí)驗(yàn)性BLAST數(shù)據(jù)庫，該數(shù)據(jù)庫僅限于真核生物序列（nt_euk）曙搬，以及分別針對原核生物（nt_prok）诗箍、病毒（nt_viruses）和其他序列（nt_others）的數(shù)據(jù)庫匠童。
這些較小的數(shù)據(jù)庫下載時間更短竖独，減少了搜索時間格二，并將搜索集中到感興趣的序列上。
自2022年9月以來，我們向SPARCLE添加了超過4500個經(jīng)過整理和發(fā)布的域結(jié)構(gòu)（特定和超家族）椅贱，這些信息可在保守域搜索（CD-Search）結(jié)果和蛋白質(zhì)家族數(shù)據(jù)庫中獲取垮媒。
這些結(jié)構(gòu)提供了蛋白質(zhì)產(chǎn)物名稱和蛋白質(zhì)屬性奄薇，如基因本體（GO）術(shù)語沫屡、酶委員會（EC）編號、PubMed ID以及來自其他資源的ID，例如轉(zhuǎn)運(yùn)蛋白分類數(shù)據(jù)庫（TCDB）想鹰、MEROPS（肽酶數(shù)據(jù)庫）和CAZy（碳水化合物活性酶數(shù)據(jù)庫）。
這支持了更加準(zhǔn)確和全面的比較蛋白質(zhì)分析，并通過提高分類資源的互操作性使數(shù)據(jù)更加符合FAIR原則。

Para_14

我們以多種方式更新了真核基因組注釋管道（EGAP）廷区，這是另一個工具組件的更新敛瓷，這些改進(jìn)提高了注釋效果，并使生成的注釋集更加有用。
通過使用STAR和minimap2對齊器生成的對齊結(jié)果進(jìn)行額外過濾垫释，改善了串聯(lián)重復(fù)基因簇中的注釋曼尊，而實(shí)現(xiàn)方面的改進(jìn)提高了跨物種的對齊率肴裙。
此外宛乃，現(xiàn)在使用InterProScan為注釋的基因分配GO術(shù)語，相關(guān)數(shù)據(jù)可通過FTP和NCBI Gene獲取纺讲。
最后乡括，EGAP現(xiàn)在利用Subread featureCounts軟件計算每項RNA-Seq運(yùn)行以及每個基因的表達(dá)量哀蘑。

Para_15

比較基因組瀏覽器（CGV）(https://ncbi.nlm.nih.gov/genome/cgv/) 允許用戶基于兩個基因組之間的比對進(jìn)行視覺檢查，自2023年初以來，已增加了超過200種物種和375個比對的數(shù)據(jù)律罢，其中許多是哺乳動物間的跨物種例子。
除了國家生物技術(shù)信息中心（NCBI）生成的比對外阱高，這些新數(shù)據(jù)還包括加州大學(xué)圣克魯茲分腥Π担基因組研究所生成并在最小程度上由NCBI處理以便展示的比對野揪。
我們在工具中增加了一個點(diǎn)圖（二維）顯示功能殴边，以幫助檢測具有大范圍基因組重排區(qū)域，例如易位或片段重復(fù)放接。

Para_16

由于我們在CGR方面的工作捧韵，NCBI也在提供工具和分析以提高基因組序列質(zhì)量方面取得了重大進(jìn)展。
繼去年的測試版發(fā)布之后扳抽，現(xiàn)在可以下載一個穩(wěn)定的Foreign Contamination Screening (FCS)工具套件（https://github.com/ncbi/fcs），該套件能夠檢測組裝基因組中的接頭和跨物種污染，使基因組提交者能夠在提交前改進(jìn)他們的基因組質(zhì)量斜姥。
該工具支持對真核和原核生物基因組進(jìn)行篩選糕非。
基因組提交門戶已更新，使用快速且靈敏度更高的FCS-GX篩選方法浪箭，加快了流程，并有助于減少新提交基因組中的錯誤明也。
超過150萬個現(xiàn)有基因組的污染數(shù)據(jù)也可通過FTP獲任章辍（https://ftp.ncbi.nlm.nih.gov/genomes/TOOLS/FCS/reports/）瓢棒。
我們進(jìn)一步利用平均核苷酸同一性(ANI)分析來檢測原核生物基因組中的污染搀继。
我們使用FCS和ANI結(jié)果的組合，在NCBI的基因組資源中標(biāo)記某些真核和原核生物基因組為‘受污染’袁辈，并將它們排除在NCBI RefSeq集合之外。
更多匯總報告可在FTP上獲取（https://ftp.ncbi.nlm.nih.gov/genomes/ASSEMBLY_REPORTS/）措拇，包括帶有擴(kuò)展基因組和注釋統(tǒng)計信息的assembly_summary文件粘衬。
正在進(jìn)行的努力將進(jìn)一步揭示序列質(zhì)量信息屯阀，幫助用戶對其研究使用的數(shù)據(jù)做出明智決策苍凛。

NCBI virus

NCBI病毒

Para_17

NCBI病毒資源（https://www.ncbi.nlm.nih.gov/labs/virus/）作為一個用戶友好的平臺，用于搜索和獲取病毒基因組序列及標(biāo)準(zhǔn)化元數(shù)據(jù)往枷。
為了確保遺傳變異評估的一致性和準(zhǔn)確性导而，NCBI開發(fā)了一套分析流程（https://www.ncbi.nlm.nih.gov/sra/docs/sars-cov-2-variant-calling/）遥巴，旨在系統(tǒng)地識別存儲在序列讀取檔案（SRA）和GenBank倉庫中的超過1480萬個SARS-CoV-2序列樣本中的核苷酸和蛋白質(zhì)變化携栋。
作為NCBI病毒資源的一部分何之，SARS-CoV-2變異概覽儀表板（https://www.ncbi.nlm.nih.gov/activ）利用了來自NCBI SARS-CoV-2變異分析流程的見解舰褪。
最近進(jìn)行了改進(jìn)贝次，該儀表板現(xiàn)在提供了使用序列變異或遺傳譜系作為搜索參數(shù)來查詢SARS-CoV-2記錄的功能笋轨。
搜索后处渣，界面提供可查看的序列記錄和元數(shù)據(jù)，這些信息既可以在界面上查看钧嘶，也可以下載為文件。
SARS-CoV-2變異概覽還包括各國和美國各州的譜系地理位置和頻率以及定義譜系的突變的可視化掠抬。
該界面是在與美國國立衛(wèi)生研究院加速COVID-19治療干預(yù)和疫苗（ACTIV）追蹤抗藥性和冠狀病毒進(jìn)化（TRACE）倡議合作下開發(fā)的（https://www.nih.gov/research-training/medical-research-initiatives/activ/tracking-resistance-coronavirus-evolution-trace）嘀倒。

Sequence read archive (SRA)

序列讀取存檔 (SRA)

Para_18

NCBI 慶祝 SRA 數(shù)據(jù)上云三周年挨约，目前數(shù)據(jù)總量已超過 25 艾字節(jié)。
其中包括超過 2700 萬個公開的 SRA 文件刀诬，既有規(guī)范化格式也有精簡格式，以及相關(guān)元數(shù)據(jù)和 STAT 分析。
這些數(shù)據(jù)可在亞馬遜網(wǎng)絡(luò)服務(wù)開放數(shù)據(jù)項目和谷歌云平臺公共數(shù)據(jù)集項目中獲仍甓狻（https://www.ncbi.nlm.nih.gov/sra/docs/sra-cloud/）。
我們旨在通過提高識別和訪問的便利性來促進(jìn)艾字節(jié)級別的發(fā)現(xiàn)丁溅，這一目標(biāo)正在逐步實(shí)現(xiàn)。
利用 SRA 云端數(shù)據(jù)起意，Edgar 等人極大地擴(kuò)展了我們對病毒多樣性的認(rèn)識亡嫌。
公共衛(wèi)生領(lǐng)域的研究者正積極利用云端的 STAT 結(jié)果控淡，既監(jiān)測自己的提交數(shù)據(jù)者冤，也監(jiān)控如小兒麻痹癥和麻疹等疾病操灿。
Hodgins 等人指出斥扛，"傳統(tǒng)的基于同源性的搜索方法（例如 BLAST）無法應(yīng)用于如此大規(guī)模的數(shù)據(jù)"，他們通過使用‘谷歌的大查詢 API 在 2021 年 3 月 15 日搜索 NCBI-STAT 數(shù)據(jù)庫中與 tax_id = 1513 匹配的序列’，在宏基因組考古樣本中發(fā)現(xiàn)了古老的破傷風(fēng)梭菌相關(guān)序列霉颠。
通過參與 NIH ACTIV TRACE 項目，NCBI 提供了對原始源文件稚瘾、SRA 文件以及從這些文件生成的 VCF 文件的開放訪問，重點(diǎn)關(guān)注 SRA 數(shù)據(jù)中的 SARS-CoV-2 子集。
最后，這些公開數(shù)據(jù)激發(fā)了在最近的一次編程馬拉松活動中探索 VCF 文件用于群體遺傳學(xué)的可能性（https://ncbiinsights.ncbi.nlm.nih.gov/event/vcf-for-population-genomics-codeathon）。

RefSeq

RefSeq

Para_19

截至2023年8月11日，NCBI RefSeq收藏現(xiàn)在包括311,967個原核生物和1,735個真核生物基因組，這兩類基因組每年的增長率均為21%。
本期刊中有一篇單獨(dú)的文章描述了原核生物收藏的改進(jìn)。
在真核生物收藏中，現(xiàn)在已有1,056個物種的基因組使用NCBI的真核生物基因組注釋管道（EGAP）進(jìn)行了注釋，其中包括對人類疲恢、小鼠、大鼠和其他分類群的大量人工校正工作。
我們已經(jīng)修訂了新的EGAP注釋運(yùn)行的命名系統(tǒng)：這些名稱基于組裝存取號，并有一個日期后綴與注釋運(yùn)行相對應(yīng)，例如GCF_000001405.40-RS_2023_03表示2023年3月的人類GRCh38.p14注釋牲览。
這提高了報告組裝和注釋數(shù)據(jù)的清晰度载佳，并使數(shù)據(jù)更加FAIR（可發(fā)現(xiàn)、可訪問、可交互操作和可重用）甜熔。
RefSeq對人類基因組的注釋顯著地融合了來自NCBI和EMBL-EBI的匹配注釋（MANE）數(shù)據(jù)集币叹。
最新的MANE發(fā)布版本（v1.2）包含了99.4%蛋白質(zhì)編碼基因的轉(zhuǎn)錄本，作為臨床變異報告的通用標(biāo)準(zhǔn)。
我們鼓勵采用MANE轉(zhuǎn)錄本來提高臨床報告的一致性蚯窥，簡化臨床解讀蠢笋，并促進(jìn)資源之間的數(shù)據(jù)比較和交換忍啸。
我們還增加了歷史人類RefSeq轉(zhuǎn)錄本的比對和注釋數(shù)據(jù)叉钥，以幫助臨床團(tuán)隊將遺留數(shù)據(jù)集遷移到GRCh38.p14參考基因組洞焙。
除了為人類GRCh38.p14和T2T-CHM13v2.0基因組提供的全面注釋外，我們現(xiàn)在還為其他基因組上的策劃基因提供注釋，如人類HPRC聯(lián)盟的基因組伍掀，作為泛基因組資源試點(diǎn)項目的組成部分收擦。

Para_20

人類和小鼠基因組注釋包括了RefSeq功能元件(RefSeqFEs)數(shù)量的巨大增長送淆，這些元件記錄了多樣且功能重要的非基因編碼元件谒出，如基因調(diào)控元件和其他已在文獻(xiàn)中實(shí)驗(yàn)驗(yàn)證的基因組區(qū)域呜象。
對于人類GRCh38.p14和T2T-CHM13v2.0的GCF_000001405.40-RS_2023_03和GCF_009914755.1-RS_2023_03注釋讲坎，自2022年對這些組裝體進(jìn)行注釋以來瞄勾，分別新增了超過78,000和66,000個新的RefSeqFE特征费奸。
對于GRCm39上的小鼠GCF_000001635.27-RS_2023_04注釋，自2020年最后一次小鼠注釋以來进陡，新增了超過3,900個新的RefSeqFE特征愿阐。
2023年的其他RefSeqFE改進(jìn)包括：為注釋特征提供的可提取細(xì)胞類型活動數(shù)據(jù)、下載文件中的額外字段以供數(shù)據(jù)挖掘趾疚、基因調(diào)控元件的附加目標(biāo)基因鏈接以及GRCh38.p14缨历、T2T-CHM13v2.0和GRCm39組裝體上RefSeqFE軌道中心的更新。
更多詳情糙麦，包括數(shù)據(jù)訪問選項辛孵，可在RefSeqFE網(wǎng)頁上找到（https://www.ncbi.nlm.nih.gov/refseq/functionalelements/）。
我們鼓勵使用這個快速增長的數(shù)據(jù)集作為實(shí)驗(yàn)驗(yàn)證的非基因編碼區(qū)域的參考資源赡磅。

Taxonomy

分類學(xué)

Para_21

NCBI 繼續(xù)維護(hù)原核生物模式菌株及其基因組魄缚，以支持 ANI 分析。
我們已經(jīng)在分類學(xué) FTP 站點(diǎn)（https://ftp.ncbi.nlm.nih.gov/pub/taxonomy/new_taxdump）引入了新的文件仆邓，用于列出以前在文獻(xiàn)和公共資源中錯誤地列出的排除類型（excludedfromtype.dmp）鲜滩。
我們也展示了 ANI 作為一種評估分類合并有效性的工具的實(shí)用性伴鳖。
當(dāng)兩個獨(dú)立描述的分類單元被識別為屬于同一物種時，它們會被合并徙硅，而后來描述的分類單元成為最初描述分類單元的異名榜聂。
因此，我們預(yù)計來自異名的組裝將顯示出較高的 ANI 值嗓蘑。
如果異名的基因組顯示較低的身份或較低的 ANI 值须肆，則可能表明所涉及的物種實(shí)際上是不同的，不應(yīng)該被合并桩皿。
我們收集了此類可能存在疑問的分類合并及其相關(guān)的 ANI 值（ftp.ncbi.nlm.nih.gov/genomes/ASSEMBLY_REPORTS/prokaryote_ANI_suspect_heterotypic_synonyms.txt）豌汇。
由于 ANI 過程依賴于高質(zhì)量的模式菌株基因組序列，因此在沒有這類數(shù)據(jù)的情況下泄隔，其潛力受到限制拒贱。
不幸的是，仍有許多物種沒有任何來自模式材料的基因組佛嬉，所以我們強(qiáng)烈鼓勵對這些物種進(jìn)行測序并將基因組提交（ftp.ncbi.nlm.nih.gov/genomes/ASSEMBLY_REPORTS/prokaryote_without_type_assembly.txt）逻澳。

Para_22

最終，我們完成了兩項備受矚目的名稱變更：細(xì)菌和古菌的新門名稱以及流感的二名法種名暖呕。
這些變更由《原核生物國際命名法規(guī)》(ICNP) 和《病毒分類與命名國際法規(guī)》(ICVCN) 制定的規(guī)則更改所觸發(fā)斜做。
我們在 NCBI Insights 博客文章中以及 FTP 站點(diǎn)上更詳細(xì)地描述了這些變更（https://ftp.ncbi.nih.gov/pub/taxonomy/Major_taxonomic_updates_2023.txt）。

Proteins

蛋白質(zhì)

iCn3D

iCn3D

Para_23

NCBI 跟蹤的大量蛋白質(zhì)序列可以映射到實(shí)驗(yàn)得出或計算預(yù)測的三維結(jié)構(gòu)湾揽。
我們繼續(xù)開發(fā)三維結(jié)構(gòu)查看器 iCn3D瓤逼，作為比較分析序列和結(jié)構(gòu)以及探索序列-結(jié)構(gòu)-功能關(guān)系的強(qiáng)大工具。
iCn3D 可以顯示實(shí)驗(yàn)確定的三維結(jié)構(gòu)以及預(yù)測的結(jié)構(gòu)库物，并從各種在線資源檢索三維坐標(biāo)集霸旗。
我們現(xiàn)在提供了從蛋白質(zhì) BLAST 搜索結(jié)果直接可視化的鏈接。
在 BLAST 結(jié)果的‘對齊’窗格中艳狐，對于每個我們可以鏈接到實(shí)驗(yàn)或預(yù)測結(jié)構(gòu)的序列定硝，在每個序列右側(cè)的‘相關(guān)信息’列表下會出現(xiàn)此類鏈接。
點(diǎn)擊該鏈接將在瀏覽器標(biāo)簽中打開 iCn3D毫目，顯示用戶查詢序列與結(jié)構(gòu)相關(guān)聯(lián)序列之間的對齊，以及三維結(jié)構(gòu)或模型诲侮。
iCn3D 將檢索模板結(jié)構(gòu)上的注釋镀虐，例如保守域足跡、功能位點(diǎn)和序列變異沟绪，并允許用戶將查詢-主體保守模式與這些注釋及詳細(xì)的三維構(gòu)象進(jìn)行比較刮便。
我們繼續(xù)頻繁更新 iCn3D，通常是對用戶的直接請求作出響應(yīng)绽慈。
更新記錄在 https://github.com/ncbi/icn3d/blob/master/CHANGELOG.md恨旱，并且可以在 https://www.ncbi.nlm.nih.gov/Structure/icn3d 訪問 iCn3D辈毯。

Chemicals

化學(xué)物質(zhì)

Para_24

過去一年里，作為NCBI的公共化學(xué)數(shù)據(jù)庫搜贤，PubChem擴(kuò)大了其數(shù)據(jù)內(nèi)容的范圍谆沃，現(xiàn)在提供了來自超過930個數(shù)據(jù)來源的超過1億1500萬種化合物的信息。
值得注意的是仪芒，來自FDA全球物質(zhì)注冊系統(tǒng)（GSRS）的數(shù)據(jù)被整合到PubChem中唁影，用于注釋化合物，這使得獲取受FDA監(jiān)管的化學(xué)品信息變得更加容易掂名。
同樣值得注意的是据沈，NLM于2022年12月停止了其化學(xué)信息資源ChemIDPlus和藥物信息門戶的服務(wù)，并且這些資源中的數(shù)據(jù)現(xiàn)在可以在PubChem中獲取饺蔑。
相關(guān)鏈接：https://www.nlm.nih.gov/pubs/techbull/ja22/ja22_pubchem.html锌介。

Para_25

去年里，我們對PubChem的網(wǎng)頁界面進(jìn)行了重大改動猾警，具體總結(jié)可在PubChem幫助網(wǎng)站上找到（https://pubchem.ncbi.nlm.nih.gov/docs/user-interface-updates-2023）掏湾。
一個值得注意的變化是引入了綜合文獻(xiàn)表格，該表格列出了關(guān)于特定化合物的所有論文肿嘲。
我們通過整合來自多種文獻(xiàn)數(shù)據(jù)源的信息來生成這個列表融击，包括期刊、出版商和數(shù)據(jù)庫雳窟。
綜合文獻(xiàn)表格使用戶可以在一個地方搜索尊浪、排序和下載數(shù)據(jù)。
我們還更新了PubChemRDF封救，這是一種采用資源描述框架（RDF拇涤；https://www.w3.org/RDF/）格式的機(jī)器可讀的PubChem數(shù)據(jù)。
增加了共現(xiàn)子域誉结，用于根據(jù)化學(xué)物質(zhì)鹅士、基因/蛋白質(zhì)和疾病在生物醫(yī)學(xué)文獻(xiàn)中的出現(xiàn)情況編碼它們之間的關(guān)系。
這一更新使得用戶能夠通過SPARQL查詢識別與給定命名實(shí)體一起被提及的化學(xué)物質(zhì)惩坑、基因/蛋白質(zhì)和疾病掉盅。

Clinical genetics updates

ClinVar

ClinVar

Para_26

ClinVar 是 NCBI 的人類遺傳變異存檔庫，這些變異已被分類用于疾病和藥物反應(yīng)以舒。
在過去的一年里趾痘，ClinVar 向數(shù)據(jù)庫新增了 78 萬條新變異記錄，這些記錄來源于 100 萬條新提交的數(shù)據(jù)蔓钟。
我們向 ClinVar 提交門戶增加了幾個功能永票，以便提交者更輕松地維護(hù)與其組織相關(guān)的信息。
‘編輯提交者組’和‘編輯人員’按鈕允許提交者輕松編輯關(guān)于其組織提交者的資料（即有權(quán)代表該組織提交的人）以及人員（即在 ClinVar 上該組織頁面公開列出的人）。
‘查看/添加斷言標(biāo)準(zhǔn)文件’按鈕使提交者能夠添加新的文件作為 ClinVar 提交的斷言標(biāo)準(zhǔn)侣集。
現(xiàn)在键俱，斷言標(biāo)準(zhǔn)文件獨(dú)立于變異提交進(jìn)行提交，這意味著提交者只需提供一次每個斷言標(biāo)準(zhǔn)文件世分，之后它將始終可用于未來的提交使用编振。

Para_27

ClinVar 團(tuán)隊還為體細(xì)胞變異分類開發(fā)了一個原型。
設(shè)計了新的字段來表示體細(xì)胞變異的臨床影響（治療罚攀、診斷或預(yù)后）以及其致癌性党觅，這與該變異的生殖細(xì)胞分類區(qū)分開來。
我們還開發(fā)了新的變異頁面和提交電子表格模板斋泄，并針對體細(xì)胞分類進(jìn)行了修改杯瞻，然后通過視頻訪談的方式與用戶進(jìn)行了測試。
我們利用這些訪談反饋對變異頁面和電子表格模板進(jìn)行了修改炫掐，并以此指導(dǎo)體細(xì)胞變異匯總的設(shè)計魁莉。
我們將 ClinVar XML 和提交電子表格模板預(yù)期更改的預(yù)覽發(fā)布到了 GitHub (https://github.com/ncbi/clinvar)，以幫助用戶和提交者為此項變更做好準(zhǔn)備募胃。
我們將在有可用信息時發(fā)布更多預(yù)覽旗唁，例如預(yù)期對 ClinVar VCF 文件的更新。

Genetic testing registry (GTR)

遺傳檢測登記庫（GTR）

Para_28

遺傳檢測注冊庫（GTR痹束，https://www.ncbi.nlm.nih.gov/gtr/）是美國國家生物技術(shù)信息中心（NCBI）的可訂購臨床和研究遺傳檢測以及分子和血清學(xué)檢測的數(shù)據(jù)庫检疫，用于傳染病。
GTR旨在通過提供遺傳檢測信息并為遺傳檢測領(lǐng)域帶來透明度來支持醫(yī)療保健提供者祷嘶。
截至2023年7月屎媳，GTR包含由來自48個國家的492個實(shí)驗(yàn)室提供的77,486項臨床檢測和233項研究檢測，其中包括279個美國實(shí)驗(yàn)室论巍。
在臨床檢測中烛谊，實(shí)驗(yàn)室已為2,237項檢測分配了現(xiàn)行程序術(shù)語（CPT?）代碼，并為519項檢測分配了LOINC?代碼嘉汰。
GTR包含74,973項分子檢測丹禀，其中近90%是單基因檢測，其余的是多基因面板鞋怀、外顯子組和全基因組檢測双泪。
次世代測序（NGS）是最常用的技術(shù)（占檢測的72%）。
GTR還包括細(xì)胞遺傳學(xué)檢測（2,563項檢測涉及1,314個獨(dú)特的染色體區(qū)域或線粒體）以及生物化學(xué)遺傳檢測（137項檢測測量111種蛋白質(zhì)接箫；209項檢測測量69種酶攒读；596項檢測測量2,346種分析物）

Para_29

在過去的一年里，GTR專注于改善數(shù)據(jù)提交者的提交體驗(yàn)辛友。
新功能包括重新設(shè)計的主頁，以實(shí)現(xiàn)更直觀的提交體驗(yàn)。
新的頁面提供了快速訪問小組功能的方式废累，提交者可以管理實(shí)驗(yàn)室工作人員的權(quán)限邓梅，這些人員可以代表實(shí)驗(yàn)室提交數(shù)據(jù)，并且可以一鍵下載所有臨床測試數(shù)據(jù)邑滨。
一個新的測試提交頁面允許提交者添加新的測試日缨、下載Excel模板、上傳電子表格以及跟蹤API提交掖看。
我們還改進(jìn)了GTR提交網(wǎng)站內(nèi)的導(dǎo)航匣距，使其更容易在主頁、實(shí)驗(yàn)室記錄哎壳、測試管理工具和測試提交頁面之間切換毅待。
測試管理工具提供了幾個好處：它改進(jìn)了搜索和選擇需要更新或刪除的測試的方式，使提交者能更輕松地追蹤和更新測試數(shù)據(jù)归榕，并為提交者提供了一種方式來下載選定數(shù)量的測試數(shù)據(jù)尸红。
一個新的功能允許提交者同時為多個臨床測試更新一組數(shù)據(jù)字段。
最后刹泄，提交者可以使用一個提交API外里，該API支持完全自動化的測試記錄提交。

MedGen

MedGen

Para_30

MedGen 是 NCBI 的面向具有遺傳成分疾病的臨床信息門戶特石。
其目標(biāo)是支持臨床遺傳學(xué)在醫(yī)學(xué)實(shí)踐中的整合盅蝗。
為了實(shí)現(xiàn)這一目標(biāo)，MedGen 提供了一個關(guān)于遺傳表型信息的在線門戶姆蘸，并從社區(qū)權(quán)威來源協(xié)調(diào)臨床遺傳學(xué)信息墩莫。
MedGen 還作為 ClinVar 和 GTR 的表型基礎(chǔ)。
MedGen 致力于提供對適用于臨床護(hù)理的遺傳學(xué)知識庫的訪問乞旦，以便這些數(shù)據(jù)在護(hù)理點(diǎn)有用贼穆，同時也有助于計算互操作性的發(fā)展。

Para_31

MedGen是推動遺傳表型數(shù)據(jù)標(biāo)準(zhǔn)化社區(qū)中的關(guān)鍵參與者兰粉。
它匯集并協(xié)調(diào)來自權(quán)威來源的人類疾病名稱和屬性故痊，包括NLM內(nèi)的UMLS、OMIM玖姑、Mondo愕秫、HPO、Orphanet（https://orpha.net）焰络、向GTR提交檢測描述的檢測實(shí)驗(yàn)室戴甩，以及向ClinVar提交變異解釋信息的組織。
術(shù)語可用作平面文件（如OMIM）或本體（如Mondo闪彼、HPO）甜孤，MedGen對它們進(jìn)行不同處理协饲，以便以易于使用的格式在其網(wǎng)站上呈現(xiàn)給GTR和ClinVar用戶，并在FTP站點(diǎn)上的報告中供外部組織使用缴川。
當(dāng)需要記錄來支持GTR和ClinVar提交茉稠，而權(quán)威資源中沒有此類記錄時，MedGen會創(chuàng)建新記錄把夸，并每月向UMLS發(fā)送報告以供審核而线。
例如，MedGen通過使用通用藥品名稱和響應(yīng)一詞創(chuàng)建記錄恋日，來表示個體基于其基因型對藥物可能產(chǎn)生的反應(yīng)膀篮，即‘藥物反應(yīng)’。
在處理多個來源的數(shù)據(jù)時岂膳，有時會發(fā)現(xiàn)不一致之處誓竿，MedGen的策展人會審查問題，并找到解決方案或?qū)栴}報告給來源方闷营，從而使整個社區(qū)從數(shù)據(jù)標(biāo)準(zhǔn)化中受益烤黍。
MedGen可能需要拆分記錄、合并多個記錄或創(chuàng)建新記錄傻盟。
一些審查需要來自數(shù)據(jù)源和其他社區(qū)利益相關(guān)者的輸入速蕊。
一個常見的數(shù)據(jù)沖突是測試實(shí)驗(yàn)室與數(shù)據(jù)來源之間所需的概念粒度不同，這促使了策展審查娘赴。
其他例子包括表示臨床表現(xiàn)與特定遺傳亞型之間的區(qū)別规哲、有沖突的同義詞（如癌癥和肉瘤）、使用諸如‘基因相關(guān)障礙’之類的術(shù)語指代多種不同的表型诽表，以及使用寬泛的概念描述多種不同的表型唉锌。
MedGen員工與社區(qū)合作，并提供數(shù)據(jù)不一致性的報告竿奏，以將來自多個來源的疾病概念映射統(tǒng)一到一個具體袄简、統(tǒng)一的記錄上，這個記錄可用于臨床醫(yī)生泛啸、臨床實(shí)驗(yàn)室绿语、研究人員和數(shù)據(jù)來源方。

dbSNP and ALFA

dbSNP 和 ALFA

Para_32

為了紀(jì)念 dbSNP 成立 25 周年候址，2023 年 dbSNP 發(fā)布了第 156 版本和 ALFA 第 3 版本吕粹，這是一個重要的里程碑，擁有超過 10 億條帶有等位基因頻率的 RefSNP（rs）記錄岗仑。
dbSNP 第 156 版本整合了來自數(shù)千個來源的數(shù)據(jù)匹耕，包括大規(guī)模人群研究，如 1000Genomes荠雕、TOPMed稳其、gnomAD 和 NCBI ALFA 第 3 版本驶赏。
dbSNP 第 156 版本提供了人群頻率、分子見解欢际、ClinVar 臨床解讀母市、出版物和專注于人類單核苷酸變異矾兜、插入和缺失的基因組映射损趋。
此外，NCBI ALFA 第 3 版本（版本 20230706150541）的發(fā)布代表了一個重大成就椅寺，因?yàn)樗藖碜猿^ 20 萬個人的全球人群數(shù)據(jù)浑槽。
ALFA 第 3 版本通過添加基因型頻率數(shù)據(jù)和哈迪-溫伯格平衡概率改進(jìn)了早期版本的變異分析。
此次發(fā)布匯總了驚人的 5.8 兆總基因型返帕，產(chǎn)生了 9.047 億種獨(dú)特變異桐玻，其中包括 55.4 萬個 dbSNP 第 156 版本中未知的新變異。
它是可用的最完整的變異集合之一荆萤，提供了 12 個主要人群的等位基因和基因型頻率镊靴。
關(guān)于項目的信息和數(shù)據(jù)訪問可在 dbSNP（https://www.ncbi.nlm.nih.gov/snp/）和 ALFA（https://www.ncbi.nlm.nih.gov/snp/docs/gsr/alfa/）網(wǎng)站上找到。
dbSNP 與 ALFA 結(jié)合使用增強(qiáng)了對遺傳多樣性的理解链韭，推動了針對常見變異和臨床突變的個性化醫(yī)學(xué)和疾病遺傳學(xué)的進(jìn)步偏竟。

ClinicalTrials.gov

臨床試驗(yàn).gov

Para_33

ClinicalTrials.gov（https://clinicaltrials.gov/）于2000年啟動，是一個提供由贊助商或研究者提交的大約46萬個全球臨床研究項目的網(wǎng)站和在線數(shù)據(jù)庫敞峭，其中包括近6萬個研究項目的摘要結(jié)果踊谋。
自2019年10月以來，NLM一直在與利益相關(guān)者互動旋讹，并利用反饋來現(xiàn)代化ClinicalTrials.gov殖蚕，以便在一個更新的平臺上提供更好的用戶體驗(yàn)，該平臺能夠適應(yīng)增長并提高效率沉迹。
2023年6月睦疫，NLM推出了現(xiàn)代化的ClinicalTrials.gov網(wǎng)站。
這個新設(shè)計包括簡單的網(wǎng)頁組件鞭呕，例如左側(cè)菜單和可展開的折疊面板蛤育，這些組件改善了導(dǎo)航并使信息易于查找。
此外琅拌，現(xiàn)代化的網(wǎng)站針對移動設(shè)備進(jìn)行了優(yōu)化缨伊。
現(xiàn)代化的網(wǎng)站取代了經(jīng)典版的ClinicalTrials.gov，后者將持續(xù)提供服務(wù)直至2024年进宝。

Para_34

2022年刻坊，NLM發(fā)布了Protocol Registration and Results System（PRS）測試版的初始版本，這是ClinicalTrials.gov的數(shù)據(jù)錄入和管理系統(tǒng)党晋。
2023年谭胚，對該測試版網(wǎng)站的發(fā)布包括了PRS中的所有Protocol Section模塊徐块。
這些模塊每個都包含了新的設(shè)計、改進(jìn)的導(dǎo)航以及更新的在線幫助和滑出抽屜式的幫助內(nèi)容灾而。
在PRS測試版中錄入的數(shù)據(jù)將同時保存在經(jīng)典版和測試版網(wǎng)站上胡控，而且在2023年晚些時候，用戶將能夠在現(xiàn)代化的PRS版本中提交他們的研究方案并獲得國家臨床試驗(yàn)編號旁趟。

Pathogen detection

病原體檢測

Para_35

NCBI 病原體檢測項目（https://www.ncbi.nlm.nih.gov/pathogens/）通過整合從培養(yǎng)的細(xì)菌分離物獲得的病原體基因組序列昼激，并快速聚類和識別相關(guān)序列，幫助公共衛(wèi)生科學(xué)家調(diào)查疾病爆發(fā)锡搜。
研究者已成功利用該項目幫助揭示了一起因受污染蘑菇引發(fā)的國際性疫情橙困，并證明了它對減少美國食源性病原體導(dǎo)致的疾病和疾病負(fù)擔(dān)的重要貢獻(xiàn)。
截至2023年8月10日耕餐，超過158萬5千種病原體分離物凡傅，覆蓋80種細(xì)菌分類群和一種新興真菌病原體——耳念珠菌，正在被積極分析肠缔。
分析結(jié)果每天都在隔離株瀏覽器中提供（https://www.ncbi.nlm.nih.gov/pathogens/isolates）夏跷。

Para_36

這種接近實(shí)時更新的綜合性公共數(shù)據(jù)現(xiàn)在已成為美國及國際上許多細(xì)菌爆發(fā)檢測和分析工作的核心。
通過GenomeTrakr項目明未，F(xiàn)DA利用NCBI病原體檢測系統(tǒng)發(fā)起了1056項旨在保護(hù)消費(fèi)者免受食源性疾病侵害的行動（https://www.fda.gov/food/whole-genome-sequencing-wgs-program/genometrakr-network）槽华。
它還用于調(diào)查醫(yī)院內(nèi)的疫情爆發(fā)；例如亚隅，哈佛醫(yī)學(xué)院和多個公共衛(wèi)生機(jī)構(gòu)的研究人員使用Pathogen Detection聚類信息來識別新生兒重癥監(jiān)護(hù)室患者中的隱匿性耐甲氧西林金黃色葡萄球菌（MRSA）疫情硼莽，并使用AMRFinderPlus結(jié)果來表征分離株的抗藥性和毒性基因。
更多關(guān)于NCBI病原體檢測資源如何促進(jìn)公共衛(wèi)生和研究的例子煮纵，請參見https://www.ncbi.nlm.nih.gov/pathogens/success_stories懂鸵。

Antimicrobial resistance

抗微生物耐藥性

Para_37

病原體檢測團(tuán)隊持續(xù)改進(jìn)并發(fā)布了抗菌素耐藥性（AMR）的更新資源（https://www.ncbi.nlm.nih.gov/pathogens/antimicrobial-resistance/）。
截至2023年8月發(fā)布，團(tuán)隊已整理了總計7827種蛋白質(zhì)（包括6757種AMR蛋白質(zhì)、252種應(yīng)激反應(yīng)蛋白質(zhì)和818種毒力蛋白質(zhì)）撑教，以及1217個點(diǎn)突變和3818篇關(guān)于蛋白質(zhì)及點(diǎn)突變的出版物參考记罚。
AMRFinderPlus軟件更新包括自動解析來自九種常用注釋工具和數(shù)據(jù)庫的輸出系馆，以及平均超過60%的處理速度提升。
AMRFinderPlus也被納入其他科學(xué)家的工作流程；一個例子是它被包含在一個用于從全基因組測序數(shù)據(jù)中檢測AMR決定因素的ISO認(rèn)證管道中，其輸出經(jīng)過調(diào)整周崭，適用于臨床抗生素敏感性預(yù)測和公共衛(wèi)生微生物學(xué)報告。

Para_38

我們使用AMRFinderPlus（https://www.ncbi.nlm.nih.gov/pathogens/antimicrobial-resistance/AMRFinder/）分析Pathogen Detection Isolates Browser中的所有細(xì)菌分離株喳张，抗性基因续镇、應(yīng)激基因和毒力基因這三類基因均可在Isolates Browser中獲取。
目前超過152萬個分離株至少含有一個已識別的抗性基因销部，超過128萬個分離株至少含有一個已識別的應(yīng)激響應(yīng)基因摸航，超過92萬個分離株至少含有一個已識別的毒力基因制跟。
對于GenBank中有組裝序列的分離株子集，通過AMRFinderPlus識別出的超過2200萬個基因和點(diǎn)突變的詳細(xì)信息及序列可在微生物遺傳與基因組元件識別瀏覽器（MicroBIGG-E酱虎；https://www.ncbi.nlm.nih.gov/pathogens/microbigge）中獲取雨膨，這些基因和點(diǎn)突變來自超過110萬個組裝。
抗生素敏感性數(shù)據(jù)的抗菌譜模板可供使用读串，并與BioSample提交相關(guān)聯(lián)（https://www.ncbi.nlm.nih.gov/pathogens/submit-data/#ast）聊记，用戶提交的敏感性判斷顯示在超過23000個分離株的Isolates Browser中。
Isolate Browser和MicroBIGG-E的數(shù)據(jù)也在Google Cloud Platform上提供爹土，包括MicroBIGG-E中所有2200萬個基因和點(diǎn)突變的contig和蛋白質(zhì)序列（https://www.ncbi.nlm.nih.gov/pathogens/docs/gcp）甥雕。
最近的一次NCBI網(wǎng)絡(luò)研討會展示了如何使用這些云資源（https://www.ncbi.nlm.nih.gov/pathogens/docs/ncbi_minute_230329）。

For further information

待補(bǔ)充

Data availability

Para_40

這些資源可以通過NCBI主頁https://www.ncbi.nlm.nih.gov訪問胀茵。

本文由mdnice多平臺發(fā)布

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市挟阻，隨后出現(xiàn)的幾起案子琼娘，更是在濱河造成了極大的恐慌，老刑警劉巖附鸽，帶你破解...
沈念sama閱讀 206,013評論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件脱拼，死亡現(xiàn)場離奇詭異，居然都是意外死亡坷备，警方通過查閱死者的電腦和手機(jī)熄浓，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,205評論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來省撑，“玉大人赌蔑，你說我怎么就攤上這事【癸” “怎么了娃惯？”我有些...
開封第一講書人閱讀 152,370評論 0贊 342
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長肥败。經(jīng)常有香客問我趾浅，道長，這世上最難降的妖魔是什么馒稍？我笑而不...
開封第一講書人閱讀 55,168評論 1贊 278
?港島之戀（遺憾婚禮）
正文為了忘掉前任皿哨，我火速辦了婚禮，結(jié)果婚禮上纽谒，老公的妹妹穿的比我還像新娘证膨。我一直安慰自己，他們只是感情好佛舱，可當(dāng)我...
茶點(diǎn)故事閱讀 64,153評論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布椎例。她就那樣靜靜地躺著挨决，像睡著了一般。火紅的嫁衣襯著肌膚如雪订歪。梳的紋絲不亂的頭發(fā)上脖祈，一...
開封第一講書人閱讀 48,954評論 1贊 283
城市分裂傳說
那天，我揣著相機(jī)與錄音刷晋，去河邊找鬼盖高。笑死，一個胖子當(dāng)著我的面吹牛眼虱，可吹牛的內(nèi)容都是我干的喻奥。我是一名探鬼主播，決...
沈念sama閱讀 38,271評論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼捏悬，長吁一口氣：“原來是場噩夢啊……” “哼撞蚕！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起过牙，我...
開封第一講書人閱讀 36,916評論 0贊 259
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤甥厦，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后寇钉，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體刀疙，經(jīng)...
沈念sama閱讀 43,382評論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 35,877評論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年扫倡，在試婚紗的時候發(fā)現(xiàn)自己被綠了谦秧。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 37,989評論 1贊 333
活死人
序言：一個原本活蹦亂跳的男人離奇死亡撵溃，死狀恐怖疚鲤，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情征懈，我是刑警寧澤石咬，帶...
沈念sama閱讀 33,624評論 4贊 322
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站卖哎，受9級特大地震影響鬼悠，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜亏娜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,209評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一焕窝、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧维贺，春花似錦它掂、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,199評論 0贊 19
一樁弒父案虐秋，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽榕茧。三九已至，卻和暖如春客给，著一層夾襖步出監(jiān)牢的瞬間用押，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 31,418評論 1贊 260
情欲美人皮
我被黑心中介騙來泰國打工靶剑，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留蜻拨，地道東北人。一個月前我還...
沈念sama閱讀 45,401評論 2贊 352
代替公主和親
正文我出身青樓桩引，卻偏偏與公主長得像缎讼，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子坑匠，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,700評論 2贊 345

數(shù)據(jù)庫分享 | NCBI 關(guān)于 2023 年資源更新的最新報告

Basic Information

Abstract

Introduction

NCBI overview

Para_01

NCBI databases

Para_02

Data sources and collaborations

Para_03

Literature updates

PubMed

Para_04

Para_05

PubMed Central (PMC)

Para_06

Para_07

Para_08

Bookshelf

Para_09

SciENcv

Para_10

Para_11

Biomolecule updates

DNA/RNA

NIH comparative genomics resource

Para_12

Para_13

Para_14

Para_15

Para_16

NCBI virus

Para_17

Sequence read archive (SRA)

Para_18

RefSeq

Para_19

Para_20

Taxonomy

Para_21

Para_22

Proteins

iCn3D

Para_23

Chemicals

Para_24

Para_25

Clinical genetics updates

ClinVar

Para_26

Para_27

Genetic testing registry (GTR)

Para_28

Para_29

MedGen

Para_30

Para_31

dbSNP and ALFA

Para_32

ClinicalTrials.gov

Para_33

Para_34

Pathogen detection

Para_35

Para_36

Antimicrobial resistance

Para_37

Para_38

For further information

Data availability

Para_40

推薦閱讀更多精彩內(nèi)容