醫(yī)學領(lǐng)域大語言模型發(fā)展迅速。谷歌的Med-PaLM鸡号、升級版Med-PaLM 2转砖,在醫(yī)學問題回答上表現(xiàn)卓越。國內(nèi)醫(yī)聯(lián)推出的MedGPT基于Transformer架構(gòu)鲸伴,通過多輪問診提升診斷準確性府蔗,能覆蓋多種疾病,實現(xiàn)全流程智能化診療汞窗。這些模型不僅提升了醫(yī)療服務的效率與準確性姓赤,還展示了AI在醫(yī)學領(lǐng)域的巨大潛力。
一仲吏、引言
隨著大模型逐漸在AI世界占據(jù)主導不铆,更多人意識到數(shù)據(jù)的重要性,甚至有業(yè)內(nèi)人士稱其為人工智能的“護城河”裹唆。以ChatGPT為例狂男,它雖然可以快速、多角度回答問題品腹,但在沒受過訓練的情況下岖食,無法很好地勝任健康咨詢的任務∥杩裕可是泡垃,在醫(yī)學領(lǐng)域析珊,大模型對數(shù)據(jù)的需求,往往可能會觸及到病人的隱私問題蔑穴、醫(yī)院的數(shù)據(jù)安全等忠寻。
2023年,一份發(fā)表在權(quán)威期刊上的試驗結(jié)果顯示存和,ChatGPT在根據(jù)現(xiàn)行臨床指南針對心血管疾病預防保健提出建議時奕剃,雖然有84%的回答是合理的,但是另外4個答案捐腿,不僅錯誤纵朋,而且有害,是嚴肅的臨床診療中絕對不允許出現(xiàn)的茄袖。在更多試驗中操软,還進一步發(fā)現(xiàn)了倫理、法律等方面的問題宪祥。
8月30日聂薪,國務院常務會議審議通過了《網(wǎng)絡數(shù)據(jù)安全管理條例(草案)》,明確提到“要厘清安全邊界蝗羊,保障數(shù)據(jù)依法有序自由流動”藏澳,為促進數(shù)字經(jīng)濟高質(zhì)量發(fā)展、推動科技創(chuàng)新和產(chǎn)業(yè)創(chuàng)新營造良好環(huán)境耀找。為了保障數(shù)據(jù)的安全笆载,維護醫(yī)療領(lǐng)域的邊界,我們不僅要在源頭掐滅數(shù)據(jù)泄露的風險涯呻,還要對數(shù)據(jù)傳輸?shù)倪^程中進行內(nèi)容審核凉驻。
二、用技術(shù)檢測風險內(nèi)容
百度作為國內(nèi)最早研究 AI模型安全性問題的公司之一复罐,其內(nèi)容審核平臺以視覺計算涝登、NLP、ASR效诅、OCR等技術(shù)為底座胀滚,能對用戶上傳、發(fā)布或共享的內(nèi)容進行內(nèi)容風險安全審查乱投,提示企業(yè)對不合規(guī)咽笼、疑似的內(nèi)容進行重點關(guān)注。
1戚炫、獨有的大模型能力
大模型能力是實現(xiàn)自動化剑刑、智能化、高效性和準確性的關(guān)鍵技術(shù)之一。內(nèi)容審核基于百度海量數(shù)據(jù)訓練優(yōu)化施掏,利用深度學習技術(shù)及算法迭代模型钮惠,識別準確率高,減少人工復查率七芭,能有效降低企業(yè)運營成本素挽。
測評發(fā)現(xiàn),百度云內(nèi)容審核的大模型能力主要包括以下幾個方面狸驳。通過對文本進行分類和識別预明,判斷其所屬的類別或標簽;對文本進行語義理解和分析耙箍,識別其中的關(guān)鍵詞撰糠、短語、句子的含義和上下文關(guān)系究西;對文本進行情感分析和判斷,識別其中的情感傾向物喷;對圖像進行識別和過濾卤材,判斷其中是否包含違規(guī)或不適宜的內(nèi)容。
2峦失、領(lǐng)先的審核能力
具備高并發(fā)扇丛、高吞吐、低時延等能力尉辑,且算法卓越帆精,識別速度業(yè)界領(lǐng)先,毫秒級響應隧魄,可應對各種實時性業(yè)務需求卓练。
審核維度豐富:緊跟監(jiān)管需求,實時同步政府指令购啄,提供業(yè)內(nèi)最豐富的審核維度襟企,其中圖像審核具備惡心圖、質(zhì)量檢測的獨家識別能力狮含。
審核粒度細膩:具備業(yè)界最豐富顽悼、全面的分類標簽體系,并且持續(xù)更新几迄∥盗可根據(jù)業(yè)務需求,自由組合標簽映胁,讓模型效果猶如“量身定制”木羹。
3、靈活配置
提供靈活的自定義配置功能解孙,內(nèi)設150+項細分審核模型標簽并且持續(xù)更新汇跨,界面化調(diào)整審核維度和松緊度务荆,5分鐘即可完成規(guī)則配置,高效適配多元化穷遂、細粒度業(yè)務場景的審核需求函匕。
更有意思的是,對于業(yè)務中小眾細分場景的模型需求蚪黑,如果通用審核模型還沒覆蓋到盅惜,百度云提供接入Easy-DL零門檻開發(fā)平臺,僅需少量數(shù)據(jù)簡單標注忌穿,最快15分鐘即可訓練對應模型抒寂。
策略配置:可根據(jù)業(yè)務場景,靈活選擇審核維度掠剑、細分標簽屈芜、以及對應的審核松緊度,貼合業(yè)務場景朴译。
數(shù)據(jù)統(tǒng)計:一頁概覽業(yè)務全貌井佑;可查看各個接口按照時間維度的調(diào)用趨勢,并可查看違規(guī)數(shù)據(jù)的類型分布及統(tǒng)計信息眠寿。
數(shù)據(jù)分析:可查看各個媒體類型的數(shù)據(jù)詳情躬翁;支持導出全量多維度Excel表格,便于后續(xù)業(yè)務分析盯拱。
4盒发、部署方式
內(nèi)容審核平臺支持公有云接入、私有化部署狡逢,公有云支持API和HTTP-SDK宁舰。企業(yè)無需自建平臺,可基于自身業(yè)務訴求奢浑,零門檻快速接入使用明吩,靈活選用智能機審平臺或人機協(xié)同審核平臺。
三殷费、用 API 接入內(nèi)容審核平臺
出于低代碼印荔、可視化、靈活配置等目的详羡,本節(jié)介紹怎么用API接入內(nèi)容審核平臺仍律。
1、創(chuàng)建應用
應用是調(diào)用 API 服務的基本操作單元实柠。
我們可以基于應用創(chuàng)建成功后獲取的 API Key 及 Secret Key水泉,進行接口調(diào)用操作,及相關(guān)配置。
填寫完畢后草则,即可點擊「立即創(chuàng)建」钢拧,完成應用的創(chuàng)建。點擊左側(cè)導航中的「應用列表」炕横,可以進行應用查看源内。
創(chuàng)建完畢應用后,平臺將會分配此應用的相關(guān)憑證份殿,主要為 AppID膜钓、API Key、Secret Key卿嘲。調(diào)用 API 接口時颂斜,可以使用這些憑證,進行 Access Token(用戶身份驗證和授權(quán)的憑證)的生成拾枣。
2沃疮、調(diào)用服務
調(diào)用 AI 服務相關(guān)的 API 接口有兩種方式,兩種不同的調(diào)用方式采用相同的接口URL梅肤。區(qū)別在于請求方式和鑒權(quán)方法不一樣司蔬,請求參數(shù)和返回結(jié)果一致。
調(diào)用方式一? 請求 URL 數(shù)據(jù)格式
向授權(quán)服務地址https://aip.baidubce.com/oauth/2.0/token發(fā)送請求(推薦使用POST)凭语。百度AI開放平臺使用OAuth2.0授權(quán)調(diào)用開放API葱她,調(diào)用API時必須在URL中帶上Access_token參數(shù)撩扒。Access_token是用戶的訪問令牌似扔,承載了用戶的身份、權(quán)限等信息搓谆。
grant_type: 必須參數(shù)炒辉,固定為client_credentials;
client_id: 必須參數(shù)泉手,應用的API Key黔寇;
client_secret: 必須參數(shù),應用的Secret Key斩萌;
獲取 Access_token 有三種方式:通過代碼的形式獲取缝裤,使用網(wǎng)頁調(diào)試工具獲取,在線調(diào)試工具颊郎。具體可參考Access Token獲取
POST 中參數(shù)按照 API 接口說明調(diào)用即可憋飞。
調(diào)用方式二? 請求頭域內(nèi)容
在請求的 HTTP 頭域中包含以下信息,API 認證機制 authorization 必須通過百度云的AK/SK 生成:
host(必填)
x-bce-date (必填)
x-bce-request-id(選填)
authorization(必填)
content-type(必填)
content-length(選填)
四姆吭、結(jié)語
在接下來生命科學領(lǐng)域的尖端探索中榛做,沒有AI輔助工具的醫(yī)生,很可能會遠遠落后于有AI輔助的醫(yī)生。醫(yī)療行業(yè)是一個強監(jiān)管的行業(yè)检眯,任何新技術(shù)進入其中都會受到慎重的評估厘擂。同樣,內(nèi)容安全性锰瘸、合規(guī)性對金融刽严、科技、傳媒等領(lǐng)域也至關(guān)重要获茬。
大模型的白熱化已經(jīng)無法逆轉(zhuǎn)港庄,在數(shù)據(jù)流通的過程中加強內(nèi)容審核,將是大勢所趨恕曲。