一探Lepton Search究竟

2024年1月25日,阿里巴巴原技術(shù)副總裁在 Twitter 上稱用不到 500 行 Python 代碼實現(xiàn)了 AI 對話搜索引擎拢锹,并在27日附上了開源地址:https://github.com/leptonai/search_with_lepton鸯屿,截止春節(jié)期間已經(jīng)5.8K的Star程梦。

Twitter截圖

Commits

界面

Lepton Search 具備的特性

1.Built-in support for LLM

Lepton Search 集成了大型語言模型鳄厌,這意味著它能夠利用這些先進的AI技術(shù)來理解和處理復(fù)雜的查詢,為用戶提供更加準(zhǔn)確和深入的答案茫经。

常見的大語言模型:

GPT-3(OpenAI): Generative Pre-trained Transformer 3(GPT-3)是最著名的LLM之一,擁有1750億個參數(shù)萎津。該模型在文本生成卸伞、翻譯和其他任務(wù)中表現(xiàn)出顯著的性能,在全球范圍內(nèi)引起了熱烈的反響姜性,目前OpenAI已經(jīng)迭代到了GPT-4版本瞪慧。

BERT(谷歌):Bidirectional Encoder Representations from Transformers(BERT)是另一個流行的LLM,對NLP研究產(chǎn)生了重大影響部念。該模型使用雙向方法從一個詞的左右兩邊捕捉上下文弃酌,使得各種任務(wù)的性能提高,如情感分析和命名實體識別儡炼。

T5(谷歌): 文本到文本轉(zhuǎn)換器(T5)是一個LLM妓湘,該模型將所有的NLP任務(wù)限定為文本到文本問題,簡化了模型適應(yīng)不同任務(wù)的過程乌询。T5在總結(jié)榜贴、翻譯和問題回答等任務(wù)中表現(xiàn)出強大的性能。

ERNIE 3.0 文心大模型(百度):百度推出的大語言模型ERNIE 3.0首次在百億級和千億級預(yù)訓(xùn)練模型中引入大規(guī)模知識圖譜妹田,提出了海量無監(jiān)督文本與大規(guī)模知識圖譜的平行預(yù)訓(xùn)練方法唬党。

2.Built-in support for search engine

Lepton Searc內(nèi)置了強大的搜索引擎功能,能夠快速檢索互聯(lián)網(wǎng)上的海量信息鬼佣,確保用戶能夠找到最相關(guān)和最新的數(shù)據(jù)驶拱。

3.Customizable pretty UI interface

Lepton Search 提供了一個高度可定制的用戶界面,用戶可以根據(jù)自己的喜好和需求調(diào)整界面布局晶衷、顏色主題和功能模塊蓝纲,打造個性化的搜索體驗。

4.Shareable, cached search results

Lepton Search 允許用戶將搜索結(jié)果進行分享晌纫,無論是通過社交媒體還是其他平臺税迷,都能輕松實現(xiàn)。同時锹漱,它還提供了緩存功能箭养,用戶可以保存搜索結(jié)果,以便日后查閱凌蔬,無需重復(fù)搜索露懒,大大提高了效率闯冷。

源碼解析

代碼目錄

我們來分析search_with_lepton.py主文件,其中懈词,第1~22行導(dǎo)入必要的包蛇耀。



其中24~94行定義一些常量,注釋比較詳細坎弯。



其中97~289行實現(xiàn)了各種API調(diào)用纺涤,比如Google、Bing抠忘。

返回JSON列表:

其中291~639行定義了一個RAG類撩炊,實現(xiàn)了如何使用Lepton AI來實現(xiàn)一個AI搜索引擎,先搜索文檔崎脉,再讓LLM結(jié)合文檔給出回復(fù)拧咳,最后還會使用LeptonAI的KV將用戶一次查詢中產(chǎn)生的各種數(shù)據(jù)(查詢,回復(fù)囚灼,文檔骆膝,相關(guān)問題)存儲下來。



最后642~644行就是執(zhí)行主函數(shù)灶体,創(chuàng)建rag對象并運行阅签。
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市蝎抽,隨后出現(xiàn)的幾起案子政钟,更是在濱河造成了極大的恐慌,老刑警劉巖樟结,帶你破解...
    沈念sama閱讀 219,490評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件养交,死亡現(xiàn)場離奇詭異,居然都是意外死亡瓢宦,警方通過查閱死者的電腦和手機层坠,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,581評論 3 395
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來刁笙,“玉大人,你說我怎么就攤上這事谦趣∑N” “怎么了?”我有些...
    開封第一講書人閱讀 165,830評論 0 356
  • 文/不壞的土叔 我叫張陵前鹅,是天一觀的道長摘悴。 經(jīng)常有香客問我,道長舰绘,這世上最難降的妖魔是什么蹂喻? 我笑而不...
    開封第一講書人閱讀 58,957評論 1 295
  • 正文 為了忘掉前任葱椭,我火速辦了婚禮,結(jié)果婚禮上口四,老公的妹妹穿的比我還像新娘孵运。我一直安慰自己,他們只是感情好蔓彩,可當(dāng)我...
    茶點故事閱讀 67,974評論 6 393
  • 文/花漫 我一把揭開白布治笨。 她就那樣靜靜地躺著,像睡著了一般赤嚼。 火紅的嫁衣襯著肌膚如雪旷赖。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,754評論 1 307
  • 那天更卒,我揣著相機與錄音等孵,去河邊找鬼。 笑死蹂空,一個胖子當(dāng)著我的面吹牛俯萌,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播腌闯,決...
    沈念sama閱讀 40,464評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼绳瘟,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了姿骏?” 一聲冷哼從身側(cè)響起糖声,我...
    開封第一講書人閱讀 39,357評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎分瘦,沒想到半個月后蘸泻,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,847評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡嘲玫,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,995評論 3 338
  • 正文 我和宋清朗相戀三年悦施,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片去团。...
    茶點故事閱讀 40,137評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡抡诞,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出土陪,到底是詐尸還是另有隱情昼汗,我是刑警寧澤,帶...
    沈念sama閱讀 35,819評論 5 346
  • 正文 年R本政府宣布鬼雀,位于F島的核電站顷窒,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏源哩。R本人自食惡果不足惜鞋吉,卻給世界環(huán)境...
    茶點故事閱讀 41,482評論 3 331
  • 文/蒙蒙 一鸦做、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧谓着,春花似錦泼诱、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,023評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至改抡,卻和暖如春矢炼,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背阿纤。 一陣腳步聲響...
    開封第一講書人閱讀 33,149評論 1 272
  • 我被黑心中介騙來泰國打工句灌, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人欠拾。 一個月前我還...
    沈念sama閱讀 48,409評論 3 373
  • 正文 我出身青樓胰锌,卻偏偏與公主長得像,于是被迫代替她去往敵國和親藐窄。 傳聞我的和親對象是個殘疾皇子资昧,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,086評論 2 355

推薦閱讀更多精彩內(nèi)容