第二代CodeGeeX代碼生成模型CodeGeeX2-6B已于近日發(fā)布氓辣,并在CodeGeeX編程助手插件上全面上線秒裕。新模型基于 ChatGLM2-6B 架構加入代碼預訓練實現(xiàn),精度更高钞啸、速度更快几蜻、能力更強。 下面我們一起來看一下新版模型給CodeGeeX編程助手帶來的變化吧:
一体斩、代碼生成更快更精準梭稚,問答更智能
相比一代模型 ,CodeGeeX2-6B在代碼生成的精度和速度上都有極大的提升絮吵。第一代CodeGeeX模型只能基于前文向后生成代碼弧烤,而CodeGeeX2-6B可以實現(xiàn)根據(jù)上下文填空。這意味著在補全代碼時蹬敲,可以綜合當前光標上下文的內(nèi)容暇昂,更精準地補全代碼。在新模型的支撐下伴嗡,插件中的問答功能“Ask CodeGeeX”也得到了升級急波。原先的“Ask CodeGeeX”使用ChatGLM模型回答問題。更新后瘪校,該功能使用的模型換成了基于CodeGeeX2-6B微調得到的對話模型澄暮,在回答編程相關的問題時,比之前更專業(yè)阱扬、更智能泣懊。
二、支持更多編程語言
新版CodeGeeX支持的編程語言數(shù)量達到了100余種麻惶。除了Python馍刮、Java、JavaScript用踩、GO等主流編程語言外渠退,像Kotlin、Rust等編程語言的代碼生成效果都獲得了極大提升脐彩。對于前端程序員常用Vue等開發(fā)框架碎乃,新版模型的能力也得到了加強。新版本在自然語言生成SQL查詢的場景里惠奸,也有驚艷的表現(xiàn)梅誓。在“Ask CodeGeeX”功能中,可根據(jù)指定的數(shù)據(jù)庫表結構和查詢需求佛南,自動生成相應的 SQL 查詢語句梗掰。
三、從8k到32k嗅回,更長的上下文支持
依托于ChatGLM2-6B基座模型及穗,CodeGeeX2-6B支持的上下文長度提升到了32K∶嘣兀基于這一新特性埂陆,可以將當前工程中其他文件的內(nèi)容也作為上下文引入,這使得模型在生成時可以更好地理解當前開發(fā)任務娃豹》偈基于32K上下文長度的特性,未來還會有更多新功能上線懂版,敬請期待鹃栽。
附:模型介紹與評測
CodeGeeX2 是多語言代碼生成模型CodeGeeX的第二代模型。不同于一代模型躯畴,CodeGeeX2 是基于 ChatGLM2 架構加入代碼預訓練實現(xiàn)民鼓。得益于 ChatGLM2 的更優(yōu)性能,CodeGeeX2-6B 在多項指標上取得較大的性能提升私股。CodeGeeX2-6B 更好支持中英文輸入摹察,支持最大 8192 序列長度,推理速度較一代 CodeGeeX-13B 大幅提升倡鲸,量化后僅需6GB顯存即可運行供嚎,支持輕量級本地化部署。
在 HumanEval 評測中峭状,CodeGeeX2-6B的表現(xiàn)全面超越了參數(shù)規(guī)模更大的 StarCoder 模型以及 OpenAI 的 Code-Cushman-001 模型(GitHub Copilot 曾使用的模型)克滴。
在多語言方面,新版 CodeGeeX 2 模型在 HumanEval-X 數(shù)據(jù)集評測中表現(xiàn)優(yōu)異优床。相較于第一代劝赔,CodeGeeX2 的Pass@1 指標在各個語言上的平均表現(xiàn)提升了 107%。其中胆敞,Rust 語言的性能提升顯著着帽,提升了 321%杂伟;C++ 和 JavaScript 語言上的表現(xiàn)也提升了 70% 以上。
自 2022 年 9 月上線以來仍翰,CodeGeeX輔助開發(fā)人員提高編程效率赫粥,取得了顯著成果。截至目前予借,CodeGeeX 插件下載量已超過 13 萬越平,每日生成代碼近千萬行。升級后的CodeGeeX插件繼續(xù)對個人用戶免費開放灵迫。
本文由博客一文多發(fā)平臺 OpenWrite 發(fā)布秦叛!