翻譯|行業(yè)資訊|編輯:胡欣星|2025-02-19 14:59:58.310|閱讀 94 次
概述:這篇文章比較了 DeepSeek-R1 與 OpenAI 模型在 Kotlin 編程語(yǔ)言方面的表現(xiàn),評(píng)估了它們?cè)诖a生成、問(wèn)題解答和推理能力上的優(yōu)劣,并提供了相關(guān)基礎(chǔ)
# 界面/圖表報(bào)表/文檔/IDE等千款熱門(mén)軟控件火熱銷售中 >>
隨著 AI 模型的快速發(fā)展,DeepSeek-R1 作為 OpenAI 的有力競(jìng)爭(zhēng)者正在引起廣泛關(guān)注。那么,這些模型對(duì) Kotlin 的理解程度如何?它們能否生成可靠的代碼,解釋復(fù)雜概念,并協(xié)助調(diào)試呢?
JetBrains Research 團(tuán)隊(duì)針對(duì)最新的 AI 模型,包括 DeepSeek-R1、OpenAI o1 和 OpenAI o3-mini,進(jìn)行了測(cè)試。他們采用了 KotlinHumanEval 和一個(gè)全新的 Kotlin 問(wèn)答基準(zhǔn),用以評(píng)估這些模型的綜合表現(xiàn),排名并分析了 DeepSeek 模型在實(shí)際 Kotlin 問(wèn)題中的回答能力,幫助開(kāi)發(fā)者了解這些模型的優(yōu)勢(shì)與局限。
KotlinHumanEval 基準(zhǔn)
長(zhǎng)期以來(lái),OpenAI 的 HumanEval 基準(zhǔn)一直是衡量 AI 模型編程能力的關(guān)鍵指標(biāo),它通過(guò)檢測(cè)模型根據(jù)文檔字符串生成函數(shù)并通過(guò)單元測(cè)試的能力來(lái)評(píng)分。JetBrains Research 團(tuán)隊(duì)此前推出了 KotlinHumanEval,該基準(zhǔn)測(cè)試采用與 HumanEval 相同的測(cè)試,但針對(duì)的是符合 Kotlin 語(yǔ)言習(xí)慣的代碼。
自發(fā)布以來(lái),各模型在 KotlinHumanEval 上的得分顯著提升。其中,OpenAI 的領(lǐng)先模型成功率達(dá)到 91%,創(chuàng)下新高。而開(kāi)源的 DeepSeek-R1 也表現(xiàn)不俗,能夠完成大部分任務(wù)。以下是各模型在 KotlinHumanEval 基準(zhǔn)上的表現(xiàn):
模型名稱 | 成功率(%) |
---|---|
OpenAI o1 | 91.93% |
DeepSeek-R1 | 88.82% |
OpenAI o1-preview | 88.82% |
OpenAI o3-mini | 86.96% |
OpenAI o1-mini | 86.34% |
Google Gemini 2.0 Flash | 83.23% |
Anthropic Claude 3.5 Sonnet | 80.12% |
OpenAI GPT-4o | 80.12% |
OpenAI GPT-4o mini | 77.02% |
新興基準(zhǔn)測(cè)試
除 KotlinHumanEval 外,近年來(lái)還出現(xiàn)了一些新的多語(yǔ)言評(píng)測(cè)基準(zhǔn)。例如,McEval 涵蓋了 40 種編程語(yǔ)言,包括 Kotlin,并提供解釋示例;M2rc-Eval 也聲稱支持 Kotlin,但目前尚未公開(kāi)相關(guān)數(shù)據(jù)集。
盡管現(xiàn)有基準(zhǔn)主要考察代碼生成能力,但 JetBrains Research 發(fā)現(xiàn),開(kāi)發(fā)者在代碼生成之外,還常用 AI 工具來(lái)解釋代碼,例如理解錯(cuò)誤原因或分析代碼含義。因此,僅靠傳統(tǒng)基準(zhǔn)無(wú)法全面評(píng)估模型在 Kotlin 領(lǐng)域的表現(xiàn)。
Kotlin_QA 問(wèn)答基準(zhǔn)
為彌補(bǔ)這一不足,JetBrains Research 推出了 Kotlin_QA 基準(zhǔn)。他們收集了 47 個(gè) Kotlin 相關(guān)問(wèn)題,這些問(wèn)題由開(kāi)發(fā)者宣傳大使準(zhǔn)備,或來(lái)自 Kotlin 公開(kāi) Slack 頻道。每個(gè)問(wèn)題均由 Kotlin 專家給出參考答案,然后邀請(qǐng)不同的 AI 模型作答。
以下為 Slack 頻道中一位開(kāi)發(fā)者提出的示例問(wèn)題:
“我有一個(gè) Kotlin 服務(wù)端應(yīng)用程序運(yùn)行在 k8s 的 pod 中。在某些情況下,k8s 會(huì)發(fā)送 SIGTERM 或 SIGKILL 信號(hào)終止我的應(yīng)用程序。在 Kotlin 中,有沒(méi)有比 Runtime.getRuntime().addShutdownHook(myShutdownHook) 更優(yōu)雅的關(guān)閉方式?”
開(kāi)發(fā)者可以嘗試自己回答,然后對(duì)比 AI 模型的答案。
AI 模型回答質(zhì)量評(píng)估
JetBrains Research 采用 LLM-as-a-judge 方法評(píng)估模型回答質(zhì)量,即用 AI 模型充當(dāng)評(píng)委,對(duì)比各模型的回答與專家答案,評(píng)分范圍為 1 到 10。
由于常見(jiàn) LLM 模型的評(píng)判結(jié)果可能不一致,團(tuán)隊(duì)特別篩選了評(píng)審模型,考察標(biāo)準(zhǔn)包括:
最終測(cè)試表明,GPT-4o(2024 年 6 月 8 日版本)是最可靠的評(píng)審模型,它的評(píng)分與人類評(píng)估高度一致,并能有效識(shí)別低質(zhì)量回答。
Kotlin_QA 排行榜
模型名稱 | 平均評(píng)分 |
---|---|
DeepSeek-R1 | 8.79 |
OpenAI o3-mini | 8.70 |
OpenAI o1 | 8.62 |
OpenAI o1-preview | 8.60 |
OpenAI o1-mini | 8.40 |
OpenAI GPT-4o (2024-11-20 版本) | 8.40 |
Anthropic Claude 3.5 Sonnet | 8.38 |
整體來(lái)看,最新的 OpenAI 模型和 DeepSeek-R1 在 Kotlin 領(lǐng)域表現(xiàn)優(yōu)異。DeepSeek-R1 在開(kāi)放性問(wèn)題和推理能力方面略勝一籌。然而,所有模型仍存在知識(shí)不完整、信息滯后以及常見(jiàn) LLM 錯(cuò)誤(如計(jì)數(shù)錯(cuò)誤、上下文丟失)等問(wèn)題。
如果想了解更多 JetbrainsIDE 的強(qiáng)大功能,聯(lián)系在線客服下載完整版試用。
歡迎下載|體驗(yàn)更多Jetbrains產(chǎn)品
本站文章除注明轉(zhuǎn)載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載,但請(qǐng)務(wù)必注明出處、不得修改原文相關(guān)鏈接,如果存在內(nèi)容上的異議請(qǐng)郵件反饋至chenjj@fc6vip.cn