Skip to content

Navigation Menu

Sign in
Appearance settings

Search code, repositories, users, issues, pull requests...

Provide feedback

We read every piece of feedback, and take your input very seriously.

Saved searches

Use saved searches to filter your results more quickly

Appearance settings

Commit ccc65dd

Browse filesBrowse files
author
jimmy.xj
committed
Update README.md
1 parent d703bae commit ccc65dd
Copy full SHA for ccc65dd

File tree

2 files changed

+54
-5
lines changed
Filter options

2 files changed

+54
-5
lines changed

‎README.md

Copy file name to clipboardExpand all lines: README.md
+1-1Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -252,7 +252,7 @@ explanation: According to the analysis, the value 265 in the given time series a
252252
👀 👀The data format of ToolLearning samples is compatible with OpenAI's Function Calling.
253253

254254
Please refer to [tool_learning_info.md](resources/tool_learning_info.md) for details.
255-
255+
<br>
256256

257257
## 🚀 How to Evaluate
258258
If you need to test your own huggingface-formatted model, the overall steps are as follows:

‎README_zh.md

Copy file name to clipboardExpand all lines: README_zh.md
+53-4Lines changed: 53 additions & 4 deletions
Original file line numberDiff line numberDiff line change
@@ -8,18 +8,20 @@
88

99
DevOps-Eval是一个专门为DevOps领域大模型设计的综合评估数据集。我们希望DevOps-Eval能够帮助开发者,尤其是DevOps领域的开发者,追踪进展并分析他们拥有的DevOps大模型的优势和不足之处。
1010

11-
📚 该仓库包含与DevOps和AIOps相关的问题和练习。
11+
📚 该仓库包含与DevOps和AIOps相关的问题和练习, 还添加了关于ToolLearning相关的样本
1212

13-
💥 目前有 5977 个多项选择题,根据DevOps的通用流程将其归纳未8个模块,如[下图](images/data_info.png)所示。
13+
💥 目前有 **7486** 个多项选择题,根据DevOps的通用流程将其归纳未8个模块,如[下图](images/data_info.png)所示。
1414

15-
🔥 2840,覆盖的场景包括**日志解析****时序异常检测****时序分类****时序预测****根因分析**
15+
🔥 AIOps样本总计 **2840**,覆盖的场景包括**日志解析****时序异常检测****时序分类****时序预测****根因分析**
1616

17+
🔧 ToolLearning样本 **1509** 个,涵盖59个领域,总计 239 种工具类别。
1718

1819
<p align="center"> <a href="resources/devops_diagram_zh.jpg"> <img src="images/data_info.png" style="width: 100%;" id="data_info"></a></p>
1920

2021

2122
## 🔔 更新
22-
* **[2023.11.27]** 增加运维场景样本487例、时序预测样本640例;同步更新评测排行版
23+
* **[2023.12.27]** 新增1509个ToolLearning样本,发布了相应的评测排行榜
24+
* **[2023.11.27]** 增加运维场景样本487例、时序预测样本640例;同步更新评测排行榜
2325
* **[2023.10.30]** 增加针对AIOps场景的评测排行榜
2426
* **[2023.10.25]** 增加AIOps样本,包含日志解析、时序异常检测、时序分类和根因分析
2527
* **[2023.10.18]** DevOps-Eval发布大模型评测排行版
@@ -30,13 +32,18 @@ DevOps-Eval是一个专门为DevOps领域大模型设计的综合评估数据集
3032
- [🏆 排行榜](#-排行榜)
3133
- [👀 DevOps](#-devops)
3234
- [🔥 AIOps](#-aiops)
35+
- [🔧 ToolLearning](#-toollearning)
3336
- [⏬ 数据](#-数据)
3437
- [👀 说明](#-说明)
3538
- [🔥 AIOps样本示例](#-AIOps样本示例)
39+
- [🔧 ToolLearning样本示例](#-toollearning样本示例)
3640
- [🚀 如何进行测试](#-如何进行测试)
3741
- [🧭 TODO](#-todo)
3842
- [🏁 Licenses](#-licenses)
3943
- [😃 引用](#-引用)
44+
- [🗂 Miscellaneous](#-miscellaneous)
45+
- [✨ Star History](#-star-history)
46+
- [🤝 Friendship Links](#-friendship-links)
4047

4148
## 🏆 排行榜
4249
以下是我们获得的初版评测结果,包括多个开源模型的zero-shot和five-shot准确率。我们注意到,对于大多数指令模型来说,five-shot的准确率要优于zero-shot。
@@ -83,6 +90,9 @@ DevOps-Eval是一个专门为DevOps领域大模型设计的综合评估数据集
8390

8491

8592
### 🔥 AIOps
93+
94+
<details>
95+
8696
#### Zero Shot
8797
| **模型** | 日志解析 | 根因分析 | 时序异常检测 | 时序分类 | 时序预测 | **平均分** |
8898
|:-------------------:|:-----:|:----:|:------:|:----:|:-----:|:-------:|
@@ -119,6 +129,28 @@ DevOps-Eval是一个专门为DevOps领域大模型设计的综合评估数据集
119129
| Internlm-7B—Chat | 62.57 | 12.8 | 22.33 | 21 | 50.31 | 36.69 |
120130
| Internlm-7B—Base | 48 | 33.2 | 29 | 35 | 31.56 | 35.85 |
121131

132+
</details>
133+
134+
### 🔧 ToolLearning
135+
<details>
136+
137+
| **FuncCall-Filler** | dataset_name | fccr | 1-fcffr | 1-fcfnr | 1-fcfpr | 1-fcfnir | aar |
138+
|:-------------------:| :---: | :---: | :---: | :---: | :---: | :---: | :---: |
139+
| Qwen-14b-chat | luban | 98.37 | 99.73 | 99.86 | 98.78 | 100 | 81.58 |
140+
| Qwen-7b-chat | luban | 99.46 | 99.86 | 100 | 99.59 | 100 | 79.25 |
141+
| Baichuan-7b-chat | luban | 97.96 | 99.32 | 100 | 98.64 | 100 | 89.53 |
142+
| Internlm-chat-7b | luban | 94.29 | 95.78 | 100 | 98.5 | 100 | 88.19 |
143+
| Qwen-14b-chat | fc_data | 98.78 | 99.73 | 100 | 99.05 | 100 | 94.7 |
144+
| Qwen-7b-chat | fc_data | 98.1 | 99.87 | 99.73 | 98.5 | 100 | 93.14 |
145+
| Baichuan-7b-chat | fc_data | 98.91 | 99.87 | 99.87 | 99.18 | 100 | 89.5 |
146+
| Internlm-chat-7b | fc_data | 61 | 100 | 97.68 | 63.32 | 100 | 69.46 |
147+
| CodeLLaMa-7b | fc_data | 50.58 | 100 | 98.07 | 52.51 | 100 | 63.59 |
148+
| CodeFuse-7b-16k | fc_data | 60.23 | 100 | 97.3 | 62.93 | 99.61 | 61.12 |
149+
| CodeFuse-7b-4k | fc_data | 47.88 | 100 | 96.14 | 51.74 | 99.61 | 61.85 |
150+
151+
</details>
152+
153+
122154
## ⏬ 数据
123155
#### 下载
124156
* 方法一:下载zip压缩文件(你也可以直接用浏览器打开下面的链接):
@@ -214,6 +246,10 @@ D: 12
214246
answer: D
215247
explanation: 根据分析,题目中的时间序列在12点出的值265要明显大于周围数据,存在着突增现象,因此选择D是正确的。
216248
```
249+
#### 🔧 ToolLearning样本示例
250+
工具学习样本的数据格式与OpenAI的函数调用格式兼容。
251+
详情请参阅[tool_learning_info_zh.md](resources/tool_learning_info_zh.md)。
252+
<br>
217253
218254
## 🚀 如何进行测试
219255
如果需要在自己的 HuggingFace 格式的模型上进行测试的话,总的步骤分为如下几步:
@@ -283,6 +319,7 @@ python src/run_eval.py \
283319
## 🧭 TODO
284320
- [x] 添加AIOps样本
285321
- [x] 添加AIOps场景,比如**时间预测**
322+
- [x] 增加 **ToolLearning** 样本
286323
- [ ] 当前各类别样本量不平均,后续进一步增加样本数量
287324
- [ ] 增加困难程度的样本集
288325
- [ ] 增加样本的英文版本
@@ -302,3 +339,15 @@ Coming soon...
302339

303340
<br>
304341
<br>
342+
343+
344+
## 🗂 Miscellaneous
345+
346+
### ✨ Star History
347+
[![Star History Chart](https://api.star-history.com/svg?repos=codefuse-ai/codefuse-devops-eval&type=Date)](https://star-history.com/#codefuse-ai/codefuse-devops-eval&Date)
348+
349+
### 🤝 Friendship Links
350+
- [Codefuse-ChatBot](https://github.com/codefuse-ai/codefuse-chatbot)
351+
- Codefuse-ChatBot is an open-source AI smart assistant designed to support the software development lifecycle with conversational access to tools, knowledge, and platform integration.
352+
- [Awesome AIGC Tutorials](https://github.com/luban-agi/Awesome-AIGC-Tutorials)
353+
- Awesome AIGC Tutorials houses a curated collection of tutorials and resources spanning across Large Language Models, AI Painting, and related fields.

0 commit comments

Comments
0 (0)
Morty Proxy This is a proxified and sanitized view of the page, visit original site.