SuperCLUE-多轮对抗安全总排行榜

排名	模型	机构	总分	传统安全类	负责任类	指令攻击类	许可
1	GPT4	OpenAI	87.43	84.51	91.22	86.7	闭源
2	vivoLM	vivo	85.17	84.39	92.88	77.99	闭源
3	讯飞星火(v4.0)	科大讯飞	84.98	80.65	89.78	84.77	闭源
4	gpt-3.5-turbo	OpenAI	83.82	82.82	87.81	80.72	闭源
5	文心一言	百度	81.24	79.79	84.52	79.42	闭源
6	ChatGLM2-Pro	清华&智谱AI	79.82	77.16	87.22	74.98	闭源
7	ChatGLM2-6B	清华&智谱AI	79.43	76.53	84.36	77.45	开源可商用
8	Baichuan2-13B-Chat	百川智能	78.78	74.7	85.87	75.86	开源可商用
9	Qwen-7B-Chat	阿里巴巴	78.64	77.49	85.43	72.77	开源可商用
10	OpenBuddy-Llama2-70B	OpenBuddy社区	78.21	77.37	87.51	69.3	开源可商用
11	Llama-2-13B-Chat	Meta	77.49	71.97	85.54	75.16	开源可商用
12	360GPT_S2_V94	360	76.52	71.45	85.09	73.12	闭源
13	Chinese-Alpaca-2-13B	yiming cui	75.39	73.21	82.44	70.39	开源可商用
14	MiniMax-Abab5.5	MiniMax	71.9	71.67	79.77	63.82	闭源

SuperCLUE十大基础能力排行榜（2023年10月）

模型	计算	逻辑与推理	代码	知识与百科	语言理解与抽取	生成与创作	上下文对话	角色扮演	工具使用	传统安全
GPT4	95.56	100	85.89	98.14	100	68.68	75.68	79.68	88.75	88.27
Claude2	75.48	100	74.63	88.14	84.91	46.58	67.42	61.16	62.5	90.31
GPT3.5	74.04	95.1	69.25	79.56	87.61	55.65	59.26	66.57	56.88	87.24
vivoLM	58.52	90.11	60.91	90.73	68.52	40.32	59.84	52.21	59.12	87.48
文心一言4.0	71.3	98.61	60.81	81.08	70.65	18.42	30.26	28.95	69.62	88.4
SenseChat 3.0	43.4	88.16	58.57	89.02	81.82	27.63	37.5	47.37	71.15	86.99
MiniMax-Abab5.5	34.26	63.51	47.37	82.43	54.35	21.05	26.32	28.95	50.63	72.45
OpenBuddy-70B	31.48	89.19	47.37	50	47.83	9.21	28.95	15.79	56.33	75.26
Moonshot	64.81	100	44.74	82.14	88.04	31.08	52.63	40.54	71.25	84.95
Qwen-14B-Chat	52.78	52.86	44.74	65.38	46.74	14.47	14.86	11.84	50	77.3
讯飞星火V3.0	68.52	85.53	43.42	96.43	58.7	27.63	28.95	50	48.75	84.69
ChatGLM2-Pro	64.81	90.54	36.84	76.83	65.22	25	48.68	39.47	51.95	85.97
Baichuan2-13B-Chat	50.93	80.26	36.84	59.21	66.3	32.89	57.89	53.95	62.5	76.92
通义千问plus	46.3	70	35.53	69.51	51.09	3.95	21.05	11.84	45.62	78.72
Chinese_Alpaca_2_13B	24.07	52.7	35.53	47.3	67.39	18.42	40.79	36.49	21.25	75.51
Llama2-13B-Chat	7.41	48.53	32.89	15.85	60.87	26.32	28.38	17.11	30.52	71.17
讯飞星火V2.0	51.85	55.41	31.58	79.27	50	28.95	28.95	25	43.75	84.69
云雀大模型（豆包）	43.52	93.42	26.32	89.02	88.04	12.16	50	52.63	43.12	92.86
ChatGLM2-6B	18.52	58.11	25	25	52.17	6.58	7.89	10.53	10.62	80.36
360GPT_S2_V9	13.89	64.86	16.22	34.62	25	2.63	21.05	9.21	17.31	79.59

SuperCLUE语言理解与生成排行榜（2023年10月）

排名	模型	总分	语言理解与抽取	生成与创作	上下文对话	角色扮演
1	GPT4	81.01	100	68.68	75.68	79.68
2	GPT3.5	67.27	87.61	55.65	59.26	66.57
3	Claude2	65.02	84.91	46.58	67.42	61.16️
4	vivoLM	55.22	68.52	40.32	59.84	52.21
5	Moonshot	53.07	88.04	31.08	52.63	40.54
6	Baichuan2-13B-Chat	52.76	66.3	32.89	57.89	53.95
7	云雀大模型（豆包）	50.71	88.04	12.16	50	52.63
8	SenseChat 3.0	48.58	81.82	27.63	37.5	47.37
9	ChatGLM2-Pro	44.59	65.22	25	48.68	39.47
10	讯飞星火V3.0	41.32	58.7	27.63	28.95	50
11	Llama2-13B-Chat	33.17	60.87	26.32	28.38	17.11
12	MiniMax-Abab5.5	32.67	54.35	21.05	26.32	28.95
13	OpenBuddy-70B	25.44	47.83	9.21	28.95	15.79
14	通义千问plus	21.98	51.09	3.95	21.05	11.84
15	Qwen-14B-Chat	21.98	46.74	14.47	14.86	11.84
16	ChatGLM2-6B	19.29	52.17	6.58	7.89	10.53
17	360GPT_S2_V9	14.47	25	2.63	21.05	9.21

SuperCLUE-Open十大能力表

模型	胜和率	语言理解	闲聊	上下文对话	角色扮演	知识百科	生成创作	代码	逻辑推理	计算	安全
GPT-4	94.64	80.00	97.30	93.18	100.00	87.76	100.00	97.92	100.00	100.00	95.12
Claude-instant-v1	69.51	64.29	92.31	68.52	83.02	51.79	51.06	54.00	59.57	80.00	86.79
MinMax-abab5	57.94	55.36	78.00	59.62	85.42	57.41	69.23	37.25	34.78	32.20	77.55
文心一言(v2.0.4)	50.48	32.76	56.86	47.06	52.73	37.50	62.50	53.19	70.59	60.34	36.54
讯飞星火(v1.5)	48.87	45.61	25.49	60.00	83.67	29.63	71.79	37.74	39.58	57.14	50.00
ChatGLM-130B	42.46	44.64	53.06	50.00	51.92	39.29	52.50	17.07	37.25	42.37	34.00
ChatGLM2-6B-Chat	36.50	33.33	38.33	36.67	41.67	20.00	40.00	21.67	55.00	45.00	33.33
Qwen-7B-Chat	25.75	30.00	16.67	23.33	16.67	10.00	20.00	40.00	58.62	36.67	6.67
360智脑(4.0)	23.93	25.42	16.95	23.64	14.04	10.17	41.67	32.08	43.40	30.00	7.02
jiangziya-13B-v1.1	22.04	13.33	8.47	24.56	16.07	24.14	19.61	25.49	28..00	38.98	22.81
MOSS-16B	21.14	26.67	20.00	11.67	27.59	11.86	25.42	15.00	35.00	21.67	16.67
BELLE-13B	15.61	25.00	8.47	15.25	6.90	11.67	9.80	33.33	32.08	13.56	3.33
DLM	12.54	16.67	0.00	13.79	10.00	6.90	3.57	11.11	45.83	20.00	3.33
RWKV-world-7B	12.45	10.64	8.47	12.96	7.27	11.86	10.20	25.00	18.00	12.28	8.93
baichuan-7B（预训练模型）	3.11	1.89	0.00	0.00	0.00	1.72	1.69	3.33	18.33	3.33	0.00

中文搜索引擎大全：百度、谷歌、搜狗、好搜、必应、国搜、有道、一淘。