请扩充模型的中文词表 · Issue #14 · deepseek-ai/DeepSeek-V2

目前的DeepSeek V2似乎并没有扩中文词表，这样中文推理的效率还未达到最高。

vocab-coverage的统计结果（https://github.com/twang2218/vocab-coverage）：
字表《《通用规范汉字表》一级汉字》：字数：3500，完整：3168，完整率：90.51%
字表《《通用规范汉字表》二级汉字》：字数：3000，完整：251，完整率：8.37%
字表《《通用规范汉字表》三级汉字》：字数：1605，完整：5，完整率：0.31%
字表《《常用國字標準字體表》甲表(增)》：字数：1749，完整：0，完整率：0.00%
字表《《常用國字標準字體表》乙表(增)》：字数：4503，完整：0，完整率：0.00%
字表《《Unicode中日韩统一表意文字》(增)》：字数：6910，完整：1，完整率：0.01%

对比Qwen的模型：
字表《《通用规范汉字表》一级汉字》：字数：3500，完整：3500，完整率：100.00%
字表《《通用规范汉字表》二级汉字》：字数：3000，完整：3000，完整率：100.00%
字表《《通用规范汉字表》三级汉字》：字数：1605，完整：1605，完整率：100.00%
字表《《常用國字標準字體表》甲表(增)》：字数：1749，完整：633，完整率：36.19%
字表《《常用國字標準字體表》乙表(增)》：字数：4503，完整：4，完整率：0.09%
字表《《Unicode中日韩统一表意文字》(增)》：字数：6910，完整：32，完整率：0.46%

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

请扩充模型的中文词表 #14

请扩充模型的中文词表 #14

sohowj commented May 9, 2024

luofuli commented May 14, 2024

请扩充模型的中文词表 #14

请扩充模型的中文词表 #14

Comments

sohowj commented May 9, 2024

luofuli commented May 14, 2024