We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
目前的DeepSeek V2似乎并没有扩中文词表,这样中文推理的效率还未达到最高。
vocab-coverage的统计结果(https://github.com/twang2218/vocab-coverage): 字表 《《通用规范汉字表》一级汉字》:字数:3500,完整:3168,完整率:90.51% 字表 《《通用规范汉字表》二级汉字》:字数:3000,完整:251,完整率:8.37% 字表 《《通用规范汉字表》三级汉字》:字数:1605,完整:5,完整率:0.31% 字表 《《常用國字標準字體表》甲表(增)》:字数:1749,完整:0,完整率:0.00% 字表 《《常用國字標準字體表》乙表(增)》:字数:4503,完整:0,完整率:0.00% 字表 《《Unicode中日韩统一表意文字》(增)》:字数:6910,完整:1,完整率:0.01%
对比Qwen的模型: 字表 《《通用规范汉字表》一级汉字》:字数:3500,完整:3500,完整率:100.00% 字表 《《通用规范汉字表》二级汉字》:字数:3000,完整:3000,完整率:100.00% 字表 《《通用规范汉字表》三级汉字》:字数:1605,完整:1605,完整率:100.00% 字表 《《常用國字標準字體表》甲表(增)》:字数:1749,完整:633,完整率:36.19% 字表 《《常用國字標準字體表》乙表(增)》:字数:4503,完整:4,完整率:0.09% 字表 《《Unicode中日韩统一表意文字》(增)》:字数:6910,完整:32,完整率:0.46%
The text was updated successfully, but these errors were encountered:
当前版本的tokenizer是在语料上使用BBPE算法统计训练得到的,并没有对词表进行手动修改。我们在后续的模型迭代中会考虑手动补充一些各语言的常用词来更好的提升tokenizer的压缩率 @sohowj
Sorry, something went wrong.
No branches or pull requests
目前的DeepSeek V2似乎并没有扩中文词表,这样中文推理的效率还未达到最高。
vocab-coverage的统计结果(https://github.com/twang2218/vocab-coverage):
字表 《《通用规范汉字表》一级汉字》:字数:3500,完整:3168,完整率:90.51%
字表 《《通用规范汉字表》二级汉字》:字数:3000,完整:251,完整率:8.37%
字表 《《通用规范汉字表》三级汉字》:字数:1605,完整:5,完整率:0.31%
字表 《《常用國字標準字體表》甲表(增)》:字数:1749,完整:0,完整率:0.00%
字表 《《常用國字標準字體表》乙表(增)》:字数:4503,完整:0,完整率:0.00%
字表 《《Unicode中日韩统一表意文字》(增)》:字数:6910,完整:1,完整率:0.01%
对比Qwen的模型:
字表 《《通用规范汉字表》一级汉字》:字数:3500,完整:3500,完整率:100.00%
字表 《《通用规范汉字表》二级汉字》:字数:3000,完整:3000,完整率:100.00%
字表 《《通用规范汉字表》三级汉字》:字数:1605,完整:1605,完整率:100.00%
字表 《《常用國字標準字體表》甲表(增)》:字数:1749,完整:633,完整率:36.19%
字表 《《常用國字標準字體表》乙表(增)》:字数:4503,完整:4,完整率:0.09%
字表 《《Unicode中日韩统一表意文字》(增)》:字数:6910,完整:32,完整率:0.46%
The text was updated successfully, but these errors were encountered: