transformers架构

Qwen2.5-Coder是一系列特定于代码的大型语言模型，覆盖了从0.5亿到32亿参数的不同模型大小，以满足不同开发者的需求。该模型在代码生成、代码推理和代码修复方面有显著提升，基于强大的Qwen2.5，训练令牌扩展到5.5万亿，包括源代码、文本代码基础、合成数据等。Qwen2.5-Coder-32B是目前最先进的开源代码生成大型语言模型，其编码能力与GPT-4o相匹配。此外，该模型还支持长达128K令牌的长上下文，并采用AWQ 4-bit量化技术，以提高模型的效率和性能。

Qwen2.5-Coder-3B-Instruct

Qwen2.5-Coder是Qwen大型语言模型的最新系列，专注于代码生成、代码推理和代码修复。基于强大的Qwen2.5，该系列模型通过增加训练令牌至5.5万亿，包括源代码、文本代码接地、合成数据等，显著提升了代码生成、推理和修复能力。Qwen2.5-Coder-3B是该系列中的一个模型，拥有3.09B参数，36层，16个注意力头（Q）和2个注意力头（KV），全32,768令牌上下文长度。该模型是目前开源代码LLM中的佼佼者，编码能力与GPT-4o相匹配，为开发者提供了一个强大的代码辅助工具。