FleetX Versions Save

飞桨大模型开发套件，提供大语言模型、跨模态大模型、生物计算大模型等领域的全流程开发工具链。

1 year ago

1 year ago

一、环境部署

二、动态图训练

三、自动并行

在 345M、1.3B、6.7B 规模上支持 GPT 预训练模型的自动并行分布式训练，还支持了自动混合精度、分组切片、重计算与梯度累计优化策略。（#757 #801）
为了支持大模型分布式推理，实现了 GPT 生成模型的自适应转换，包括组网重切分与参数自动转换功能。（#815）

四、推理部署

五、性能

在345M、1.3B、6.7B与175B模型上支持TensorFuse功能、适配使用FusedLinear、支持selective recompute、支持fp16 embedding。（#620，#626，#634，#635，#752）
在6.7B模型上适配sharding stage 2 reduce overlap、适配sharding stage 2 broadcast overlap、适配sharding stage 2多流broadcast。（#799，#812，#833）
在175B模型上适配interleave pipeline、适配pipeline recompute interval、支持pipeline非均匀且分的组网方式、支持sequence parallel策略。（#860，#881，#884，#734，#746，#819，#846，#854，#861）
相对于同等模型规模的Megatron（DeepSpeed），345M GPT 八卡性能超越竞品 14.2%、1.3B GPT 八卡性能超越竞品5.6%、6.7B GPT 16卡性能超越竞品11.7%、175B GPT 128卡性能超越竞品 0.4%。

六、调试工具

为了覆盖包括分布式等多种调试需求，提升二次开发体验，提供了混合并行的多项指标 Profiler 能力，同时支持了 VisualDL可视化工具。（#619，#667，#672）

七、模型

开发图文生成模型Imagen，支持 397M、2B 参数量 Imagen 生成模型、600M 参数量 Imagen 256x256分辨率超分模型、400M 参数量 Imagen 1024x1024分辨率超分模型组网、训练流程（#768，#747，#706）
支持 DP-DAP-BP 3维混合并行以及DistEmbeddingsAndEvoformer。

1 year ago

1、环境部署开发支持包括 Docker/PyPI 等多种二次开发和部署环境，提升使用易用性，可被其他套件或平台安装集成

2、动态图训练

3、自动并行实现GPT『动转静+自动并行』大模型训练，支持常见并行策略、优化策略和两者的任意组合使用，其中并行策略包括数据并行、张量并行、流水线并行和混合并行，优化策略包括重计算、混合精度（1/2/3）、梯度累加、Sharding（1/2/3）

4、推理部署

5、量化压缩

支持动态图量化训练功能
GPT-345M模型经过INT8量化，在LAMBDA任务上精度无损。（Baseline Accuracy: 44.17%; INT8量化后 Accuracy: 44.38%）

6、性能

训练：GPT-345M模型下，八卡性能超越竞品Megatron-LM 14.2%。GPT-1.3B模型下，八卡性能超越竞品Megatron-LM 5.6%
推理：Imagen对齐了 T5-11B 文本推理模型，性能超越 PyTorch 20%。解决 Imagen 1024x1024 长序列超分扩散模型显存占用过大的问题，模型吞吐提升35%

7、调试工具覆盖包括分布式等多种调试需求，兼容VisualDL可视化工具，提升二次开发体验