利用 Amazon SageMaker HyperPod 扩展汤森路透的语言模型研究 机器学习博客
扩大汤森路透的语言模型研究,利用亚马逊SageMaker
关键要点
汤森路透利用亚马逊SageMaker HyperPod来进行大规模训练专门化的语言模型LLM,以提升客户的工作效率。公司关注LLM的应用限制,并通过专有数据增强模型性能。研究表明,适当的预训练和指令微调可以显著改善模型在法律领域的表现。亚马逊SageMaker HyperPod提供了高效的计算能力和更好的集群管理,以支持LLM的训练。汤森路透Thomson Reuters是一家全球领先的内容和技术驱动公司,数十年来一直在其专业信息产品中使用人工智能和机器学习AI/ML。生成式AI的引入为汤森路透提供了与客户合作的新机会,推动其工作方式的提升,帮助专业人士提取洞见,自动化工作流程,从而将注意力集中在最重要的事务上。
在这篇文章中,我们将探讨汤森路透如何利用亚马逊SageMaker HyperPod,这一由亚马逊云计算服务AWS提供的专用基础设施,来增强训练行业适应型大语言模型LLM的前沿研究。
加速器试用七天LLM对行业的冲击
2022年底,突破性的LLM问世,实现了相较于以前模型能力的显著提升。这项技术为改善客户体验开辟了新天地,通过个性化内容、推荐和回应,实现更自然的对话界面。许多企业竞相将这项技术融入其产品,以保持或获取竞争优势,而汤森路透也不例外,他们急切地意识到需要帮助客户在这个不断发展的AI增强的世界中取得成功。
正如任何技术一样,适当应用及理解其局限性至关重要。以下是几个主要考量因素:
假象 LLM对自然语言的响应能力显著,但技术的随机性意味着响应是基于词汇出现的概率。模型并没有对事实进行建模,而是对语言的建模,这可能导致生成不真实的文本。质量 尽管目前LLM的通用知识较为优秀,但对于许多企业和客户来说,这可能仍然不足。公共及商业LLM所依赖的知识往往是基于互联网,而不是真实业务部门的知识。速度、成本与容量 根据不同的使用场景,现有的商业LLM可能速度缓慢或成本过高,甚至根本无法满足需求。汤森路透的客户需要专业级AI,他们是在法律、企业、税务、风险、欺诈、合规和新闻等领域的信息需求者。
研究与训练实验
考虑到公共商业语言模型的限制,汤森路透提出了一系列问题:
汤森路透的编辑制作、策划或增强的数据能否用于改善LLM在特定商业任务上的知识?更小的LLM如12至30B参数是否能与达到一万亿参数的大型LLM相媲美? 如何训练汤森路透的特定领域模型以获得最佳结果?潜在的好处可以集中在质量、主动性和运营效率三个方面。
研究方向
汤森路透的研究聚焦于几个具体问题:
基础模型FMs在7至30B参数范围内在特定任务上表现如何?在引入汤森路透特定领域数据的情况下,特定任务的表现是否得到改善?为了进行有效的研究,汤森路透专注于法律摘要、分类和问答等实际任务,同时利用公共和汤森路透自身的法律文本数据进行训练。
汤森路透的实验设计包括多种参数设置,从7B到超过30B,并通过持续预训练和强化学习以改进模型表现。
连续预训练 通过进一步预训练现有的基础模型,汤森路透希望在增强法律领域理解的同时保留通用语言能力,以确保模型在特定领域内的表现提升。指令微调 这是一种生成有效指令数据集的练习,包括法律和常规任务,旨在提高模型对于人类指令的响应能力。利用Amazon SageMaker HyperPod进行规模化训练
汤森路透清楚,大型LLM的训练需要大量的计算资源,尤其是在多节点的分布式计算能力上。他们将重点关注NVIDIA的高性能A100 GPU,并使用亚马逊弹性计算云的P4d和P4de实例。
汤森路透还使用Chinchilla扩展法则来估算所需的计算能力及训练时间。
A100参数GPUs26B (天)66B (天)13B (天)30B (天)65B (天)8641662412549184161280533126274592例如,一个66B参数的模型需要132B输入标记,使用64个A100 GPU的情况下,模型训练需要不到7天的时间。
在计算能力之外,集群的弹性、管理CRUD操作和开发者体验等也会对LLM训练产生影响。为了构建一个高可扩展且能够抵御硬件故障的集群,汤森路透借助了亚马逊SageMaker HyperPod。
初步发现
在五个月的时间里,汤森路透成功执行了20个训练任务。他们将集群扩展到16个P4d实例,最大的任务使用了整个集群,最终完成了一个70B参数模型的训练。
连续预训练通过从现有的开源LLM检查点开始连续预训练,汤森路透不仅节省了时间,还实现了模型能力的逐步提升。使用困惑度这一度量,汤森路透能够量化模型对文本样本的预测能力。
指令微调指令微调的LLM适应具体指令,能有效支持问答、摘要等任务。汤森路透发现,其法律LLM在多样化的法律指令训练下获得了巨大的收益。
法律摘要汤森路透的MPTTR7b模型在法律摘要任务中表现出色,与GPT4的表现相当,显示出模型的能力。
法律分类在分类任务上,尽管仍有提升空间,随着指令数据集的扩大,性能显著提高。
结论
本文讨论了汤森路透如何通过亚马逊SageMaker HyperPod满足LLM训练需求。通过亚马逊EKS的支持,汤森路透能够扩展其能力,轻松运行训练任务,从而在法律摘要和分类等领域解锁了LLM的好处。
如果你的业务运作在专业领域且拥有不易在网上获得的知识,模型训练实验将是一个不错的选择。与此同时,要考虑训练和推理的成本,以及迅速发展的LLM技术。在决定进行模型训练后,日后的计算能力需求将会显著增加,Amazon SageMaker HyperPod可以帮助你管理必要的基础设施。
了解更多关于亚马逊SageMaker HyperPod及亚马逊EKS对SageMaker HyperPod的支持。
关于作者
John Duprey 是汤森路透实验室的杰出工程师,拥有超过25年的经验,推动创新解决方案并促进工程卓越文化。

Adam Raffe 是AWS的首席解决方案架构师,拥有8年以上云架构经验,帮助大型企业客户解决业务问题。
Vu San Ha Huynh 是AWS的解决方案架构师,拥有计算机科学博士学位,致力于支持大型企业客户的创新项目。
Ankit Anand 是AWS的高级基础模型市场专员,负责与顶级生成式AI模型构建者及战略客户合作,支持下一代AI/ML工作负载。
Arun Kumar Lokanatha 是亚马逊SageMaker服务团队的高级ML解决方案架构师,专注于大型模型训练工作负载。
Simone Zucchet 是AWS的解决方案架构师经理,拥有6年以上云架构经验,致力于帮助企业客户解决商业问题。