大模型预训练数据处理
数据质量决定了模型的质量,对海量训练数据进行高效清洗是 AI 工具链中至关重要一环。
数据质量决定了模型的质量,对海量训练数据进行高效清洗是 AI 工具链中至关重要一环。
SFT 需要大量人工标注数据,而合成数据正逐步解放数据标注生产力。
简化算法开发者和业务开发者的协作。通过对算法和业务配置的复用,增强业务的扩展性,提升业务系统中算法迭代速度。
工欲善其事,必先利其器。
取自《100 Go Mistakes and How to Avoid them》及实践中踩过的坑。
Designing Data-Intensive Applications——The Big Ideas Behind Reliable, Scalable, and Maintainable Systems.
为提升调度任务的规模,突破基于 etcd 存储状态进行调度的性能瓶颈,采用内存任务管理对调度器进行重构。
Next.js + NextAuth.js + Material UI + Materio template
容器调度通过一系列规则将容器分配到各个节点上,包括容器资源需求,节点的负载情况,容器、节点间的亲和性等。
编排就像搭积木,将零散的服务拼接成完整的系统。