在为大型语言模型(LLM)构建部署流水线时,一个核心的挑战是定义“完成”标准。传统的软件工程中,二进制文件通过单元测试和集成测试后,其行为是相对确定的。但在MLOps领域,尤其是LLM,模型的产出具有统计性,其质量评估本质上是一个多维度、充
2023-10-27