集成 Keras Kubeflow 与 Solid.js 构建模型推理的实时可观测性前端 集成 Keras Kubeflow 与 Solid.js 构建模型推理的实时可观测性前端
模型通过 Kubeflow 管道成功部署到生产环境,这通常被视为终点,但在我的团队里,这恰恰是问题的开始。一个已经部署的 Keras 模型就像一个黑盒,标准的 Kubernetes 指标(CPU、内存)告诉你容器是否存活,却无法回答关键业务
2023-11-15
基于 Flux CD 与 MyBatis 构建 TiDB 读写分离架构的声明式管理方案 基于 Flux CD 与 MyBatis 构建 TiDB 读写分离架构的声明式管理方案
一个高并发系统的性能瓶颈,往往最先出现在数据库的写操作上。当读请求与写请求在同一个TiDB事务领导者(leader)节点上发生激烈争抢时,系统的整体吞吐量和响应时间会急剧恶化。常规的解决方案是读写分离,将读流量引导至TiDB的追随者(fol
在 AWS Lambda 中集成 Consul Connect 实现基于 mTLS 的 MLOps 模型安全调用 在 AWS Lambda 中集成 Consul Connect 实现基于 mTLS 的 MLOps 模型安全调用
在一个不断扩展的MLOps平台中,我们面临一个日益棘手的架构问题:数百个部署为AWS Lambda函数的模型需要以安全、可审计且敏捷的方式,调用一组VPC内的后端微服务(如特征存储、日志服务、结果写入器)。这些服务可能部署在EC2、ECS或
2023-10-27
构建以Memcached为核心特征缓存的可观测模型部署架构 构建以Memcached为核心特征缓存的可观测模型部署架构
模型推理服务的P99延迟,是悬在每个算法工程师和SRE头上的达摩克利斯之剑。在一个典型的在线推理场景中,延迟的主要来源往往不是模型计算本身,而是前置的特征工程——从多个数据源拉取、转换、组合成模型所需的特征向量。当QPS攀升,对底层特征存储
2023-10-27
eBPF 结合 MapReduce 实现大规模主机集群的离线行为审计架构 eBPF 结合 MapReduce 实现大规模主机集群的离线行为审计架构
我们面临的技术问题是在一个包含超过50,000台服务器的混合云环境中,实现对所有主机执行的系统调用进行深度、可追溯的离线审计。这些服务器承载着大量遗留应用,操作系统版本从 CentOS 6 到各类定制化的 Linux 发行版不一而足。核心约
2023-10-27
构建从Zustand到Ktor的全栈可观测性 整合Sentry与Pulumi实现分布式追踪 构建从Zustand到Ktor的全栈可观测性 整合Sentry与Pulumi实现分布式追踪
一个棘手问题的排查,往往始于信息断层。前端团队反馈用户操作偶发性失败,但从Zustand状态变更和网络请求来看,一切正常。后端团队检查Ktor服务的日志,对应时间戳的请求也成功处理,没有异常。问题出在前端操作与后端日志之间的“黑暗隧道”里,
2023-10-27
1 / 5