-
Notifications
You must be signed in to change notification settings - Fork 675
基础组件介绍
栾鹏 edited this page Jun 16, 2023
·
11 revisions
完整的平台包含
- 1、机器的标准化
- 2、分布式存储(单机可忽略)、k8s集群、监控体系(prometheus/efk/zipkin)
- 3、基础能力(tf/pytorch/mxnet/valcano/ray等分布式,nni/katib超参搜索)
- 4、平台web部分(oa/权限/项目组、在线构建镜像、在线开发、pipeline拖拉拽、超参搜索、推理服务管理等)
命名空间 | 组件名 | 组件说明 |
---|---|---|
infra | kubeflow-dashboard-frontend | cube-studio平台的web前端 |
infra | kubeflow-dashboard | cube-studio平台的web后端 |
infra | kubeflow-dashboard-schedule | 用来调度cube-studio系统自带的调度任务,比如定时清理 |
infra | kubeflow-dashboard-worker | 用来执行cube-studio系统自带的调度任务,比如定时清理 |
infra | kubeflow-watch | 用来监控cube-studio平台中的任务,发起通知和信息更新 |
infra | mysql | 平台元数据的存储 |
infra | redis | 平台缓存,和异步任务对接 |
kube-system | kubernetes-dashboard-cluster | k8s中pod的管理界面 |
kube-system | dashboard-cluster-metrics-scraper | k8s中pod的管理界面上的pod资源使用情况的插件 |
kube-system | nvidia-device-plugin-daemonset | k8s中使用机器gpu驱动和设备的插件 |
kube-system | metrics-server | 集群资源使用情况的指标采集,用来在hpa时使用 |
kube-system | kubeflow-prometheus-adapter | 用来将prometheus采集的指标转化为可以用来控制hpa的指标 |
kubeflow | minio | 对象存储 |
kubeflow | spark-operator | spark serverless 分布式计算 |
kubeflow | train-operator | tf/pytorch/xgb/mxnet/mpi等分布式 |
kubeflow | workflow-controller | argo 云原生调度 |
kubeflow | volcano-* | volcano分布式和批调度 |
istio-system | istio-ingressgateway | 入口网关,用来代理所有外部访问 |
istio-system | 其他 | istio基础组件 |
monitoring | dcgm-exporter | gpu机器资源监控 |
monitoring | node-exporter | cpu机器资源监控 |
monitoring | prometheus-k8s | 监控数据存储服务 |
monitoring | grafana | 监控数据可视化 |
jupyter | docker-* | 用户创建的在线构建镜像的pod |
jupyter | 其他 | 用户创建的在线notebook |
service | 全部 | 用户创建的内部服务和推理服务 |
pipeline | 全部 | 用户创建的pipeline任务 |