cube studio开源云原生一站式机器学习/深度学习AI平台,支持sso登录,多租户/多项目组,大数据平台对接,notebook在线开发,拖拉拽任务流pipeline编排,多机多卡分布式训练,超参搜索,推理服务VGPU,边缘计算,serverless,标注平台,自动化标注,数据集管理,大模型微调,vllm大模型推理,llmops,私有知识库,AI模型应用商店,支持模型一键开发/推理/微调,支持国产cpu/gpu/npu芯片,支持RDMA,支持pytorch/tf/mxnet/deepspeed/paddle/colossalai/horovod/spark/ray/volcano分布式
1、更新torch server、tfserving、triton server推理服务镜像版本 2、k8s dashboard web界面去除不可控区域,避免安全问题 3、升级任务模板 4、增加智能聊天功能 5、增加任务优先级 6、增加计量计费 7、增加算力额度控制 8、支持添加端口黑名单 9、修正数据集备份功能 10、添加notebook镜像保存 11、yolov3更新为yolov7,推理web使用gradio 12、其他的文档修正和代码bug修正
完善文档 完善初始化示例 完善测试脚本 更换新版本整体资源界面 支持暂停和恢复任务流 任务流支持任务推荐 分布式训练支持gpu和rdma,拉取秘钥等信息传递 全面修改国内网络源的使用 新增ib卡的监控 修复gpu显存占用率和gpu利用率bug 标准化ml server配置格式和接口格式 支持统一镜像服务下多仓库秘钥配置 新增各类型特征处理模板 新增时间序列算法模板 aihub修改统一前缀/aihub/$name/和/aihub/$name/api 前后端支持国际化 支持数据集一键探索功能 删除冗余前端代码 支持ipvs 的k8s网络模型 支持分布式训练时单机调试分布式worker镜像 支持ssh隧道联动notebook sshd 添加内网离线环境部署打包的修正方法 全面升级python基础包 支持centos8和ubuntu22.04部署 支持sqllab,菜单,可配置化 添加datax,sqllab,维表对接postgres的示例 增加数据库结构说明 增加登录验证,强密码,远程用户,登录频率限制,密码密文传输等 支持gpt4对话 整体资源页面,支持管理员批量删除 增加修改和删除,清理等操作的历史记录 修正智能聊天在特殊返回值下内容显示不全的问题 修正后端错别字,中英文和非必要的冗余代码 添加任务流导入模板 删除任务时,删除相同run-id的service 修正任务超时的配置 去除frameworkcontroller组件,nni组件不再依赖 添加跳过功能 workflow pod人性化展示以及中文显示 修正整体资源界面,vgpu调度显示
完善文档 完善初始化示例 完善测试脚本 更换新版本整体资源界面 支持暂停和恢复任务流 任务流支持任务推荐 分布式训练支持gpu和rdma,拉取秘钥等信息传递 全面修改国内网络源的使用 新增ib卡的监控 修复gpu显存占用率和gpu利用率bug 标准化ml server配置格式和接口格式 支持统一镜像服务下多仓库秘钥配置 新增各类型特征处理模板 新增时间序列算法模板 aihub修改统一前缀/aihub/$name/和/aihub/$name/api 前后端支持国际化 支持数据集一键探索功能 删除冗余前端代码 支持ipvs 的k8s网络模型 支持分布式训练时单机调试分布式worker镜像 支持ssh隧道联动notebook sshd 添加内网离线环境部署打包的修正方法 全面升级python基础包 支持centos8和ubuntu22.04部署 支持sqllab,菜单,可配置化 添加datax,sqllab,维表对接postgres的示例 增加数据库结构说明 增加登录验证,强密码,远程用户,登录频率限制,密码密文传输等 支持gpt4对话 整体资源页面,支持管理员批量删除 增加修改和删除,清理等操作的历史记录 修正智能聊天在特殊返回值下内容显示不全的问题 修正后端错别字,中英文和非必要的冗余代码 添加任务流导入模板 删除任务时,删除相同run-id的service 修正任务超时的配置 去除frameworkcontroller组件,nni组件不再依赖 添加跳过功能 workflow pod人性化展示以及中文显示 修正整体资源界面,vgpu调度显示
完善文档 完善初始化示例 完善测试脚本 更换新版本整体资源界面 支持暂停和恢复任务流 任务流支持任务推荐 分布式训练支持gpu和rdma,拉取秘钥等信息传递 全面修改国内网络源的使用 新增ib卡的监控 修复gpu显存占用率和gpu利用率bug 标准化ml server配置格式和接口格式 支持统一镜像服务下多仓库秘钥配置 新增各类型特征处理模板 新增时间序列算法模板 aihub修改统一前缀/aihub/$name/和/aihub/$name/api 前后端支持国际化 支持数据集一键探索功能 删除冗余前端代码 支持ipvs 的k8s网络模型 支持分布式训练时单机调试分布式worker镜像 支持ssh隧道联动notebook sshd 添加内网离线环境部署打包的修正方法 全面升级python基础包 支持centos8和ubuntu22.04部署 支持sqllab,菜单,可配置化 添加datax,sqllab,维表对接postgres的示例 增加数据库结构说明 增加登录验证,强密码,远程用户,登录频率限制,密码密文传输等 支持gpt4对话 整体资源页面,支持管理员批量删除 增加修改和删除,清理等操作的历史记录 修正智能聊天在特殊返回值下内容显示不全的问题 修正后端错别字,中英文和非必要的冗余代码 添加任务流导入模板 删除任务时,删除相同run-id的service 修正任务超时的配置 去除frameworkcontroller组件,nni组件不再依赖 添加跳过功能 workflow pod人性化展示以及中文显示 修正整体资源界面,vgpu调度显示
1、全面替换基础组件的版本,基础组件基本支持arm64算力系统 2、修改初始化配置,兼容更多k8s部署工具。 3、替换基础部署k8s版本为1.21 4、升级优化各类型job模板 5、添加nfs的基础部署,添加harbor的基础部署,去除kube-batch 6、修正部分错别字和代码风格优化
基础架构
平台:
其他:
1、部署: 简化istio部署模式/prometheus部署、修正istio gateway部署端口重复问题, 合并部署tfjob/pytorchjob/mpijob/mxnetjob, 减少部署镜像, 支持k8s 1.20,1.21,1.22等版本
2、平台: 优化前端ui风格,修正前端构建方法 支持前后端独立部署方式, 新增离线表/指标/维表/数据集/数据etl/模型管理功能, 修改水印和pipeline跳转链接, 禁用jupyter的xsrf和网关请求大小限制, 支持非80端口的网关入口, 支持k8s共享内存的自动挂载。 补充coredns的配置,支持内网特殊dns解析 添加全局用户pod的监控,添加用户任务资源占用监控,修正部分监控页面打开bug, 添加推理服务sidecar功能,支持ip端口形式的流量监控。 添加服务的帮助链接, 添加bug report链接, 支持多集群下,不同泛域名, 支持右侧菜单自定义配置, 添加支持bigdata machinelearning deeplearning版本jupyter,支持ssh直连notebook,支持notebook中hadoop,spark,flink数据分析 添加支持服务部署中内外双网卡和单域名模式, 添加支持密码修改,支持跨域共享cookie认证,和ifram嵌入跨域问题, 增加任务跳过功能,增加项目组切换后,挂载自动补充 添加数据集/模型/推理/内部服务/模板/pipeline示例, 添加chatbot/cartoonize/openpose/face/yolo/wenet等内部服务示例, 添加triton/tfserving/torchserver镜像构建和推理demo 添加mpi/spark-serverless/horovod/paddle/mxnet/tfjob-k8s/分布式训练, 添加hadoop模板,支持spark任务提交 添加ner中文实体识别模板,修正模板的使用说明和参数说明, github补充wiki和英文版说明, 代码规范升级,修正数个isues bug
3、aihub: 平台添加aihub 应用市场查看, 开源aihub python sdk, 深度学习,添加算法模型animegan,ddddocr,deoldify,detectron2,face-paint,gfpgan,humanseg,paddleocr,panoptic,stable-diffusion,yolov3 传统机器学习,添加算法示例AdaBoost,Bayesian,CRF,CatBoost,FM,HMM,LDA,MCMC,MEM,PCA,SVD,SVM,decision_tree,gbdt,kmean,knn,lightGBM,linear_regression,logistic_regression,neural_networks,random_forest,xgboost,关联分析,最小生成树,极大似然估计,聚类,集成学习
1、部署:修正istio/prometheus部署、独立部署istio/tfjob/pytorchjob/mpijob/mxnetjob,简化部署镜像 2、平台:优化前端ui,添加前后端分类部署方式,新增hive离线表/指标/维表/数据集/数据etl/模型管理功能,修改水印和pipeline跳转链接,禁用jupyter的xsrf和网关请求大小限制,支持非80端口的网关入口,更新k8s共享内存的自动挂载。补充coredns的配置,添加全局用户pod的监控,添加推理服务sidecar功能,支持端口形式的请求监控。添加服务的帮助链接,前端添加retry_info能力。 3、模板:添加mpi/spark-serverless/horovod/paddle/mxnet/tfjob-k8s/分布式训练,hadoop模板,ner中文实体识别模板,修正模板的使用说明和参数说明 4、example:添加数据集/模型/推理/内部服务/模板/pipeline示例,添加chatbot/cartoonize/openpose/face/yolo/wenet等内部服务示例,添加triton/tfserving/torchserver镜像构建和推理demo 5、github补充wiki和英文版说明
1、部署:修改仓库地址、修正istio prometheus部署、独立部署istio、独立部署tfjob/pytorchjob/mpijob/mxnetjob、添加prometheus持久化 2、镜像:添加新gpu构建镜像、添加推理服务的构建镜像 3、功能:添加pipeline/service/job-template初始化方法,pipeline自动排版,添加支持拉取策略为IfNotPresent、修复边缘模式下jupyter打不开的问题 4、模板:添加mpi-operator/spark-operator、添加horovod分布式、spark-serverless分布式、tfjob-k8s、替换stern为in cluster模式、 5、demo:添加chatbot/cartoonize/openpose/face/yolo/wenet等推理服务示例、添加人脸识别web镜像、模板demo示例
AIhub新增模板:
数据/算法模板: datax(单机异构数据同步)/xgb(单机训练)/deploy-service(单机部署推理服务)/ray(分布式数据处理)/ray-sklearn(分布式传统机器学习)/volcano(分布式计算)/pytorchjob-train(分布式训练)/media-download(分布式文件下载)/video-audio(分布式提取音频)/video-img(分布式视频抽帧)/model-offline-predict(分布式模型离线推理)/tfjob-train(分布式训练)/tfjob-runner(分布式训练)/tfjob-plain(分布式训练)/tf-distribute-model-evaluation(分布式评估)/tf-model-offline-predict(分布式离线推理)/kaldi-distributed-on-volcanojob(分布式训练)
全自动建模pipeline: darknet目标识别
推理服务: yolo目标识别
功能优化:可视化优化,边缘能力支持,dag自动编排,单机部署优化,实时训练
体验地址:http://159.75.208.175/
边缘集群部署调度以及边缘全自动建模流程:https://www.bilibili.com/video/BV1qY4y1x7Yy/
欢迎图像、文本、语音、视频、推广搜、量化、风控等各行业算法同学,参与共建AIhub(数据/算法模板,全自动建模pipeline,推理服务)市场。