Allocate all GPU resources POC #1

XIAZY · 2023-09-11T21:53:18Z

$ terraform plan -var project_id="zeet-demo" -var region="us-west1" -var zone="us-west1-b" -var cluster_id="zeet-zeet-example-gcp" -var cluster_name="zeet-zeet-example-gcp" -var cluster_domain="random.app" -var user_id="random" -var enable_l4="true" -var enable_tpu="true" -var enable_a100="true" -no-color > out

>>>

  # module.gke.google_container_node_pool.pools["n1-standard-4-nvidia-v100"] will be created
  + resource "google_container_node_pool" "pools" {
      + cluster                     = "zeet-zeet-zeet-example-gcp"
      + id                          = (known after apply)
      + initial_node_count          = 0
      + instance_group_urls         = (known after apply)
      + location                    = "us-west1-b"
      + managed_instance_group_urls = (known after apply)
      + max_pods_per_node           = (known after apply)
      + name                        = "n1-standard-4-nvidia-v100"
      + name_prefix                 = (known after apply)
      + node_count                  = (known after apply)
      + node_locations              = [
          + "us-west1-b",
        ]
      + operation                   = (known after apply)
      + project                     = "zeet-demo"
      + version                     = (known after apply)

      + autoscaling {
          + max_node_count = 20
          + min_node_count = 0
        }

      + management {
          + auto_repair  = true
          + auto_upgrade = true
        }

      + node_config {
          + disk_size_gb      = 200
          + disk_type         = "pd-standard"
          + guest_accelerator = [
              + {
                  + count = 1
                  + type  = "nvidia-tesla-v100"
                },
            ]
          + image_type        = "COS_CONTAINERD"
          + labels            = {
              + "ZeetClusterId"                    = "zeet-zeet-example-gcp"
              + "ZeetUserId"                       = "random"
              + "cloud.google.com/gke-accelerator" = "nvidia-tesla-v100"
              + "cluster_name"                     = "zeet-zeet-zeet-example-gcp"
              + "node_pool"                        = "n1-standard-4-nvidia-v100"
              + "zeet.co/dedicated"                = "dedicated"
            }
          + local_ssd_count   = 0
          + machine_type      = "n1-standard-4"
          + metadata          = {
              + "ZeetClusterId"            = "zeet-zeet-example-gcp"
              + "ZeetUserId"               = "random"
              + "cluster_name"             = "zeet-zeet-zeet-example-gcp"
              + "disable-legacy-endpoints" = "true"
              + "node_pool"                = "n1-standard-4-nvidia-v100"
            }
          + oauth_scopes      = [
              + "https://www.googleapis.com/auth/cloud-platform",
              + "https://www.googleapis.com/auth/logging.write",
              + "https://www.googleapis.com/auth/monitoring",
            ]
          + preemptible       = false
          + service_account   = (known after apply)
          + spot              = false
          + tags              = [
              + "gke-zeet-zeet-zeet-example-gcp",
              + "gke-zeet-zeet-zeet-example-gcp-n1-standard-4-nvidia-v100",
            ]
          + taint             = (known after apply)

          + shielded_instance_config {
              + enable_integrity_monitoring = true
              + enable_secure_boot          = false
            }

          + workload_metadata_config {
              + mode = "GKE_METADATA"
            }
        }

      + timeouts {
          + create = "45m"
          + delete = "45m"
          + update = "45m"
        }

      + upgrade_settings {
          + max_surge       = 1
          + max_unavailable = 0
        }
    }

  # module.gke.google_container_node_pool.pools["n1-standard-8-nvidia-k80"] will be created
  + resource "google_container_node_pool" "pools" {
      + cluster                     = "zeet-zeet-zeet-example-gcp"
      + id                          = (known after apply)
      + initial_node_count          = 0
      + instance_group_urls         = (known after apply)
      + location                    = "us-west1-b"
      + managed_instance_group_urls = (known after apply)
      + max_pods_per_node           = (known after apply)
      + name                        = "n1-standard-8-nvidia-k80"
      + name_prefix                 = (known after apply)
      + node_count                  = (known after apply)
      + node_locations              = [
          + "us-west1-b",
        ]
      + operation                   = (known after apply)
      + project                     = "zeet-demo"
      + version                     = (known after apply)

      + autoscaling {
          + max_node_count = 20
          + min_node_count = 0
        }

      + management {
          + auto_repair  = true
          + auto_upgrade = true
        }

      + node_config {
          + disk_size_gb      = 200
          + disk_type         = "pd-standard"
          + guest_accelerator = [
              + {
                  + count = 1
                  + type  = "nvidia-tesla-k80"
                },
            ]
          + image_type        = "COS_CONTAINERD"
          + labels            = {
              + "ZeetClusterId"                    = "zeet-zeet-example-gcp"
              + "ZeetUserId"                       = "random"
              + "cloud.google.com/gke-accelerator" = "nvidia-tesla-k80"
              + "cluster_name"                     = "zeet-zeet-zeet-example-gcp"
              + "node_pool"                        = "n1-standard-8-nvidia-k80"
              + "zeet.co/dedicated"                = "dedicated"
            }
          + local_ssd_count   = 0
          + machine_type      = "n1-standard-8"
          + metadata          = {
              + "ZeetClusterId"            = "zeet-zeet-example-gcp"
              + "ZeetUserId"               = "random"
              + "cluster_name"             = "zeet-zeet-zeet-example-gcp"
              + "disable-legacy-endpoints" = "true"
              + "node_pool"                = "n1-standard-8-nvidia-k80"
            }
          + oauth_scopes      = [
              + "https://www.googleapis.com/auth/cloud-platform",
              + "https://www.googleapis.com/auth/logging.write",
              + "https://www.googleapis.com/auth/monitoring",
            ]
          + preemptible       = false
          + service_account   = (known after apply)
          + spot              = false
          + tags              = [
              + "gke-zeet-zeet-zeet-example-gcp",
              + "gke-zeet-zeet-zeet-example-gcp-n1-standard-8-nvidia-k80",
            ]
          + taint             = (known after apply)

          + shielded_instance_config {
              + enable_integrity_monitoring = true
              + enable_secure_boot          = false
            }

          + workload_metadata_config {
              + mode = "GKE_METADATA"
            }
        }

      + timeouts {
          + create = "45m"
          + delete = "45m"
          + update = "45m"
        }

      + upgrade_settings {
          + max_surge       = 1
          + max_unavailable = 0
        }
    }

  # module.gke.google_container_node_pool.pools["n1-standard-8-nvidia-p100"] will be created
  + resource "google_container_node_pool" "pools" {
      + cluster                     = "zeet-zeet-zeet-example-gcp"
      + id                          = (known after apply)
      + initial_node_count          = 0
      + instance_group_urls         = (known after apply)
      + location                    = "us-west1-b"
      + managed_instance_group_urls = (known after apply)
      + max_pods_per_node           = (known after apply)
      + name                        = "n1-standard-8-nvidia-p100"
      + name_prefix                 = (known after apply)
      + node_count                  = (known after apply)
      + node_locations              = [
          + "us-west1-b",
        ]
      + operation                   = (known after apply)
      + project                     = "zeet-demo"
      + version                     = (known after apply)

      + autoscaling {
          + max_node_count = 20
          + min_node_count = 0
        }

      + management {
          + auto_repair  = true
          + auto_upgrade = true
        }

      + node_config {
          + disk_size_gb      = 200
          + disk_type         = "pd-standard"
          + guest_accelerator = [
              + {
                  + count = 1
                  + type  = "nvidia-tesla-p100"
                },
            ]
          + image_type        = "COS_CONTAINERD"
          + labels            = {
              + "ZeetClusterId"                    = "zeet-zeet-example-gcp"
              + "ZeetUserId"                       = "random"
              + "cloud.google.com/gke-accelerator" = "nvidia-tesla-p100"
              + "cluster_name"                     = "zeet-zeet-zeet-example-gcp"
              + "node_pool"                        = "n1-standard-8-nvidia-p100"
              + "zeet.co/dedicated"                = "dedicated"
            }
          + local_ssd_count   = 0
          + machine_type      = "n1-standard-8"
          + metadata          = {
              + "ZeetClusterId"            = "zeet-zeet-example-gcp"
              + "ZeetUserId"               = "random"
              + "cluster_name"             = "zeet-zeet-zeet-example-gcp"
              + "disable-legacy-endpoints" = "true"
              + "node_pool"                = "n1-standard-8-nvidia-p100"
            }
          + oauth_scopes      = [
              + "https://www.googleapis.com/auth/cloud-platform",
              + "https://www.googleapis.com/auth/logging.write",
              + "https://www.googleapis.com/auth/monitoring",
            ]
          + preemptible       = false
          + service_account   = (known after apply)
          + spot              = false
          + tags              = [
              + "gke-zeet-zeet-zeet-example-gcp",
              + "gke-zeet-zeet-zeet-example-gcp-n1-standard-8-nvidia-p100",
            ]
          + taint             = (known after apply)

          + shielded_instance_config {
              + enable_integrity_monitoring = true
              + enable_secure_boot          = false
            }

          + workload_metadata_config {
              + mode = "GKE_METADATA"
            }
        }

      + timeouts {
          + create = "45m"
          + delete = "45m"
          + update = "45m"
        }

      + upgrade_settings {
          + max_surge       = 1
          + max_unavailable = 0
        }
    }

  # module.gke.google_container_node_pool.pools["n1-standard-8-nvidia-t4"] will be created
  + resource "google_container_node_pool" "pools" {
      + cluster                     = "zeet-zeet-zeet-example-gcp"
      + id                          = (known after apply)
      + initial_node_count          = 0
      + instance_group_urls         = (known after apply)
      + location                    = "us-west1-b"
      + managed_instance_group_urls = (known after apply)
      + max_pods_per_node           = (known after apply)
      + name                        = "n1-standard-8-nvidia-t4"
      + name_prefix                 = (known after apply)
      + node_count                  = (known after apply)
      + node_locations              = [
          + "us-west1-b",
        ]
      + operation                   = (known after apply)
      + project                     = "zeet-demo"
      + version                     = (known after apply)

      + autoscaling {
          + max_node_count = 20
          + min_node_count = 0
        }

      + management {
          + auto_repair  = true
          + auto_upgrade = true
        }

      + node_config {
          + disk_size_gb      = 200
          + disk_type         = "pd-standard"
          + guest_accelerator = [
              + {
                  + count = 1
                  + type  = "nvidia-tesla-t4"
                },
            ]
          + image_type        = "COS_CONTAINERD"
          + labels            = {
              + "ZeetClusterId"                    = "zeet-zeet-example-gcp"
              + "ZeetUserId"                       = "random"
              + "cloud.google.com/gke-accelerator" = "nvidia-tesla-t4"
              + "cluster_name"                     = "zeet-zeet-zeet-example-gcp"
              + "node_pool"                        = "n1-standard-8-nvidia-t4"
              + "zeet.co/dedicated"                = "dedicated"
            }
          + local_ssd_count   = 0
          + machine_type      = "n1-standard-8"
          + metadata          = {
              + "ZeetClusterId"            = "zeet-zeet-example-gcp"
              + "ZeetUserId"               = "random"
              + "cluster_name"             = "zeet-zeet-zeet-example-gcp"
              + "disable-legacy-endpoints" = "true"
              + "node_pool"                = "n1-standard-8-nvidia-t4"
            }
          + oauth_scopes      = [
              + "https://www.googleapis.com/auth/cloud-platform",
              + "https://www.googleapis.com/auth/logging.write",
              + "https://www.googleapis.com/auth/monitoring",
            ]
          + preemptible       = false
          + service_account   = (known after apply)
          + spot              = false
          + tags              = [
              + "gke-zeet-zeet-zeet-example-gcp",
              + "gke-zeet-zeet-zeet-example-gcp-n1-standard-8-nvidia-t4",
            ]
          + taint             = (known after apply)

          + shielded_instance_config {
              + enable_integrity_monitoring = true
              + enable_secure_boot          = false
            }

          + workload_metadata_config {
              + mode = "GKE_METADATA"
            }
        }

      + timeouts {
          + create = "45m"
          + delete = "45m"
          + update = "45m"
        }

      + upgrade_settings {
          + max_surge       = 1
          + max_unavailable = 0
        }
    }

  # module.gke.google_container_node_pool.pools["n1-standard-8-nvidia-v100"] will be created
  + resource "google_container_node_pool" "pools" {
      + cluster                     = "zeet-zeet-zeet-example-gcp"
      + id                          = (known after apply)
      + initial_node_count          = 0
      + instance_group_urls         = (known after apply)
      + location                    = "us-west1-b"
      + managed_instance_group_urls = (known after apply)
      + max_pods_per_node           = (known after apply)
      + name                        = "n1-standard-8-nvidia-v100"
      + name_prefix                 = (known after apply)
      + node_count                  = (known after apply)
      + node_locations              = [
          + "us-west1-b",
        ]
      + operation                   = (known after apply)
      + project                     = "zeet-demo"
      + version                     = (known after apply)

      + autoscaling {
          + max_node_count = 20
          + min_node_count = 0
        }

      + management {
          + auto_repair  = true
          + auto_upgrade = true
        }

      + node_config {
          + disk_size_gb      = 200
          + disk_type         = "pd-standard"
          + guest_accelerator = [
              + {
                  + count = 1
                  + type  = "nvidia-tesla-v100"
                },
            ]
          + image_type        = "COS_CONTAINERD"
          + labels            = {
              + "ZeetClusterId"                    = "zeet-zeet-example-gcp"
              + "ZeetUserId"                       = "random"
              + "cloud.google.com/gke-accelerator" = "nvidia-tesla-v100"
              + "cluster_name"                     = "zeet-zeet-zeet-example-gcp"
              + "node_pool"                        = "n1-standard-8-nvidia-v100"
              + "zeet.co/dedicated"                = "dedicated"
            }
          + local_ssd_count   = 0
          + machine_type      = "n1-standard-8"
          + metadata          = {
              + "ZeetClusterId"            = "zeet-zeet-example-gcp"
              + "ZeetUserId"               = "random"
              + "cluster_name"             = "zeet-zeet-zeet-example-gcp"
              + "disable-legacy-endpoints" = "true"
              + "node_pool"                = "n1-standard-8-nvidia-v100"
            }
          + oauth_scopes      = [
              + "https://www.googleapis.com/auth/cloud-platform",
              + "https://www.googleapis.com/auth/logging.write",
              + "https://www.googleapis.com/auth/monitoring",
            ]
          + preemptible       = false
          + service_account   = (known after apply)
          + spot              = false
          + tags              = [
              + "gke-zeet-zeet-zeet-example-gcp",
              + "gke-zeet-zeet-zeet-example-gcp-n1-standard-8-nvidia-v100",
            ]
          + taint             = (known after apply)

          + shielded_instance_config {
              + enable_integrity_monitoring = true
              + enable_secure_boot          = false
            }

          + workload_metadata_config {
              + mode = "GKE_METADATA"
            }
        }

      + timeouts {
          + create = "45m"
          + delete = "45m"
          + update = "45m"
        }

      + upgrade_settings {
          + max_surge       = 1
          + max_unavailable = 0
        }
    }

…

XIAZY · 2023-09-11T22:00:55Z

https://linear.app/zeet/issue/ZEET-3307/poc-create-a-proof-of-concept-that-works-for-creating-cloud-resources

Allocate all GPU resources POC

baa3ba8

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Allocate all GPU resources POC #1

Allocate all GPU resources POC #1

XIAZY commented Sep 11, 2023

XIAZY commented Sep 11, 2023

Allocate all GPU resources POC #1

Are you sure you want to change the base?

Allocate all GPU resources POC #1

Conversation

XIAZY commented Sep 11, 2023

XIAZY commented Sep 11, 2023