Merge pull request #1711 from navikt/datapakke-fritekst-avslagsvedtak

ramnav990 · web-flow · commit 5e600930ec9d · 2024-03-07T09:10:35.000Z
Datapakke for avslagsvedtak uten fritekst
diff --git a/datapakker/README.md b/datapakker/README.md
@@ -19,3 +19,89 @@ Start en manuell cronjob (husk å slett dersom den feiler):
 ```
 kubectl create job --namespace=supstonad --from=cronjobs/su-datapakke-soknad manuell-test-custom-name-here
 ```
+
+## How-to
+### Lage en ny datapakke
+
+#### prerequisites 
+1. legg inn `Google Cloud Platform` fra `myapps.microsoft.com`
+2. En i teamet må inn i BigQuery og gi deg tilgang til prosjektene.
+    - Klikk på selecten øverst til venste
+    - En Modal popper opp, klikk på mappen med et tannhjul ved siden av `new project`
+    - finn fram `supstonad-dev` & `supstonad-prod`
+    - klikk på knappen `add principal`
+    - Legg in nav-mail som principal, og disse rollene (trenger kanskje ikke alle - men er disse vi har på dette tidspunktet); 
+      - `BigQuery Admin`
+      - `BigQuery Data Editor`
+      - `BigQuery Data Owner`
+      - `BigQuery Data Viewer`
+      - `Service Account Admin`
+      - `Service Account Key Admin`
+      - `Service Usage Admin`
+      - `naisdeveloper` (for supstonad-prod)
+
+#### Oppsett
+En datapakke har 3 essensielle deler - en database connection, og config for GCP/BigQuery, og en naisjob.
+Hovedpoenget med en datapakke er å hente fram data, og lagre det i en BigQuery tabell, for å muligens visualisere det i Metabase.
+
+1. Lag en connection mot databasen
+2. kjør ønsket spørring mot databasen
+3. konfigurer GCP/BigQuery
+4. Lag en nais.yml & dockerfile for å kjøre jobben i nais
+
+#### GCP
+1. Gå til `console.cloud.google.com`
+2. Velg `BigQuery` fra Quick access
+3. Velg `supstonad-dev` eller `supstonad-prod` fra selecten øverst til venstre
+4. klikk 3-dotter på ressursen i venstre menyen -> `create dataset`
+   - `Dataset ID` skal være skal speile datasett navnet du satt i BigQuery configen i koden
+   - location settes til `Region` & `europe-north1`
+   - Klikk `create dataset`
+5. Klikk 3-dotter på datasettet du nettopp lagde -> `create table`
+   - create table from `empty table`
+   - `table` skal speile tabell navnet du satt i BigQuery configen i koden
+   - Legg til ønskelig schema
+     - eksempel `id` `string` `required`
+   - klikk `create table`
+6. Det samme må nå gjøres for det andre miljøet
+
+
+### Visualisering av data fra BigQuery
+
+#### NADA
+Før du kan visualisere dataen ved bruk av Metabase, må vi legge til datapakken vår i NADA.
+1. Gå til `data.intern.nav.no` (dev - `data.intern.dev.nav.no`)
+2. Finn fram til supstonad - eksempel på hvordan du kan finne fram
+   - klikk på `Utforsk områder`
+   - velg `Produkområde Pensjon` i selected øverst til venstre
+   - velg `SU` fra menyen til venstre
+   - Klikk på `Produkter` fanen øverst i midten
+   - Klikk på `supstonad`
+   - Gjerne utforsk hva vi allerede har 
+3. Ved menyen til venstre, klikk `Legg til datasett`
+4. Fyll inn informasjon som ønsket
+   - `Velg tabell eller view` lister opp bare prod-basen i BigQuery. Dersom du bare har lagt til dev på dette tidspunktet, må du gå tilbake, og legge til prod.
+   - Klikk `Lagre`
+5. Legg til tilganger hvis den ikke er åpen for alle. 
+6. sjekk at datasettet ser riktig ut
+7. Under overskiften, har du forskjellige links, trykk på `Legg til metabase` hvis du har ønske om å visualisere datasettet i Metabase
+
+Mer info om NADA, etc kan finnes på `docs.knada.io`
+
+
+#### Metabase
+Hvis du vil visualisere dataen fra BigQuery, kan dette gjøres i Metabase. Datasettet må ha vært lagt til i NADA. Hvis ikke dette er gjort, må du gjøre det først. 
+Tilgang til metabase kommer når du har lagt til GCP i `myapps.microsoft.com` (???)
+1. gå og logg inn til `metabase.intern.nav.no` (dev - `metabase.intern.dev.nav.no`)
+2. Åpne sidepanelet til venstre: PO Pensjon -> Team Supplerende Stønad
+3. Klikk på `new`
+   - Her er det litt valg muligheter.
+   - Dersom du er interessert i å lage en basic spørring mot datasettet vi la inn i NADA, velger du `Question`
+   - Dersom du vil gruppere sammen questions, kan du velge `Dashboard`
+     - Ved valg av `Question`
+       1. Velg `Raw Data`
+       2. skriv inn navnet på tabellen som du lagde i GCP  
+       3. Visaliser dataen som øsnkelig
+       4. Klikk `Visualize`
+
+Litt mer info om metabase kan finnes på `docs.knada.io/analyse/metabase`
diff --git a/datapakker/fritekstAvslag/Dockerfile b/datapakker/fritekstAvslag/Dockerfile
@@ -0,0 +1,9 @@
+FROM ghcr.io/navikt/baseimages/temurin:21
+
+COPY init-scripts/* /init-scripts/
+COPY datapakker/fritkestAvslag/build/libs/*.jar ./
+
+ENV JAVA_OPTS="-XX:MaxRAMPercentage=75 \
+               -XX:+HeapDumpOnOutOfMemoryError \
+               -XX:HeapDumpPath=/oom-dump.hprof"
+RUN echo 'java -XX:MaxRAMPercentage=75 -XX:+PrintFlagsFinal -version | grep -Ei "maxheapsize|maxram"' > /init-scripts/0-dump-memory-config.sh
diff --git a/datapakker/fritekstAvslag/build.gradle.kts b/datapakker/fritekstAvslag/build.gradle.kts
@@ -0,0 +1,6 @@
+dependencies {
+    implementation(platform("com.google.cloud:libraries-bom:26.33.0"))
+    implementation("com.google.cloud:google-cloud-bigquery")
+    implementation(project(":common:domain"))
+    implementation(project(":common:infrastructure"))
+}
diff --git a/datapakker/fritekstAvslag/nais-dev.json b/datapakker/fritekstAvslag/nais-dev.json
@@ -0,0 +1,10 @@
+{
+  "secret_env": "dev",
+  "cluster": "preprod",
+  "env": {
+    "GCP_PROJECT": "supstonad-dev-0e48",
+    "VAULT_MOUNTPATH": "postgresql/preprod-fss/",
+    "DATABASE_NAME": "supstonad-db-15-dev",
+    "DATABASE_JDBC_URL": "jdbc:postgresql://b27dbvl030.preprod.local:5432/supstonad-db-15-dev"
+  }
+}
diff --git a/datapakker/fritekstAvslag/nais-prod.json b/datapakker/fritekstAvslag/nais-prod.json
@@ -0,0 +1,10 @@
+{
+  "secret_env": "prod",
+  "cluster": "prod",
+  "env": {
+    "GCP_PROJECT": "supstonad-prod-9599",
+    "VAULT_MOUNTPATH": "postgresql/prod-fss/",
+    "DATABASE_NAME": "supstonad-db-15-prod",
+    "DATABASE_JDBC_URL": "jdbc:postgresql://A01DBVL036.adeo.no:5432/supstonad-db-15-prod"
+  }
+}
diff --git a/datapakker/fritekstAvslag/nais.yml b/datapakker/fritekstAvslag/nais.yml
@@ -0,0 +1,23 @@
+apiVersion: nais.io/v1
+kind: Naisjob
+metadata:
+  labels:
+    team: supstonad
+  name: su-datapakke-fritekstAvslag
+  namespace: supstonad
+spec:
+  # Run every 1st day of the month at 00:15
+  schedule: '15 0 1 * *'
+  image: {{ image }}
+  concurrencyPolicy: Replace
+  vault:
+    enabled: true
+    paths:
+      - mountPath: /var/run/secrets/nais.io/vault
+        kvPath: /secret/supstonad/{{ secret_env }}
+  webproxy: true
+  env:
+     {{#each env}}
+      - name: {{@key}}
+        value: "{{this}}"
+     {{/each}}
diff --git a/datapakker/fritekstAvslag/src/main/kotlin/no/nav/su/se/bakover/datapakker/fritekstAvslag/App.kt b/datapakker/fritekstAvslag/src/main/kotlin/no/nav/su/se/bakover/datapakker/fritekstAvslag/App.kt
@@ -0,0 +1,117 @@
+package no.nav.su.se.bakover.datapakker.fritekstAvslag
+
+import com.google.auth.oauth2.GoogleCredentials
+import com.google.cloud.bigquery.BigQuery
+import com.google.cloud.bigquery.BigQueryOptions
+import com.google.cloud.bigquery.FormatOptions
+import com.google.cloud.bigquery.JobId
+import com.google.cloud.bigquery.JobStatistics
+import com.google.cloud.bigquery.QueryJobConfiguration
+import com.google.cloud.bigquery.TableId
+import com.google.cloud.bigquery.WriteChannelConfiguration
+import no.nav.su.se.bakover.database.Postgres
+import no.nav.su.se.bakover.database.VaultPostgres
+import org.slf4j.LoggerFactory
+import java.io.File
+import java.io.FileInputStream
+import java.io.InputStream
+import java.nio.channels.Channels
+import java.time.YearMonth
+import java.util.UUID
+import javax.sql.DataSource
+
+private val logger = LoggerFactory.getLogger("DatapakkerFritekstAvslag")
+private const val LOCATION = "europe-north1"
+
+fun main() {
+    val databaseUrl = System.getenv("DATABASE_JDBC_URL")
+    val antallAvslagsvedtakUtenFritekst = VaultPostgres(
+        jdbcUrl = databaseUrl,
+        vaultMountPath = System.getenv("VAULT_MOUNTPATH"),
+        databaseName = System.getenv("DATABASE_NAME"),
+    ).getDatasource(Postgres.Role.ReadOnly).let {
+        logger.info("Startet database med url: $databaseUrl")
+        it.use { hentAntallAvslagsvedtakUtenFritekst(it) }
+    }
+
+    deleteAllAndWriteToBigQuery(antallAvslagsvedtakUtenFritekst = antallAvslagsvedtakUtenFritekst)
+}
+
+fun hentAntallAvslagsvedtakUtenFritekst(datasource: DataSource): List<AvslagsvedtakUtenFritekst> {
+    return datasource.connection.let {
+        it.use {
+            it.prepareStatement(
+                """
+                    select count(d.generertdokumentjson), to_char(date_trunc('month', v.opprettet), 'YYYY-MM') as grupperingsdato
+                    from vedtak v
+                             join dokument d on v.id = d.vedtakid
+                    where length(trim(d.generertdokumentjson ->> 'fritekst')) < 1
+                      and v.vedtaktype = 'AVSLAG'
+                    group by grupperingsdato;
+                """.trimIndent(),
+            ).executeQuery().let {
+                val result = mutableListOf<AvslagsvedtakUtenFritekst>()
+
+                while (it.next()) {
+                    result.add(
+                        AvslagsvedtakUtenFritekst(
+                            antall = it.getInt("count"),
+                            forMånedÅr = YearMonth.parse(it.getString("grupperingsdato")),
+                        ),
+                    )
+                }
+
+                result.toList()
+            }
+        }
+    }
+}
+
+fun deleteAllAndWriteToBigQuery(
+    jsonKey: InputStream = FileInputStream(File("/var/run/secrets/nais.io/vault/bigquery")),
+    project: String = System.getenv("GCP_PROJECT"),
+    dataset: String = "avslagsvedtak",
+    table: String = "antallAvslagsvedtakUtenFritekst",
+    antallAvslagsvedtakUtenFritekst: List<AvslagsvedtakUtenFritekst>,
+) {
+    val credentials = GoogleCredentials.fromStream(jsonKey)
+
+    val bq = BigQueryOptions
+        .newBuilder()
+        .setCredentials(credentials)
+        .setLocation(LOCATION)
+        .setProjectId(project)
+        .build().service
+
+    deleteAll(bq)
+
+    val jobId = JobId.newBuilder().setLocation(LOCATION).setJob(UUID.randomUUID().toString()).build()
+
+    val configuration = WriteChannelConfiguration.newBuilder(
+        TableId.of(project, dataset, table),
+    ).setFormatOptions(FormatOptions.csv()).build()
+
+    val job = bq.writer(jobId, configuration).let {
+        it.use { channel ->
+            Channels.newOutputStream(channel).use { os ->
+                os.write(antallAvslagsvedtakUtenFritekst.toCSV().toByteArray())
+            }
+        }
+        it.job.waitFor()
+    }
+
+    logger.info("job statistikk: ${job.getStatistics<JobStatistics.LoadStatistics>()}")
+}
+
+fun deleteAll(
+    bq: BigQuery,
+    dataset: String = "avslagsvedtak",
+    table: String = "antallAvslagsvedtakUtenFritekst",
+) {
+    val query = QueryJobConfiguration.newBuilder(
+        "DELETE FROM `$dataset.$table` WHERE true",
+    ).setUseLegacySql(false).build()
+
+    val result = bq.query(query)
+    logger.info("slettet antall linjer ${result.totalRows}")
+}
diff --git a/datapakker/fritekstAvslag/src/main/kotlin/no/nav/su/se/bakover/datapakker/fritekstAvslag/AvslagsvedtakUtenFritekst.kt b/datapakker/fritekstAvslag/src/main/kotlin/no/nav/su/se/bakover/datapakker/fritekstAvslag/AvslagsvedtakUtenFritekst.kt
@@ -0,0 +1,12 @@
+package no.nav.su.se.bakover.datapakker.fritekstAvslag
+
+import java.time.YearMonth
+
+data class AvslagsvedtakUtenFritekst(
+    val antall: Int,
+    val forMånedÅr: YearMonth,
+)
+
+fun List<AvslagsvedtakUtenFritekst>.toCSV(): String = this.joinToString(separator = "\n") {
+    "${it.antall},${it.forMånedÅr}"
+}
diff --git a/settings.gradle.kts b/settings.gradle.kts
@@ -21,6 +21,7 @@ include("common:infrastructure:cxf")
 include("common:presentation")
 include("database")
 include("datapakker:soknad")
+include("datapakker:fritekstAvslag")
 include("dokument:application")
 include("dokument:domain")
 include("dokument:infrastructure")