30歳からのプログラミング

30歳無職から独学でプログラミングを開始した人間の記録。

Google Cloud

Google Cloud のデータプロファイル機能で BigQuery のデータを継続的に検査する

Google Cloud の Sensitive Data Protection には「データプロファイル」と呼ばれる機能がある。 この機能を使うことで、機密情報が入ってしまっていないかなどの検査を、大量のデータに対して実施できる。 この記事では、データプロファイルを利用するにあ…

BigQuery ポリシータグによるカラム単位でのアクセス制御と dbt によるポリシータグの付与

BigQuery にはポリシータグという仕組みがあり、これを使うことで BigQuery のリソースに対してきめ細やかなアクセス制御を行うことができる。 この記事では、ポリシータグを使って任意のカラムに対するアクセス制御を実現する方法を紹介する。 ポリシータグ…

Cloud DLP を使って BigQuery に入っている個人情報を検知する

Cloud Data Loss Prevention (以下 Cloud DLP) は機密データを保護するための Google Cloud のサービス。渡したデータや指定したストレージに入っているデータに対して、機密データが含まれていないか検査したり、含まれていた場合に匿名化を行ったりするこ…

dbt の Python model を Dataproc クラスタで実行する

dbt には Python model という仕組みがある。これを使うことで SQL ではなく Python で model を書くことができ、SQL では不可能な処理が可能になる。 データウェアハウスとして BigQuery を使っている場合、 Dataproc を利用して Python model を動かすのが…

Dataproc クラスタで PySpark ジョブを実行して学ぶサービスアカウントの初歩

Dataproc は Google Cloud が提供しているサービスのひとつ。Dataproc を使うことで、Apache Spark や Hadoop を利用するためのインフラを簡単に用意することができる。 そして Python で Apache Spark を使うための仕組みが PySpark 。 Dataproc を利用する…

Google Cloud クライアントライブラリがアクセスするプロジェクトはどのように決まるのか

Google Cloud のクライアントライブラリを使うと API を通して Google Cloud のリソースにアクセスすることができる。 そして多くの場合どのプロジェクトのリソースにアクセスするのかを指定する必要があるが、その指定方法は複数ある。 この記事では、プロ…

gcloud auth application-default login は何をしているのか

dbt でデータウェアハウスとして BigQuery を使う際、ローカル開発においては OAuth 方式を使うことが推奨されている。 そしてその場合はgcloud auth application-default loginコマンドを実行する必要がある。 確かにこのコマンドを実行すると BigQuery と…

gcloud CLI の認証とプロパティと構成

gcloud CLI は Google Cloud のリソースを管理するための CLI ツールだが、これを使ってリソースにアクセスするためには当然、アカウントの認証を行わなければならない。そして gcloud CLI では様々な操作を行えるが、その挙動を自分の意図した通りに制御す…