2018年07月27日

BigQueryMLメモ。

Google Cloud next'18で発表のあった、BigQueryMLについて。
ドキュメント通り、サンプルを動かしてみたのでそのメモ。

サンプル通り動かすと、子供の体重を子供の性別・母親の妊娠期間・母親の年齢・母親の人種で予測するモデルを作って、評価して、予測する流れが体験できる。
母親の人種は文字列で入力していたが、エラーは出なかったので、自動でダミー変数に変えてくれているみたい。地味に便利。

以下のコマンドで、回帰係数も見れる。

SELECT * FROM bqml_tutorial.natality_model

キャプチャ.JPG

予測モデル構築には、1分30秒かかった。そんなもんだっけ。。13万行のデータではあるけど、随分時間がかかった気がする。
BigQueryで1分30秒待たされると、かなり時間がかかったように見えてしまう。。
とはいえ、仮にBigQueryのデータを抽出してdatalabで分析しようとすると、datalabの環境を作る時間だけで数分かかり、13万行をdatalabにもってくるだけで随分かかるので、そうやって比較するとかなり早い。「環境構築が不要で、データをBigQueryの外に出さずに、SQL文だけで動かせる」ことがポイント。

もっと巨大なデータ、複雑なモデル、、となるともっと時間がかかるんだろうが、多分BigQueryMLの対象ユーザーはBigQueryのSQL文は書けるが、python,Rを書けないがちょっとモデリングしてみたい、、という方なので、その点を考える必要はあまりないんだろう。
posted by 石田泰浩 at 16:30| Comment(0) | GCP | 更新情報をチェックする

2018年06月13日

Cloud Datalab:コンテナ内の対話型シェル セッションを開くまで

分析にDatalabを使っていて、その際にDockerコンテナにアクセスする必要があったので、手順を残しておく。
https://cloud.google.com/datalab/docs/how-to/working-with-notebooksの、「コマンドラインからgitを使用する」を参照。


1.SSHでdatalab VMに接続。

gcloud compute --project project-id ssh --zone zone instance-name

2.DockerイメージのコンテナIDのリストを取得。2つ出力された方の、Namesがdatalabの方のIDをメモ。

docker ps

3.コンテナ内の対話型シェル セッションを開く。

docker exec -it contena-id bash
続きを読む
posted by 石田泰浩 at 15:44| Comment(0) | GCP | 更新情報をチェックする