皆さんは Notebook 環境で作業をしていて「以前の記述に戻したい。」「プロジェクト初期の状態に遡りたい。」といったことはないでしょうか? ここ数年データ分析プラットフォームとしてシェアを大きく伸ばしている Databricks には、これらを実現する機能が提供されています。
今回はそんな Notebook の巻き戻し機能である Revision history についてご紹介していきます!
Revision historyはDatabricks上の操作ログから差分保存を行い過去の作業のNotebook に復元することができる機能です。
本記事では以下の流れで紹介します
・Databricks概要
・Revision history機能概要
・Revision historyの使用方法
本記事で取り扱うDatabricks、notebook内の Databricks、Databricks上のnotebook、Revision historyの機能については2022年5月時点での情報です。
<Databricks概要>
今回の記事ではDatabricksとはそもそもなにかを簡単に紹介させて頂きます。
・データ分析スタートアップの米データブリックス(Databricks)
社が開発した統合分析プラットフォームです。ストリーミング
データの取得から統合されたNotebookインターフェイスの分析環境、構造・非構造問わず大規模なデータの高速処理等など、AI/MLを行う際に必要な技術がオールインで提供されるサービスです。
Databricksは誰でも簡単に高度なデータ解析や構築・デプロイが可能なことが特徴の1つですが、Databricks上の Notebookはローカルで実行するJupyter Notebook と比較し、様々な機能が提供されています。
■Notebook
Databricks上で展開されるNotebookは、
複数人での利用を前提としリアルタイムで編集・コメント等書き込む等の操作が可能です。
加えて同じnotebook内で複数言語を使用し、データ加工や分析を行うこともできるので用途に合わせた対応も可能です。
Databricksについて詳しく知りたい方はこちらの記事を参照してください。
<Revision history機能概要>
Revision historyとはnotebookの操作を復元、つまり戻すことができる機能です。
Databricksでは共同開発が可能であり、自分以外の作業者の変更履歴を残すこともできますが、Revision history ではさらに、自分や他者が行った操作が随時記録され、履歴として残されます。
そのため、失敗してしまった操作を戻したい!と思った際にその履歴を選択することで、選択したところまで操作を戻すことができるタイムマシンのような機能です。
この機能は自分が変更した部分だけではなく、共同作業を行っている人が操作ミスをしてしまったという際にもリカバリーができるため、共同編集におけるリスクを減らすことができます。
そんな Revision historyの操作方法等について紹介します。
<Revision history>の使用方法
Revision historyを使用するのはとても簡単で、主に以下の手順を踏んで使用されます。
・Revision historyを展開する
・過去の戻したい作業まで選択し戻す
この作業についてさらに詳しく紹介します。
■Revision historyを展開する
Revision historyは主に書き込んでいたコードを変更してしまった、前のものに戻したいといった際に使用するものです。使い方としては、開いているワークスペースの右上にRevision historyがあるので、そこをクリックします。
■過去の戻したい作業まで選択し戻す
Revision history をクリックし展開すると画像のように今までの変更履歴が示されています。戻したいRevisionを選択することで任意に戻すこと、古いバージョンのnotebookからコードをコピーすること等が可能です。
特に非同期かつ共同作業等行っている時には、消してはいけないコードを共同作業人が消してしまったという事案も多くあります。Revision historyは変更した時間が保存されているだけではなく、変更したユーザーも記録され、
重要な編集点が特定しやすく、過去のコードをコピーし現在の状態に持ってくることができます。
Databricksのツールについては弊社エンジニアが以前書いたこちらの記事を参照ください。
<まとめ>
ここではDatabricksのnotebook Revision historyを紹介しました。
・Revision historyはNotebookを過去の状態に戻す機能
・クラウド上のNotebookとして共同作業での利用で発生する削除などのリスクに対応
・過去のコードを持ち出しや、現在のコードを置き換え変更するなどの利用が可能
これらのデータ分析担当者にとっては嬉しい機能かと思います、今回ご紹介したnotebook Revision historyはnotebookの機能のごく一部です。Databricksは他にも多くの便利な機能が提供され、グローバルでブームとなっています。
ここまでDatabricksのnotebookの Revision history の機能について紹介していきましたがいかがでしょうか。
今回、株式会社ナレッジコミュニケーションでは、小売・消費財メーカー様向けのDatabricksのデータ分析セミナー【Databricks on AWS データ分析セミナー】を開催することになりました。ここでは紹介しきれなかったDatabricksの機能や動作についてハンズオン形式で、実際に触れることができます。
内容、参加URLは以下の通りになりますので、興味がある方はぜひご参加ください。
■開催日
5月17日(火)16時~17時30分
■ハンズオンセミナー タイトル
[Databricks on AWS データ分析セミナー]
小売・消費財メーカー様向け、ビジネス現場で始めるAIを活用した需要予測
■ハンズオンセミナーアジェンダ
①セミナーパート(データ分析PJの進め方等)
・機械学習システム運用に至るまでのハードル
・最新のデータ分析アーキテクチャの考え方 – MLOps
・AWS サービス概要
・まとめ
・AIプロジェクトにおける弊社ご支援 紹介
②ハンズオンパート(需要予測モデルの構築等)
・サンプルデータを活用した需要予測 ハンズオン
・全体統括/QA
■セミナーURL
https://knowcom.connpass.com/event/244566/