本記事では、データサイエンスを自社に取り入れる手順を説明します。
本記事の内容
・データサイエンスとは?
・データサイエンスによるデータ利活用の進め方
・データサイエンスによるデータ利活用で大事なこと
本記事の信頼性
・現在、本業でデータ分析案件に従事しつつ、データ利活用プロジェクトに参画中。
データサイエンスとは?
世界トップクラスのデータサイエンティスト集団が設立したDataRobot社によると、次の通り定義されてます。
データサイエンスは分野の専門知識、プログラミングのスキル、数学および統計の知識を組み合わた研究分野であり、データから有意義なインサイトを引き出します。
DataRobot(データロボット)社のホームページより引用
つまり、データサイエンスとは、「専門知識×プログラミング×数学・統計を組み合わせた手法で、データから新しい発見を見つけよう」というものです。
・分野の専門知識:ビジネスや科学等の専門知識
・プログラミングのスキル:Python(パイソン)など
・数学および統計の知識:確率論、線形代数など
データサイエンスによるデータ利活用の流れ
企業でデータサイエンスを取り入れ、業務活用までのイメージは次の通りとなります。
データサイエンスによるデータ利活用の進め方
企業におけるデータ利活用の推進は、情報システム部門と業務部門が協同して、次の流れで進めることとなります。
それでは、各ステップにおいて最低限やるべきことを書いていきます。
step
1課題設定
・業務部門、情報システム部門で業務上の課題・データ利活用で解決したいことを収集・集約する。
・選定した課題の発生要因または望ましい状態になっている要因を検討・推察する。(=仮説設定)
・仮説が正しいことが確認された場合の業務適用方法案を事前に検討する。
step
2データ収集
業務部門が利用しているシステム、またはインターネット等からデータを収集する。
step
3データ理解
業務部門、情報システム部の間で、データの意味、いつ、どのように。どこから抽出したか等のデータを理解して、共有する。
ここでは、項目名や値に不備(量が少ない,欠損,明らかな異常値)がないかも確認する。
step
4データ前処理
・エクセル、Python、ツール等を使って、データの結合・分割・集約等を実施する。
・データに不備、欠損値などは、ここで削除、空白にするなどの処理(データクレンジング)を行う。
step
5データ分析
Pythonやデータ分析ツールなどにデータを投入し,分析モデルを作成する。
モデルが課題の発生要因または望ましい状態になっている要因を推察できているかを確認する。
step
6業務への適用
分析結果を活用して、新規/変更となる業務内容を把握する。
業務への適用により,課題が解決されているか・解決される見込みかを確認する。
新規/変更となる業務が適切に運用されているかを確認する。
データサイエンスによるデータ利活用で大事なこと
ここまで、データサイエンスを進める上で、最低限行うべきことを書いてきました。
具体的には、企業毎にやるべきことが変わってきますが、大枠としては、本記事の内容の通りとなるかと思います。
ぜひ、これをベースに自分の企業における進め方を考えてみましょう。
最後に、特に企業でデータ利活用を推進する際に大事なことをご紹介します。
・IT部門と業務部門が密に連携すること
・仮説を持って検討し、業務への適用イメージを持つこと
・必ずしも新たな気付きがでるとは限らない
この3つを、常に意識してデータサイエンスによるデータ利活用の業務を進めることは極めて重要となります。
それでは、ぜひ身の回りにあるデータをうまく活用して、業務を効率化、高度化をしていきましょう。