ビッグデータの衝撃  城田真琴  2012.12.11.


2012.12.11. ビッグデータの衝撃 巨大なデータが戦略を決める

著者  城田真琴 野村総合研究所イノベーション開発部上席研究員。北海道旭川出身。北大工卒後、大手メーカーのシステムコンサルティング部門を経て、01年より現職。ITアナリストと同時に、ITの将来予測とベンダー、ユーザー双方に対する提言を行う。専門領域はクラウド、ビジネス・アナリティックス、M2M(Machine to Machine)IoT(Internet of Things)など

発行日           2012.7.12. 発行
発行所           東洋経済新報社

                                                  000   キロバイト
                                            000,000   メガバイト
                                      000,000,000   ギガバイト
                                000,000,000,000   テラバイト
                          000,000,000,000,000   ペタバイト
                    000,000,000,000,000,000   エクサバイト

はじめに
グーグル、アマゾン、フェイスブック、ツイッター。これらに共通するのはビッグデータを活用して大きな収益を上げてきた企業の元祖
グーグルで言えば、月間900億回のウェブ検索のために、毎月600ペタバイト(ギガの百万倍)のデータ量を処理。分析対象は、グーグルのサービスを利用するユーザーのありとあらゆるデータ
検索語を途中まで入れると、追加検索語の候補が表示されるが、ユーザーの厖大な入力履歴の分析がこれら追加検索語のサジェストを可能にしている
「入力修正機能」(いわゆる「もしかして」機能)も同様の仕組み
アマゾンの、「この商品を買った人はこんな商品も買っています」という、商品のリコメンデーション・システムを作り上げたのも、同じくユーザーの行動履歴データを分析するところから出てくる
ツイッターでは、1250百万ものつぶやきが発生(2011.10.時点)。個々のデータ量は200バイトで、平均的な1日のトラフィックは48ギガバイト
フェイスブックの月間アクティブ・ユーザーは845百万人、コンテンツをユーザー自身が作り出す最大のサイト。平均的なユーザーは1か月に90個のコンテンツを作成
Facebook全体では30ペタバイト以上のデータを保有 ⇒ 「(もしかして)知り合いかも?」の気持ち悪いほどの精度の高さは、この膨大なデータを精緻に分析した結果
膨大なデータを分析し、価値ある洞察や知見を得ようとする取り組みを「ビッグデータ」と呼ぶ
同じ大量データと言っても、従来から存在する売上や在庫量当の数値データと、ネット企業が扱うクリック・ストリーム・データやソーシャル・データはその管理や分析手法に大きな違いがある ⇒ ビッグデータが扱うのは、構造化されていないデータ
ネット企業が扱うデータについては、データ管理や処理等の新しい技術の担い手が、大企業からウェブ企業やソーシャルメディア企業に移った
Hadoop, NoSQLデータベースなどの処理技術は、ウェブ企業から生まれたもの
ウェブの世界の外でもビッグデータは生み出されている ⇒ センサー・データがその代表格。様々な機器の状態をセンシングして、データを蓄積・解析しようとする試みが行われている。
M2M, IoT ⇒ 様々なデバイスや機器が通信によってインターネットサービスと連携
グーグルのようなウェブ企業は、普通の企業であれば何もせずに捨ててきたデータの価値に早くから気づき、それらを安価に蓄積、処理可能な技術を自ら開発し、データから抽出した価値ある情報をビジネスプロセスに組み込むことで、競争優位を発揮してきた
Data is the new oil. ⇒ ビッグデータの活用によって「お宝」を発掘し企業に活用

第1章     ビッグデータとは何か
The Data Delugue ⇒ 情報の大洪水/氾濫
2006年の「クラウド」と同様
ビッグデータとは、既存の一般的な技術では管理するのが困難な大量のデータ群
その特徴 ⇒ 
   Volume() ⇒ 現状では、数十テラバイト~数ペタバイト
   Variety(多様性) ⇒ ウェブのログデータ、ソーシャルメディア内のテキストデータ、インターネット上のテキストデータ、位置情報、センサーデータなど
   Velocity(速度) ⇒ データの発生頻度や更新頻度のことで、クリックストリームデータやコンビニのPOSデータ、ツイッターのつぶやき、SUICAの乗車履歴データや電子マネーの決済履歴等
必ずしも新しい概念ではないが、我々の日々の生活に密接した環境から生成されるようになったことが従来からのデータとの違い
さらに、ビッグデータを蓄積したり処理したりする敷居が大幅に低くなったことで、ビッグデータを活用できる素地が出来てきた ⇒ コンピューターの価格性能比の向上、ディスク価格の下落、大規模データの分散処理技術hadoopの開発
クラウドの普及もビッグデータ推進に貢献 ⇒ ネット上にビッグデータ処理を提供するサービスが登場 ⇒ デイサイド・ドットコム(買い時を教えてくれる)、フライトキャスター(フライトの遅れを予測)
BI(Business Interigence) ⇒ 企業内に蓄積されたデータを組織的かつ系統的に集約・整理・分析し、ビジネス上の各種の意思決定に有用な知識や洞察を生み出すという概念や仕組み・活動のこと。過去の分析に終わらず、積極的に将来予測が可能に
単に物が売れたというトランザクションデータから、なぜ売れたのか、なぜ顧客が離れたのかといったコンテキスト(背景)情報を、顧客とのインタラクションデータから探ろうという動き
購買履歴はもとより、スーパーマーケットではカートにICタグを取り付けて顧客の購買行動を把握・分析して売り上げにつなげる対策を打ち出したり、O2O(Online to Offline:ネット上の情報がリアル世界の購買行動に影響を及ぼしていることを表す概念)が注目

第2章     ビッグデータを支える技術
Ø  Hadoop ⇒ オープンソースとして公開されている大規模データの分散処理技術
04Googleが発表したMapReduceという分散処理の処理方式を実装したフレームワーク名のこと
08年 クラウデラ社が初めてhadoopの商用ディストリビューションの提供を開始
Ø  NoSQL ⇒ ビッグデータを支える基盤技術の1つ。従来のデータベース管理の標準言語だったSQLを使わないでデータを操作する。データ相互間の関係性を定義しない
ストリームデータ処理技術 ⇒ 従来のリレーショナル・データベースでは、データは一旦ハードディスク内のテーブルに書き込まれ、必要に応じ全データを一括処理して結果を出すが、ビッグデータではハードディスクに書き込まれる前にメモリ上でデータ処理を行うため高速処理が可能、かつ前回処理した結果を中間データとして保持しておくため、データをすべて処理する必要がなく、メモリ上を流れるデータから中間データとの差分だけを処理すればいいため、結果の出力までの遅延が無くなる
Ø  機械学習 ⇒ 人間が行う学習能力と同様の機能をコンピューターで実現させるための技術・手法で、ある程度の数のサンプルデータを対象に解析を行い、そのデータから有用な規則、ルール、知識表現、判断基準などを抽出する
Ø  データマイニング ⇒ 大量に蓄積されたデータを分析し、その中に隠れている項目間の相互関係やパターンなどを探し出す手法
Ø  クラスタリング ⇒ データの中で似ているもの同士を纏めて、いくつかのグループに分類すること
Ø  ニューラルネットワーク ⇒ 脳の神経回路における計算方式と同じ方式をコンピューターで行おうとするもの

第3章     ビッグデータを武器にする企業ー欧米企業編
Ø  アマゾン
Ø  フェイスブック
Ø  リンクトインLinkedIn ⇒ ビジネスに特化したSNS。世界中に150百万のユーザー
Ø  ネットフリックス ⇒ オンラインDVDレンタル。ユーザーの「見たい映画リスト」に幾つかの作品を追加するよう強力に勧めると、登録した作品数とユーザーの契約期間の間に相関関係があることが分かった
Ø  グーグル
Ø  イーベイeBay ⇒ インターネット・オークションの最大手。270百万の登録会員数を擁し、毎日50テラバイトのデータを生成。サンプルデータではなく、全数データを対象に分析を行うと、サイト上でのテスト効果が飛躍的に向上
Ø  ジンガZynga ⇒ Facebook上のソーシャルゲームで人気ランキング上位を独占するゲーム開発会社。1日のアクティブユーザーが54百万人で、1日当たりの総プレイ時間は20億分。プレイヤーの95%は無料ゲームだけを楽しむが、残る5%の熱心なファンがバーチャルグッズを購入するだけでも膨大な売り上げとなる ⇒ 離脱率(チャーン)とバイラル係数(口コミ拡散の効率を示す指標)が重要

第4章     ビッグデータを武器にする企業ー国内企業編
Ø  コマツ ⇒ 日本におけるビッグデータ活用の原点。KOMTRAXという建設機械の稼働状況を遠隔監視するシステムで、建設機械にGPSや各種センサーを取り付け、現在位置、稼働時間、稼働状況、燃料の残量、消耗品の交換時期等データ収集。問題は収集したデータからどういう洞察を得るか
Ø  リクルート ⇒ hadoopとそのエコシステムを使って、レコメンデーションシステムの実装やアソシエーション分析(データマイニング技術の1つ、スーパーで「紙おむつを買う人はビールを買う」といった事象間の繋がりの強さに関する規則を知識として発見する)、アトリビューション分析などを実施
Ø  グリー ⇒ ソーシャルゲーム制作会社。07.5.世界初のモバイル・ソーシャルゲーム「釣り★スタ」をリリース、「アイテム課金」がモバイルゲームでも成立することを立証。機能変更等の際は必ずターゲットとなる指標を決めて1時間毎に反応をチェックし、反応によってすぐに軌道修正するという「一個人のセンスより数千万人のデータを信じる」。各ユーザーのログデータの収集を徹底。垂直統合型のスキルセット重視(1人で企画・開発からデータ分析、事業戦略の立案までできるスキルを持つようになれば、コミュニケーションロスを最小限に抑えられる)
Ø  マクドナルド ⇒ リアルの世界で、個々の顧客の属性や購買履歴に応じた対応を可能にするOne to One Marketingを実現。会員制モバイルサイト「トクするケータイサイト」で顧客を囲い込むとともに、携帯やスマホをポイントカード代わりに使って「かざすクーポン」を導入。顧客毎に提供するサービスやサービスクーポンの内容を変える。会員数26百万人

第5章     ビッグデータの活用パターン
ビッグデータの活用例
   商品やサービスのレコメンデーション ⇒ ユーザーの属性や購買履歴データをもとに最適な商品を推奨する
   行動ターゲティング広告 ⇒ 利用者の興味や趣向を分析したうえで、利用者を小集団(クラスタ)に分類し、クラスごとにネット広告を出しわける
   位置情報を利用したマーケティング
   不正検出 ⇒ クレジットカードの利用履歴データから不正利用を検出
   顧客離反分析 ⇒ 顧客の退会データから、離反を予測して防止に役立てる
   故障予測
   風邪の流行を予測 ⇒ ツイッター上の風邪に関するツイートのみを自動抽出して風邪を引いている可能性が高いユーザーを検出し、都道府県毎に集計(エスエス製薬「カゼミル プラス」)
活用パターンの分類 ⇒ 「個別最適/全体最適」x「リアルタイム型/バッチ型」の4通り
   個別最適・バッチ型 ⇒ 特定の個人やモノに対するデータを収集して、その人に最適な商品やサービスを推奨。タイミングは問わない
   個別最適・リアルタイム型 ⇒ 推奨するタイミングがリアルタイム
   全体最適・バッチ型 ⇒ 多数の個人やモノが発する情報を収集し、蓄積したデータを一括して統計的に処理・分析することで、その個人やモノが属するコミュニティや社会全体にとって役立つ統計情報をフィードバックしたり最適化を図る
グーグルの「もしかして」機能や音声検索、グーグル翻訳なども、ユーザーが入力した大量のデータをもとに検索制度や翻訳精度の向上を図り、ユーザー全体に役立つ機能やサービスにしている(グーグルが提供するreCAPTCHAというサービス。人間とスパムプログラムを見分けるための認証サービスで、本来は書籍のデジタル化の際、スキャンしてOCRでテキスト化する際文字認識が出来なかった単語を使用して、多くの人から得た回答によって正解を探す
   全体最適・リアルタイム型 ⇒ リアルタイムにフィードバックする

第6章     ビッグデータ時代のプライバシー
アマゾンの協調フィルタリング ⇒ 商品の購買履歴に加えて、ウェブのアクセス履歴などの行動履歴をもとにユーザー同士の嗜好の類似値を自動計算し、レコメンドを実現
米国議会でも、プライバシー保護の観点から追求を始めている
SNS上に公開されている個人のプロフィールについても、突き詰めていくとプライバシーに辿り着く
Rapleaf社は、SNSなどオンライン上の情報を収集し、個人情報のブローカーサービスを提供 ⇒ 個人の属性のみならず、家族や収入、資産内容まで提供可能としている
Do Not Track ⇒ FTCがテレマーケティング業者などによる執拗な勧誘電話を防ぐために03年にスタートさせたDo Not Callのウェブ版で、ユーザーがブラウザの設定で一律拒否できる手段を提供する制度
アメリカには包括的なプライバシー保護規定がない ⇒ 12.2.商務省が「消費者プライバシー権利章典」発表により、Do Not Trackが確立された
EUでは、行動ターゲティング広告などのためにクッキー等により利用者の行動履歴を収集する行為は、電子プライバシー保護指令によって規定され、当初はオプトアウト形式といって、ユーザーの端末に蓄積された情報は、ユーザーにその利用目的について明確かつ包括的な情報が提供された場合に限り、使用が許可され、ユーザーはその利用を拒否する権利が与えられなければならないとされていたが、09年からはオプトイン形式に変更され、事前に同意を得た場合に限って使用が許可されることになった
現時点でプライバシーが問題とされるのは、ウェブ上の個人情報や行動履歴だが、オフラインでの行動トラッキングを可能とする技術の登場により、今後はオフラインやO2O
(Online to Offline)などを対象とした議論が活発となろう

第7章     オープンデータ時代の幕開けとデータマーケットプレイスの勃興
データマーケットプレイス ⇒ 政府機関が所有している各種統計データや、民間事業者が収集し予め適切な処置を施したうえで公開しているデータ(オープンデータ)の取引市場にあってOne stop shopping出来る場を提供
LOD(Linked Open Data) ⇒ オープンデータを繋げて、社会全体で大きな価値を生み出すために共有しようとする取り組み

第8章     ビッグデータ時代への備え
コアの顧客の自社内情報は戦略的資産であり、「真っ先にプロテクトするべき」とされるが、同時に他社にとっても手に入れたいデータであるため市場性は高く、他社との戦略的な提携によってデータを共有・交換するようなケースが見られるようになってきている ⇒ 11.6.のローソン(ポイントプログラムの利用者32百万人)とヤフー(ID保有者26百万人)の提携により顧客ベースの相互利用を推進。同時にKDDIと楽天も電子マネーを中心としたサービスの業務提携により、KDDIの料金決済システム「auかんたん決済」を通じて楽天の電子マネー「Edy」のチャージや、楽天市場での購入代金の決済が可能。11.12.にはクックパッドとアイディーズ(全国のスーパーのチェーンにロイヤリティプログラムを提供)の提携によりレシピと購入食材を結びつける
オリジナルデータを持つ強み ⇒ クックパッドの持つユーザーの検索ログは、消費者の食材に対する潜在的なニーズを示す貴重なマーケティングデータであり、クックパッドにとってのコアデータでありながら他社に販売して活用している
データ・アグリゲーター ⇒ アイディーズのように多数のスーパーの顧客の購買履歴データを集約することで、外部に一括して提供可能にする中間業者の存在も、特にリアルの世界では重要。通信事業者や決済事業者が中間業者の有力候補
オリジナルデータをプレミアムデータに変えるデータ掛け合せの妙 ⇒ 相乗効果を生み出す絶妙の組み合わせを考えることも、ビッグデータ活用の醍醐味の1
データサイエンティストへのニーズが高まる


書評(ブログより):
 IT業界で最近話題の「ビッグデータ」に関して、ITアナリストの立場で詳しく解説した書。技術的な説明だけでなく、ビジネス界での動向や、ビッグデータを活用して成功している企業なども紹介する。むしろ、技術的な解説よりこちらのほうに重点がある。さらにはプレイバシー保護に関する問題点などの社会的影響についても論じている。
 ところで、「ビッグデータ」を扱う際の肝は、ハドゥープとNoSQLデータベースという二つのソフトウェアと、クラウド・コンピューティングに象徴されるハード面での分散処理だ。これらの技術革新によって成立したのが「ビッグデータ」である。「ビッグデータ」の特徴は、大量の非構造化データを処理し、ビジネス上の意思決定や将来予測に応用したり、顧客の囲い込みを行う、ということになろうか。これからのIT社会では、「ビッグデータ」を上手く活用できた企業が隆盛する。「Data is the new oil.」なのである。

ムーアの法則をご存知でしょうか。コンピュータ製造業における歴史的な長期傾向について論じた1つの指標であり、経験則、将来予測である(Wikipediaより)。ムーアさんは1965年に(凄いですね)2年ごとに集積回路上のトランジスタ数が2倍になるといったそうですが、今もなおHDDの容量あたりの値段は年を経るごとにどんどん安くなり、データ量は増大の一歩をたどっております。
そうなってくると気になるのは「大量のデータを扱えるようになって今後可能になるのはなんだ」ってところですね。僕は冗談抜きで一つはバーチャルリアリティ、拡張現実が来ると思っています。で、もうひとつはもうすでに着ていますが、ビッグデータによる行動分析の分野でしょう。バーチャルリアリティも今にわかに盛り上がってきているので取り上げたいのですが、まずはビッグデータについてお勉強中です。
本書『ビッグデータの衝撃――巨大なデータが戦略を決める』は教科書然とした内容で、エンタメ的にはいまいちですけどビッグデータについての基礎的な内容の把握に役立ちました。結論部は面白かったかな。次の十年で魅力的な仕事はデータを取り出し、理解し、関連付し、役に立てることができる統計の専門家であるっていうところです。それで最近『プログラマのための統計入門』なんて本が出て、盛り上がっているのかも。
以下メモ的に勉強になったところを書いていきます。ビッグデータについて何も知らずに読み始めたのでまずビッグデータの定義について。たとえばその名前の通りに大量データの分析っていうだけなら従来通りのビジネス・インテリジェンス(BI)として以前から存在したじゃないか。今更衝撃って何?? って感じなんですけど、ビッグデータと従来型の大量データでは主に2つ、違いがあります。
ビッグデータと従来型の大量データは何が違うのか
1つめ。売上高や在庫量などの数値データとは異なり、ビッグデータブームの中心になっているのはソーシャルデータ、クリックストリームなどの構造化されていない非構造化データである。2つめ。この結果を受けて、大量データの管理や分析が従来のウォルマートなどの大企業からウェブ企業やソーシャルメディア企業に担い手が移っていること。以上2つが従来の大量データとビッグデータを分ける違いということになります。
ビッグデータの定義
本書ではビッグデータの定義について、次のようにしています。『ビッグデータとは、既存の一般的な技術では管理するのが困難な大量のデータ群である』。たとえばリレーショナル・データベースでは管理できない複雑な構造のデータを指しています。で、これをもっと具体的に定義したものが3Vと呼ばれるものです。
Volume:データ量をさす。現状では数十テラバイト~数ペタバイトクラス。
Variety:多様なデータ(非構造かデータ+構造化データ)
Velocity:データの生成頻度、更新頻度(1秒間に数十件以上)
これら3つを合わせたものを現状ビッグデータと呼んでいるような感じです。
なぜ今ビッグデータなのか
そうはいっても過去にこのようなビッグデータがなかったわけではないのですが、今どんどんビッグデータを活用する企業が出てきているのにはやはりいくつかの理由があります。以前との違いとして、当然ながらコンピュータの性能の向上、ディスク価格の下落ですね。それと同時にFacebookGoogleなどより身近なところから大量のデータを取得できるようになったのが大きい。
上記の2つに加えて、リレーショナルデータベースで管理できない非構造化データを扱える大規模データの分散処理技術「ハドゥープ」が登場したのが現在のビッグデータブームの一番の推進要因であるとしています。ほかにもNoSQLやらストリームデータ処理などの大量の非構造化データを扱うための技術が次々と出てきていて、これも面白そうですね。
統計屋のニーズの高まりの背景には上記に述べてきたような技術的な面に加え、自社の事業から生み出されるデータ、政府が公開している統計データ、他社との戦略的な情報収集などにより分析のためのデータが能動的に集められるようになった事情があります。今統計屋のニーズが高まっている要因は、それらデータを「ただ集めた」だけでは無意味なことで、それらを解釈し関連づけし、意味のあるものにしていかなければいけないからです。
とまあ簡単ですが、面白かったのはこれぐらいかな。あとはビッグデータ時代のプライバシーについてのお話とか、技術の具体的なところとか、あとはビッグデータの活用事例国内編海外編とかなのでお好みでどうぞというところですかね。プライバシーについての話は面白かったですけれども、また別の機会にじっくり考えてまとめておきたいところです。


コメント

このブログの人気の投稿

昭(あき)―田中角栄と生きた女  佐藤あつ子  2012.7.14.

大戦秘史 リーツェンの桜 肥沼信次  舘澤貢次  2012.10.13.

ヴェルサイユの女たち 愛と欲望の歴史  Alain Baraton  2013.9.26.