ビッグデータの残酷な現実　　Christian Rudder　　2017.4.12.

4月 18, 2017

2017.4.12.　ハーバード数学科のデータサイエンティストが明かす　ビッグデータの残酷な現実――ネットの密かな行動から、私たちの何がわかってしまったのか?

Dataclysm　Who We are When We Think No One’s Looking　　2014

著者　Christian Rudder　アメリカの大手出会いサイトOkCupid共同創業者。同社が運営する大人気のブログ『OkTrends』の執筆も手掛けた。ハーバード大卒(数学専攻)

訳者　矢羽野薫　会社勤務を経て翻訳者に。慶應大法卒

発行日 2016.8.4.　第1刷発行

発行所ダイヤモンド社

ハーバード大数学科を卒業後、4人の仲間で一緒に創業したのは、なんと出会い系サイトだった。10年後、世界最大級の出会いサイトとなったサービスから生み出された膨大なデータの分析に、著者は満を持して取り組んだ。本書は、男女関係のビッグデータから見えてくる、普段は目にすることが出来な人間の本質を炙り出すことを目的に書かれた

訳者まえがき　　ビッグデータがリアルで人間臭い私たちの心の中を炙り出す

本書のビッグデータの舞台OkCupidは2004年開設されたアメリカの大手出会いサイト、11年にIAC/インタラクティブに50百万ドルで買収され、同社傘下の他のサイトとともに22%のシェアを持つ

｢アルゴリズムによるマッチング機能｣｢誰でも歓迎｣｢無料｣をモットーに、10百万以上のユーザーを集め、毎月300組のカップルが誕生

本書は、ユーザーから収集した大量のデータを基に、私たちの本音を数学的に炙り出そうという試み。データというレンズを通して私たちの心の中を覗こうとしている。恋愛のパートナーを探すために提供された生身のデータだからこそ、とても人間臭く、現実的で、私たちの本音が溢れている

イントロダクション　ビッグデータは、あなた自身を語る

ギリシャ語のKataklysmosは旧約聖書に登場する洪水の神話で、神々が文明を破壊するために洪水を起こしたとされる。Dataclysmはその英語表記のCataclysmosを基にした私の造語で、2つの意味を込めている。1つは、前例のないデータの大洪水。今日までに集められたデータは底なしに深く、ノアの大洪水のように40日間、昼夜なくデータの土砂降りが続いても不思議ではない。もう1つは、世界が変わるという期待。昨日の理解不足も今日の近視眼も、データの洪水がすべてを洗い流してくれるかもしれない

本書は、小さな窓から私たちの人生をのぞく。私たちがどのように出会い、どのような問題に引き離され、何が私たちを形作るのか。データが増えれば窓はどんどん大きくなるだろう

Part 1. 　What Brings Us Together　そして、何が私たちを結び付けるのか?

(評価する方もされる方も白人の場合に限定)

Chapter 1. ビッグデータが語りかける男女の普遍的な傾向

女性が｢最も魅力的｣と思う男性の年齢　⇒　20代は2～3歳年上だが、30代以上は年齢が上がるにしたがって年下となり、50歳では4歳年下となっている

自然の美は幾何学模様を描き、科学的な論証の出発点となる　⇒　単純化したグラフや、数字の要素を偶然に含む芸術作品と違い、データを可視化すると物理的な空間がデータの関係を表す。前記の場合も、女性の年齢の上昇とともに男性の年齢もほぼ同様に上がってくる

男性が女性を評価すると、トップは一貫して20代前半で、上位50%をとっても35歳以上は眼中にない。男性の好みが成長しない証拠

男性が歳をとっても女性の好みが変わらないことを、映画『バッド・チューニング』の主役ウッダーソンのセリフに因んで｢ウッダーソンの法則｣と呼ぶ

ただし、好みを申告する際は、現実的な選択肢として10～15歳の幅をもって歳相応に比例して上がる

｢恋愛対象の年齢｣に注目すると、女性は自分と同じ年代の男性を求め、男性は常に若い女性を目指す

Chapter 2. 1000人の｢まあまあ｣よりも、たった1人の〇〇が欲しい

音楽でも映画でも人間関係でも、欠点は強力な要素となる　⇒　みんなに好かれる人は心に残りにくい。誰かに嫌われることは、他の人から一層愛されることでもある。特に女性の性的魅力は、彼女を醜いと思う人がいるほど際立つ

人の評価を5段階でした場合、ばらつき(=分散)の大きい人ほど、高い評価をする人がいるということ　⇒　1や2の評価をした人からアプローチはないが、そういう人たちのお陰で、アプローチしてくる人は平均より高く評価している

一流モデルの世界でも、全員5点の評価になるが、その中でも不完全さを武器に自分を際立たせることができる

欠点に物怖じせず、自分らしさを大切にすることが真の教訓で、周りに合わせようとするのは逆効果

Chapter 3. 私たちは、かつてなく文字を書いている

人と人を結ぶのは言葉であり、私たちはかつてないほど言葉を交わしている

リアルタイムの短いやり取りは、新しい時代のコミュニケーションの縮図

ツイッターは、言葉を扱うサービスとして初めて、簡潔さと即時性を促すだけでなく、2つの要素を不可欠なものにした　⇒　ユーザーは｢いま起きていること｣を世界に発信することと、言葉を書くという行為が再定義されただけでなく、インターネットが｢文化を破壊する｣という不安を裏付けした

ツイッターで使われる単語とOxford English Copas(現代のあらゆる書き言葉から英単語を集めたデータベースで、時代を反映した語彙集)の上位100語を比較。実際に書かれる文章の約半分は両者ともこの100語だけで成り立っている　⇒　言語の堕落とは程遠い結果に。ツイッターでは、ネットでよく見る省略語はrt(retweet)とu(you)しかない。単語の長さではOECの3.4字に対しツイッターでは4.3字。内容ではツイッターに無駄な言葉を使う余地はなく、love、happy、life、best、neverなど鮮明な単語が多い。ツイッターで表現される思考は縮められているかもしれないが、劣化はしていない

動詞や名詞など、意味を伝える単語が占める語彙密度も比較すると、ツイッターの密度は一般の雑誌レベルとほぼ同じ。ツイッターは狭いスペースに収まっているだけで、文章の書き方は普段とほとんど変わらない

ツイッターでは、言葉は思考を構築するブロックというだけでなく、社会的な繋がりを感じさせる　⇒　繋がりを追跡できる

言語を通じて集団の特徴を探ったり、ツイッターで使う単語だけでグループ分けも出来る

カルチャロミクス　⇒　定量的な文化研究で、デジタル化された歴史の記録を基に、言葉の使われ方の変化を分析する研究分野。過去200年の記録から、食べ物に関する単語が書籍で使われた頻度を見ると、ピザ、アイスクリーム、パスタ、ステーキの順に多い

OkCupidの過去10年に蓄積されたメッセージの全体像から、文章を書く文化が大きく変わったことがわかる　⇒　原動力は携帯電話で、メッセージの長さが1/3となる。1件当たりの平均文字数は100字強

携帯電話やツイッターのようなサービスにはそれぞれ独自のルールや手法があるが、文章を書くという要素は普遍的。文章を書く行為は大量絶滅の危機に直面しているのではなく、新たな可能性を次々に発見している最中であり、言語はコピペも含めてかつてないほど多様になっている。多様性は芸術を脅かすのではなく盾となる。あらゆる言葉には、人と人がつながるために使うという共通点がある

Chapter 4. あなたは、人と人を繋げる接着剤になれる

ネットワークの爆発的な拡大で、ネットワーク理論が進化

Chapter 5. ばかばかしいアイディアを実行してみたら

写真なしでデートした場合、男女の魅力の度合いに関わらず、満足度はほとんど不変

オンラインでは欲しいものはいつでも手に入れられるが、必要なものはなかなか見つけられない

Part 2. 　What Pulls Us Apart　何が、2人を分けたのか?

Chapter 6. 人種――決して語られることのない重要因子

交絡因子　⇒　ある分析をする際に、考慮しないが、結果に影響を与える要因

人種は、典型的な交絡因子

2000年頃から10年ほど全米をにぎわせた｢黒人クォーターバック｣論争は、データのそろっているアメリカンフットボールですら、黒人と白人のクォーターバックを比較したデータは1件しかなく、両者が全く同じ結果となっている

相性度だけを見ると、4つの人種グループ――アジア人、黒人、ラテン系、白人――で、人種は、宗教や政治信条、教育ほどには影響を与えず、星座ほどの違いしか意味を持たないが、個人的な意見が加わると、特に男性は自分と同じ人種の女性を好む(評価する)傾向があり、どの人種の男性でも黒人の女性を好まないことがわかる。女性が男性を評価する場合は、同じ人種の男性を好む傾向がより強まるが、白人男性だけは別格で評価が高い

誰もが人種差別は間違っていると理解しているが、実際に下す判断の多くは、いまだに人種差別をうかがわせる

Chapter 7. 美しい人がトクをする傾向は、加速している

ネット上では｢より写真中心｣に向かいつつある　⇒　美しい顔は一層美しくなり、恵まれている人はますます恵まれる傾向が強まっている。外見について言えることは体型についても同様

Chapter 8. ｢本当は何を考えているか｣がわかる方法

人が本当は何を考えているのかを知る方法は2つ　⇒　1つは相手が無防備な瞬間を狙って質問する。もう1つは質問に対し正直に回答してくれることを期待する

データが大規模の場合は後者しかないが、人種や性行動などの質問では本心を見出すことは最初から不可能であり、最も醜くて、最も敵対的な考えは、自我と文化規範のベールに隠されていることが多く、直接的な質問で引き出すことは不可能(心理学では、｢社会的望ましさのバイアス｣と呼ぶ)　⇒　｢ブラッドリー効果｣1982年の加州知事選の際、出口調査では黒人のブラッドリーが圧勝と出たが、結果は白人への票が圧倒的に多かった

グーグルの検索データを使えば質問せずに無料でデータを収集できる　⇒　グーグル・トレンドは2008年から提供が開始されたグーグルの検索データを参照できるサービス

検索頻度が極めて高いのが”nigger”で、年間7百万回で、全米どこでも同じ様な頻度だが検索頻度の変動と現実世界の出来事を結び付けると、データの裏にある感情の変動を引き出すことが可能　⇒　08年の大統領選では、6月の予備選最終日にオバマが事実上の勝利を収めると検索ボリュームが急増するが、オバマ優位が確実になるにつれ検索ボリュームは急減、人種的な緊張が政治的な緊張とともに薄れ、9月の共和党大会の週は人種差別的な検索は選挙期間中最少に。その後人種的な憎悪が平常レベルに盛り返し、投票日の夜に爆発、かつてないレベルに急増するが、翌日の黒人大統領誕生を確認すると直後から人種差別的なキーワードの検索は急減し、就任式の際に若干増えたものの、オバマ前より25%低いレベルにとどまった。オバマ在任中、検索が急増したのは3回のみで、沈黙と浄化の時期に入ったと言える

特にオートコンプリート機能が役立つ　⇒　検索される頻度の高いキーワードを使ってグーグルが文章を綴って完成させるため、個人が自由に入力する言葉より、全体的な思考パターンが分かり易いので、人種に関するステレオタイプの文章でもタブーの存在を考慮することなく、リアルタイムの検索トレンドを明らかにできる

検索データの分析によって、人々の独白を表に引っ張り出すことが可能であり、人種差別的な発言は、｢社会的望ましさのバイアス｣が否定したとしても、現実には存在する

Chapter 9. 炎上――突然、嵐のような日々が訪れる

ソーシャルメディアの普及が集合の力をとてつもなく増幅させる　⇒　投石による公開処刑や生贄の発想と酷似しており、現代のインターネット社会では言葉が牙を持つ

噂の世界が、ソーシャルメディアの時代になって変化　⇒　1つは、フォロワーやリツイート、お気に入りの数など噂に関する地位を測る基準ができたこと、もう1つは、あらゆる人を公人にした(誰でも攻撃対象になり得る)

インターネットをコミュニケーションの有益なツールにしている特徴は、非同時性、匿名性、現実逃避、中央集権の欠如などだが、その大半はインターネットを恐ろしいものにもする　⇒　やりたいように振舞い、言いたい放題で、責任は取らない

否定的なコミュニケーションの追跡に関して、アメリカ政府は大きな権限を持つ

Part 3. 　What Makes Us Who We Are　自分らしさはどこにある?

Chapter 10. アジア人にしては背が高い

自己紹介の文章から見られる言葉使いの特徴　⇒　男と女は、根本的に似ている

Chapter 11. どんな人と恋に落ちたいですか?

同性愛者は昔から変わらずに存在するが、オープンな世の中になって、｢推測｣する必要がなくなる日も近い

Chapter 12. 居心地のいい場所はどこですか?

地域限定の情報交換サイト｢クレイグスリスト｣に基づいて全米の境界線を引き、それぞれの地区で｢目が合う｣場所を検索したところ、マンハッタンは地下鉄の中、ポートランドはバス、カリフォルニアはスポーツジム、それ以外の大半の地域ではウォルマートという結果になった

GPS機能を搭載したスマホは、地図製作の世界に革命を起こした　⇒　地震への反応をツイッターの反応の濃淡で地図に落とし込むと、濃度の等高線ができる。地震の状況がわからないうちに被害者に確実に支援を届けようとするとき、ツイッターの反応が描く等高線が、震源地を中心とする従来のモデルよりはるかに役に立つ

Chapter 13. ネットの中のあなたのブランド

ラベルやイメージ作りの歴史は産業革命以前に遡る。ブランドの起源は、肉に押した焼印。ブランディングは長い歴史を経て発展してきたが、多くのことが青銅器時代と変わらず、これからも変わらないだろう。ブランドが演出する感情は、過去も未来も永遠に同じ

人間がブランディングの対象とされるようになったのは最近の現象　⇒　パーソナル・ブランディングの時代

現代のパーソナル・ブランディングの新しい点は、自分を人間ではなく商品として扱うことであり、グローバルな展開にとって、ソーシャルメディアは理想のテクノロジー

大統領選でも、フォロワーを買う行為が公然と行われている

ネット上での個人の価値を評価(数値化)することも行われる

Chapter 14. ネットの中の足跡を追いかけると何がわかるか

2009年、Facebookに｢いいね!｣ボタンが登場、コンテンツをシェアする方法が変わった⇒　新しいコミュニティ内通貨の誕生

｢いいね!｣のボタンの傾向だけから、性別や白人か黒人かの区別、ゲイかストレートか、民主党か共和党か、ドラッグを使っているかどうか等がかなりの確率で分かる

FacebookやiPhoneを使っていればアップル、グーグル、サムスンなどは、利用者について沢山のことを知っている

データマイニング企業は、多くのデータから人間の行動について学者が分析してもわからないことを発見する

国家の安全保障機関が収集する資源と専門知識は、包括的なデータマイニングのソフトウェアを構築する

データは個々人から収集されたものであり、企業や政府はその私生活に関してとてつもない量の断片を集め、自分たちが管理しやすい形につなぎ合わせている。個々人が失うプライバシーが増えるほど、企業や政府が提供するものは効果的になる

プライバシーに関する議論の根本的な問題は、あなた自身が、失うものと引き換えに何を得るかということ　⇒　夜外出する時は、自分をさらけ出すことと引き換えに、周囲の視線を得る

ウェブサイトの閲覧履歴をブレッドクラム(パン屑リスト)と呼ぶが、我々は驚くほど多くの｢パン屑｣を落としながら歩いている。ほかにもデジタル写真にはExifという短いテキストファイルが添付され、撮影に関する情報が記録され、位置情報がGPSでアプリを通じて吸い上げられる

データサイエンスが拓く新たな学問領域　⇒　ソーシャル物理学

Wikipedia

ビッグデータ

ビッグデータ [1][2]（英: big data）とは、市販されているデータベース管理ツールや従来のデータ処理アプリケーションで処理することが困難なほど巨大で複雑なデータ集合の集積物を表す用語である。その技術的な課題には収集、取捨選択、保管[3]、検索、共有、転送、解析[4]、可視化が含まれる。大規模データ集合の傾向をつかむことは、関連データの1集合の分析から得られる付加的情報を、別の同じデータ量を持つ小規模データ集合と比較することにより行われ、「ビジネスの傾向の発見、研究の品質決定、疾病予防、法的引用のリンク、犯罪防止、リアルタイムの道路交通状況判断」との相関の発見が可能になる[5][6][7]。

「ビッグデータ」という用語は、データマイニングなどでふつうに使われてきた単語だが、2010年代に入ってある種のトレンドを示すキーワードとして、一般の新聞・雑誌などでも広く取り上げられるようになってきた[8]。

2012年現在[update]妥当な時間内に処理することが可能なデータ集合のサイズの制限は、エクサバイトのオーダーのデータである[9]。科学者が大規模なデータ集合による制限に遭遇することは、しばしば発生し、その分野にはゲノミクス、気象学 [10]、コネクトミクス、複雑な物理シミュレーション[11]、生物調査および環境調査が含まれる[12]。同様の制限はインターネット検索、金融、ビジネスインフォマティクスにも影響を与える。データ集合が増加するのは、情報収集モバイル装置、空間センサー技術(リモートセンシング)、ソフトウェアログ、カメラ、マイクロフォン、無線ID読取機、ワイヤレス・センサー・ネットワークの普及も1つの原因である[13][14]。全世界での1人当たりの情報容量は1980年代以降40か月ごとに倍増し[15]、2012年現在[update]1日あたり毎日250京（2.5×1018）バイトのデータが作成された[16]。大企業にとっての課題は、組織全体にまたがるビッグデータの主導権を誰が握るかということである[17]。

ビッグデータは、大部分のリレーショナルデータベース管理システム、デスクトップ統計可視化パッケージでは処理が困難であり、その代わり、「数十台、数百台、ときには数千台ものサーバ上で動く大規模並列化ソフトウェア」が必要になる[18]。何を「ビッグデータ」と考えるかは、データ集合を管理する組織の能力と、扱うデータの領域において従来分析に用いられてきたアプリケーションの能力に依存する。数百ギガバイトのデータに初めて直面してデータ管理の選択肢について再検討を始めた組織もある。また数十、数百テラバイトのデータになって初めて真剣に検討が必要になった組織もある[19]。

[非表示]

2 例

定義[編集]

ビッグデータは、通常、収集取捨選択、管理、および許容される時間内にデータを処理するために一般的に使用されるソフトウェアツールの能力を超えたサイズのデータ集合を含んでいる[20]。ビッグデータのサイズは、常に動いている目標値であり、単一のデータ集合内では、2012年現在[update]数十テラバイトから数ペタバイトの範囲である。目標値は、従来のDBMS技術だけでなく、NoSQLのような新設計のデータベースとその高速データ処理により動いている[21]。この困難性により、「ビッグデータ」の新しいツールプラットフォームが、大量のデータの様々な側面を処理するために開発されている。

2001年の研究報告書[22]と関連する講義では、METAグループ（現ガートナー）のアナリスト、ダグ・レイニーはデータ成長の課題とチャンスは3次元、すなわち、ボリューム（volume、データ量）、速度（velocity、入出力データの速度）、バラエティ（variety、データタイプとデータ源の範囲）であると定義した。ガートナーは、現在業界の主役であるが、この「3V」モデルをビッグデータを述べるときに現在も使用している[23]。2012年、ガートナーは、次のように、その定義を更新した：「ビッグデータは、高ボリューム、高速度、高バラエティの情報資産のいずれか（あるいは全て）であり、新しい形の処理を必要とし、意思決定の高度化、見識の発見、プロセスの最適化に寄与する」[24] さらに新しいV、正確さ（veracity）がある組織により追加された。[25]

ガートナーの定義（3V）はまだ広く使用されているが、概念が成熟するにつれ、ビッグデータとビジネス・インテリジェンスの、データと利用について、確固とした違いが明らかになった。

ビジネスインテリジェンスは、高密度データに要約統計を使用し、物事の計測や傾向を捉える。

ビッグデータは、低密度データに誘導統計を使用し[26]、巨大なボリュームにより（回帰性等の）法則を推論し、（推論による限界はあるが）予測可能性を生み出す[27]。

例[編集]

例としては、巨大科学、RFID、センサーネットワーク、ソーシャルネットワーク、ビッグソーシャルデータ分析[28] （ソーシャルデータ革命による）、インターネット文書、インターネット検索のインデックス作成、通話記録明細、天文学、大気科学、ゲノミクス、生物地球化学、生物学、他の複雑でしばしば学際的な科学研究、軍事偵察、新しい住宅購入者用の通勤時間予測、医療記録、写真アーカイブ、ビデオアーカイブ、大規模なeコマースがある[29]。

巨大科学[編集]

大型ハドロン衝突型加速器では約1億5000万のセンサーが毎秒40万のデータを発生させる。毎秒ほぼ6億の衝突がある。ストリームからフィルタリングと、99.999％の繰り返し除去処理のあと、1秒あたり100の衝突が有用なデータとなる[30][31][32]。

その結果、センサストリームデータの0.001％未満を処理して、すべての4つのLHC実験からのデータフローは複製前（2012年）に比較し1年に25ペタバイトを発生する。これは複製後約200ペタバイトになる。

全てのセンサデータがLHCで記録されるなら、データフローの処理は著しく困難になるであろう。データフローは、複製前に、1年に1.5億ペタバイト、すなわち一日あたり約500 エクサバイトを超えてしまうであろう。この数字は、一日あたり5垓（5×1020）バイトで、これは世界で結合されたすべての情報源を合計した数値の約200倍である。

科学研究[編集]

スローン・デジタル・スカイサーベイ（SDSS）は2000年に天文データを収集し始めたが、最初の数週間で天文学の歴史の中で収集したすべてのデータよりも、多くのデータを蓄積した。SDSSは、1晩約200GBの割合で継続して、140テラバイト以上の情報を集めている。SDSSの後継である、大型シノプティック・サーベイ望遠鏡は、2016年に運用開始後、同じ量のデータを5日おきに取得すると期待されている[5]。

ヒトゲノム計画は当初その処理に10年かかったが、今では一週間も経たないうちに達成することができる。DNAシーケンサは、過去10年間でシーケンシングのコストを1万分の1に削減した。これはムーアの法則の100倍である[33]。

計算機社会科学 — Tobias Preis et al. はGoogle Trendsデータを使用し、高いGDPを持つ国のインターネットユーザは、過去よりも将来の情報を検索することを示した。調査結果により、インターネット上の行動と現実世界の経済指標との間に関連性が存在することが示唆された[34][35] [36]。著者らは、2010年に45の異なる国でインターネットユーザーによるGoogleのクエリのログを調べ、前年の検索のボリューム（2009年)と来年（2011年）の検索のボリュームを比較し、「将来期待指数」と呼んでいる[37]。著者らは、それぞれの国の1人当たりGDPと将来期待指数を比較し、将来についてより検索が多いGoogleユーザは高いGDPを持つ傾向があることを発見した。

NASA気候シミュレーションセンター（NCCS）[38]は32ペタバイトの気象観測、シミュレーションデータをDiscoverスーパーコンピューティングクラスタ上に格納している[39]。

Tobias Preisと共同研究者のHelen Susannah Moat、ユージン・スタンレーは、Google Trendsにより提供される検索ボリュームデータに基づく取引戦略を用いて、インターネット上の株価の動きを予測する方法を紹介した[40]。金融に関連した98の用語のGoogle検索ボリュームの分析は''Scientific Reports''（英語: Scientific Reports）に掲載され[41]、金融に関連した検索語は、金融市場の大きな損失より前に出ていることを示した[42][43][44][45][46][47][48][49]。

政府[編集]

2012年、オバマ政権はビッグデータを政府が直面する重要問題への対処に利用できるかを探るため、ビッグ・データ・リサーチ・イニシアティブを発表した[50]。イニシアティブは、6つの部門にまたがって84の異なるビッグデータプログラムから構成されていた[51]。

ビッグデータ分析は、バラク・オバマの2012年の再選運動に大きな役割を果たした[52]。

米国連邦政府は、世界で10台の最も強力なスーパーコンピュータのうち6台を所有している[53]。

ユタ・データ・センターは、現在、米国国家安全保障局（NSA）によって建築中のデータセンターである。建設後、施設は、インターネット上でPRISMによって収集されたヨタバイトの情報を扱うことができるようになる[54][55]。

民間部門[編集]

Amazon.comは、数百万のバックエンド業務を扱い、毎日、同時に50万以上のサードパーティ出品者からのクエリを処理する。Amazonの業務を支えるコア技術は、Linuxベースで、2005年の時点で、それぞれ7.8、18.5、24.7テラバイトの容量を持つ、世界で最大のLinuxの3つのデータベースを持っていたDCMから収集されるデータの解析、活用、各種サービスへの展開[56]。

Googleは、Google マップにおいて、スマートフォン端末に搭載のGPSおよびジャイロセンサーにより測定された端末の位置および物理的移動速度[57]を、多数の端末から匿名情報として収集して分析し、マップ上に道路の混雑状況を表示する。さらに、Google マップナビにおいて、目的地までの経路上の混雑状況に応じた通過速度を計算し、目的地までの最適移動経路をユーザーにナビゲーションする[58]。

ウォルマートは1時間あたり百万以上の顧客トランザクションを処理し、2.5ペタバイト（2560テラバイト）のデータを保持するデータベースに取り込まれている。それはアメリカ議会図書館に所蔵されているすべての書籍の167倍の情報量である[5]。

Facebookは、ユーザーからの500億枚の写真を処理している[59]。

FICOファルコンクレジットカード詐欺検知システムは、世界全体で21億アクティブなアカウントを保護している[60]。

全世界のビジネス・データの量は、すべての企業全体で、推計によると、1.2年ごとに倍増している[61]。

ウィンダミア不動産は約1億の匿名のGPS信号を使用し、新しく家を買う人に1日の異なった時間帯での通勤での運転時間を提供している[62]。

ソフトバンクは、月間約10億件（2014年3月現在）の携帯電話のログ情報を処理して、電波の接続率の改善に役立てている[63]。

トヨタは、車載通信機（データ・コミュニケーション・モジュール：DCM）から車両データを送信し、トヨタスマートセンター内のトヨタビッグデータセンター（TBDC）に蓄積する。収集したデータを解析し、各種サービスへの展開に利用するとしている[64]。

国際的開発[編集]

ここ数十年で情報通信技術開発 (ICT4D)の有効利用の分野で研究が進み, ビッグ・データが国際開発に有用な貢献ができることが示唆された[65][66]。一方で、ビッグデータの出現により、医療、雇用、経済の生産性、犯罪や公衆安全、自然災害や資源管理などの重要な開発分野での意思決定を改善するための費用対効果の高い予測ができるようになった[67]。また、ビッグデータの議論のすべてのよく知られた問題、例えば、プライバシー、相互運用性の課題、不完全アルゴリズムを全知全能にする問題、により、技術インフラの不足、経済および人的資源の不足のような、発展途上国で長年未解決の課題を悪化させている。これは新種の情報格差、データベースの知性を利用する意思決定の格差である[67]。

マーケット[編集]

ビッグデータは情報管理の専門家の需要が増加しており、Software AG、オラクル、IBM、マイクロソフト、SAP、EMC、HPといった企業は、データ管理と分析だけを専門とするソフトウェア会社に150億ドル以上を費やしている。2010年には、この業界だけで、1000億ドル以上の価値があり、年間約10％で成長していた。これはソフトウェアビジネス全体の約2倍の速さである[5]。

先進国では、データ集約型の技術の利用が増加している。全世界で携帯電話契約数は、46億であり、10億から20億の人々がインターネットにアクセスしている[5]。1990年から2005年の間に、10億以上の人々が中流層に入り、これは人は裕福になれば文字が読めるようになり、それが情報の増加につながることを意味する。通信ネットワークを介して情報を交換する世界の実効容量は、1986年に281ペタバイト、1993年に471ペタバイト、2000年には2.2エクサバイト、2007年には65エクサバイトであったが[15]、インターネット上を流れるトラフィック量は2013年までに毎年667エクサバイトに達すると予測されている[5]。

アーキテクチャー[編集]

2004年、Googleは以下のようなアーキテクチャを使用したプロセスMapReduceに関する論文を発表した。MapReduceフレームワークには、膨大な量のデータを処理するため、並列プログラミングモデルおよび関連した実装が含まれる。MapReduceでは、クエリは分割され分散並列ノード間で並列に処理（マップステップ）される。結果が集められ配信される（リデュース・ステップ）。フレームワークは成功した[要説明]ので、そのアルゴリズムを再現しようとした者もいた。そこで、MapReduceのフレームワークの実装のひとつがHadoopという名前で、Apacheのオープンソースプロジェクトで採択された[68]。

MIKE2.0は、情報管理のためのオープン・アプローチである。その方法論は、ビッグ・データをデータソースを有用な順列、相互関係における複雑性、各レコードの削除（あるいは変更）における困難さの側面で処理するものである[69]。

テクノロジー[編集]

ビッグデータでは、効率的に許容経過時間内に大量のデータを処理する卓越した技術が必要となる。2011年マッキンゼーレポート[70]において必要な技術は以下が必要と示唆された。A / Bテスト、相関ルールの学習、統計分類、データ・クラスタリング、クラウドソーシング、データ融合と統合、アンサンブル学習、遺伝的アルゴリズム、機械学習、自然言語処理、ニューラルネットワーク、パターン認識、異常検出、予測モデリング、回帰分析、感情分析、信号処理、教師あり学習と教師なし学習、シミュレーション、時系列解析、可視化である。多次元ビッグデータはテンソルとして表現でき、多線部分空間学習のようなテンソル・ベース計算にて効率的に処理できる[71][72]。さらにビッグデータに適用される技術には、超並列処理（MPP）データベース、検索ベースのアプリケーション、データマイニンググリッド、分散ファイルシステム、分散データベース、クラウドベースのインフラストラクチャ（アプリケーション、ストレージ、コンピューティング資源）とインターネットが含まれる[要出典]。

すべてではなく一部のMPPリレーショナルデータベースは、ペタバイトデータを格納および管理する能力を持っている。暗黙的にRDBMSのビッグデータテーブルをロード、監視、バックアップする能力も必要となる[73][74]。

DARPAのトポロジーデータ解析プログラムにおいて、大規模なデータ集合の基本的な構造を求められ、2008年にその技術はAyasdiという会社の立ち上げで公になった。

ビッグデータ分析プロセスの専門家は、一般的に遅い共有ストレージを敵視し[75]、ソリッド・ステート・ドライブ（SSD）や、並列処理ノード内部に埋め込まれた大容量SATAディスクなど、様々な形で直接接続ストレージ（DAS）を好む。共有ストレージのアーキテクチャ(SANとNAS)は比較的遅く、複雑で、高価であると認識される。これらの性質は、システム性能、容易に入手可能、低コストで成長するビッグデータ分析システムと合致しない。

リアルタイムまたはほぼリアルタイムの情報配信は、ビッグデータ分析の定義の特徴の一つである。遅延はいかなる場合でも回避される。メモリ内データは好まれるが、FC SAN接続で繋がった回転ディスク上のデータは好まれない。分析アプリケーションで必要な規模でのSANのコストは、他のストレージ技術より非常に高い。

ビッグデータ分析での共有ストレージには、利点だけでなく欠点があるが、ビッグデータ分析の実務家は2011年現在[update]それを支持しなかった[76]。

研究活動[編集]

2012年3月に、ホワイトハウスは6連邦政府省庁および政府機関で構成され2億ドル以上の予算を付与された、「ビッグデータイニシアティブ」を発表した[77]。

イニシアティブには[78]カリフォルニア大学バークレー校[79]にあるAMPLabへの、全米科学財団「計算機科学の探検」研究費、5年間の$1千万ドルを含む。 AMPLabはまた、DARPAと10以上の産業界からの資金提供を受け、交通の混雑の予測[80]、がん対策のような広範囲の課題に挑戦する[81]。

ホワイトハウス・ビッグデータ・イニシアティブはまた、エネルギー省のローレンス・バークレー国立研究所が率いるスケーラブル・データ管理・分析・可視化(SDAV)研究所[82]へ米国エネルギー省から5年間に $25百万ドルの資金提供も含む。. SDAV研究所は、科学者が省のスーパーコンピュータ上のデータを管理し、可視化するための新しいツールを開発するために6国立研究所と7大学の専門知識を結集することを目指している。

米国マサチューセッツ州は、2012年5月にマサチューセッツ州ビッグデータイニシアティブを発表し、州政府や民間企業が研究機関の様々な資金を提供している[83]。マサチューセッツ工科大学はthe Intel Science and Technology Center for Big Data をMITコンピュータ科学・人工知能研究所で主催し, 政府、民間、研究所の資金と労力を組み合わせている[84]。

欧州委員会は2年間のビッグデータ・プライベート・フォーラム[85]にSeventh Framework Programを通じて資金提供し、企業、教育機関、その他のビッグデータ問題の関係者が参加している。プロジェクトの目標は、ビッグデータ経済の実装を成功における欧州委員会からの支援行動を導くため、研究と技術革新の面で戦略を定義することである。このプロジェクトの成果は次のフレームワークプログラムであるHorizon 2020[86]で利用される[87]。

IBMは毎年開催される学生のビッグデータ大会、第37回"Battle of the Brains"に2013年7月にスポンサーとなった[88] 。初開催のプロ向けの2014ビッグデータ世界選手権は、テキサス州ダラスで開催される予定である[89]。

批判[編集]

ビッグデータパラダイムの批判には、2つの流儀があり、アプローチ自体に疑問を呈するものと、現在の方法に疑問を呈するものである。

ビッグデータパラダイムへの批判[編集]

重要な問題は、我々はビッグデータの典型的なネットワークの特性の出現につながる、基礎実験マイクロプロセスについてはあまり知らないということである[20]。マーク・グレアムはビッグ・データは仮説の終わりを招くというクリス・アンダーソンの仮定を強く批判し、ビッグ・データはその社会的、経済的、政治的コンテキストにおいて、コンテキストを解釈されなければならないと述べた[90]。8-9桁の投資を行う会社であっても、供給者と消費者からの情報から何らかの識見を得るために40%未満の従業員が十分に成熟してそれを行うスキルを持っていなければならない。ハーバードビジネスレビューの記事によると、識見がない欠点を克服するために、 "ビッグデータ"は、どんなにわかりやすく、あるいは分析されたとしても、"大きな決断（ビッグディシジョン）によって補完されなければならない[91]。

ほぼ同じ行で、ビッグデータの分析に基づいた決定はビッグ・データの分析による決断は必然的に「過去に知られたものか、良くても現在のもの」にしかならないと指摘された[67]。過去の経験が多数入力されれば、アルゴリズムが過去と同じ事象を予想する可能性がある。将来のシステムの動的性質が変わるならば、過去を使って、将来についてわかることは少しはある。このために、システムの動的性質、すなわち仮説、を完全に理解することが必要になる[92]。

この批判への応答として、例えば、エージェントベースモデルのようなコンピュータ・シミュレーションでビッグデータのアプローチを組み合わせることが提案されている[67]。また、このような因子分析やクラスター分析などのデータの潜在構造用のプローブは、通常小さいデータ集合で使用される双方向変量アプローチよりも、分析的アプローチ（クロスタブ）として有用であることが証明されている。

保健学と生物学では、従来の科学的なアプローチは、実験に基づいている。これらのアプローチでは、制限要因は、初期仮説を確認したり、反証することができる関連データである[93]。

現在生命科学では新しい原則が受け入れられている。すなわち、前提となる仮定を持たない大量のデータ(オーミクス)をもつ情報は補足的なものであり、実験に基づく従来のやり方が必要になる。

大規模な方法において、制限要因であるデータを説明するための関連仮説の形成である。その検索ロジックは反転し、帰納法の制限が考慮されなければならない。

消費者プライバシーの提唱者は増加する保存データと個人が特定可能な情報の統合に懸念を示している。専門家の委員会は、プライバシー保護を実行するための数多くの勧告を行っている[94]。

ビッグデータ実行の批判[編集]

ダナ・ボイドは科学が代表的な母集団を選ぶという基本的原則を無視し大量のデータ処理にこだわることに懸念を示した[95]。このやり方は、いずれにしろ偏った結果につながる可能性がある。異種のデータ源（ビッグ・データと見なすかどうかは見解が分かれるが）は分析的な課題だけでなく、運用上の手強い課題があるが、多くの科学者はこのような統合は最も有望な科学の最先端と主張している[96]。

このブログを検索

HirooMikes

ビッグデータの残酷な現実　　Christian Rudder　　2017.4.12.

コメント

コメントを投稿

このブログの人気の投稿

近代数寄者の茶会記　　谷晃　　2021.5.1.

新東京いい店やれる店　　ホイチョイ・プロダクションズ　　2013.5.26.

自由学園物語　　羽仁進　　2021.5.21.

ビッグデータの残酷な現実 Christian Rudder 2017.4.12.

コメント

コメントを投稿

このブログの人気の投稿

近代数寄者の茶会記 谷晃 2021.5.1.

新 東京いい店やれる店 ホイチョイ・プロダクションズ 2013.5.26.

自由学園物語 羽仁進 2021.5.21.

ビッグデータの残酷な現実　　Christian Rudder　　2017.4.12.

近代数寄者の茶会記　　谷晃　　2021.5.1.

新東京いい店やれる店　　ホイチョイ・プロダクションズ　　2013.5.26.

自由学園物語　　羽仁進　　2021.5.21.