'大数据'是什么?

Every time you make a purchase online, you're adding to the data stream.
每次您进行在线购买,都在为数据流做贡献。
©Monkey Business/Thinkstock

某种程度上,大数据顾名思义——海量数据。自互联网问世以来,我们一直在以惊人的数量生成数据。据估计,截至2003年,总共只生成了5艾字节的数据——相当于50亿吉字节。但从2003年到2012年,这一数量达到了约2.7泽字节(或2700艾字节,或2.7万亿吉字节)[来源:英特尔,Lund]。根据伯克利研究人员的说法,我们现在每两天大约生成5千兆字节(或约4.3艾字节)的数据[来源:Romanov]。

'大数据'一词通常指的是海量、快速增长、多样化且通常是非结构化的数字化数据集,这些数据集难以使用传统数据库进行维护。它可能包括互联网上漂浮的所有数字信息、我们与之有过业务往来的公司的专有信息以及官方政府记录等诸多内容。这也暗示着这些数据正在被用于某种目的进行分析。

广告

我们通过在线购物和参与社交媒体自己生成了大量数据,但这只是冰山一角。大数据可以包括数字化文档、照片、视频、音频文件、推文和其他社交网络帖子、电子邮件、短信、电话记录、搜索引擎查询、RFID标签和条形码扫描以及金融交易记录,尽管这些并非唯一来源。每次您进行任何在线操作时,都在生成数据,留下一个数字足迹,其他人可以沿着这个足迹挖掘有用的信息。

生成数据的设备数量和类型也在激增。除了家用电脑和零售商的销售点系统,我们还有互联网连接的智能手机、能发布我们体重的WiFi秤、追踪有时还会分享健康相关数据的健身传感器、能自动在线发布照片和视频的摄像头,以及能精确定位我们在地球上位置的全球定位卫星GPS)设备,这只是其中一小部分。别忘了天气和交通传感器、监控摄像头、汽车和飞机中的传感器以及其他与个人无关但持续收集数据的设备。大量生成和上传数据的电子设备催生了“物联网”一词。

您会发现大数据有多种定义,因此并非所有人都完全同意其包含的内容,但它可以是任何人们可能有兴趣了解的、可以进行计算机分析的事物。这些庞大、难以处理的数据集需要新的方法来收集、存储、处理和分析。

广告

大数据如何被分析和使用

Server farms like this one in San Jose, Calif. are processing massive amounts of data in an effort to identify patterns and associations.
像加利福尼亚州圣何塞的这个服务器群正在处理大量数据,以识别模式和关联。
© Bob Sacha/Corbis

大数据必须经过收集、整理、关联和解释才能对任何人有用。公司和其他实体需要过滤海量可用数据,以获取对其最相关的信息。幸运的是,能够处理、存储和分析海量信息的硬件和软件正变得越来越便宜和快速,因此这项工作不再需要庞大且昂贵的超级计算机。一些软件也变得更加用户友好,因此不再一定需要一支程序员和数据科学家团队来处理数据(尽管拥有了解您需求的人总是好的)。

公司利用云计算服务,这样他们甚至不需要购买自己的电脑来完成所有数据处理工作。数据中心,也称为服务器农场,可以将数据批次分发到多个服务器进行处理,并且服务器的数量可以根据需要快速扩展或缩减。这种可扩展的分布式计算是通过使用Apache Hadoop、MapReduce和大规模并行处理(MPP)等创新工具实现的。NoSQL数据库已被开发出来,作为传统基于SQL的数据库系统更易于扩展的替代方案。

广告

这些大数据处理和分析的大部分目的是寻找模式和关联,以提供可利用或用于决策的洞察。企业现在可以挖掘海量数据,以获取有关消费者习惯、产品受欢迎程度或更高效的经营方式的信息。大数据分析可用于向他们认为最有可能购买的客户定向投放相关广告、产品和服务,或创建更受大众欢迎的广告。公司现在甚至开始通过智能手机向人们发送实时广告和优惠券,针对那些他们最近使用信用卡消费地点附近的商家。

然而,它不仅仅是为了让我们购买商品。企业可以利用这些信息来提高效率和优化实践,例如寻找最具成本效益的配送路线或更恰当地储存商品。政府机构可以分析交通模式、犯罪、公用事业使用情况以及其他统计数据,以改进政策决策和公共服务。情报机构可以利用它进行监视,并希望挫败犯罪和恐怖阴谋。新闻机构可以利用它来发现趋势和撰写报道,当然,也可以撰写更多关于大数据的文章。

本质上,大数据使得实体能够利用接近实时的数据来辅助决策,而不是像过去那样主要依赖旧信息。但这种能够洞察我们当前情况,甚至有时预测我们未来行为的能力,可能会令人感到有些毛骨悚然。

广告

大数据:是敌是友?

Your ATM transactions and credit and debit card purchases are part of the data profile that helps companies predict your spending habits.
您的ATM交易以及信用卡和借记卡购买是数据档案的一部分,这些档案有助于公司预测您的消费习惯。
© Erik Tham/Corbis

大数据的概念让很多人感到不安。它听起来很像奥威尔笔下的“老大哥”,再加上那些似乎知道我们在做什么的公司广告以及最近美国国家安全局(NSA)的国内监控揭露,一些人对我们所有人的海量信息感到不安是情有可原的。

人们可以从这些数据中了解您的许多信息,包括您的年龄、性别、性取向、婚姻状况、收入水平、健康状况、品味、爱好、习惯以及许多您可能不想公开的其他事情。他们只需要有能力和意愿去收集和分析这些数据。无论他们的意图是好是坏,都可能产生意想不到的后果。

广告

我们向与我们有业务往来的公司泄露的信息比我们意识到的要多,尤其是当我们使用会员卡或用信用卡或借记卡支付时。仅仅通过分析您的购买记录,就能了解您很多信息。Target 公司曾因此受到关注,因为它被发现在购买补品和乳液等信息后,能够准确判断哪些顾客怀孕了,甚至离预产期还有多久。在一个案例中,Target 开始直接向一个少女邮寄婴儿用品优惠券,这激怒了她的父亲,他认为公司给她发送了不适合她年龄的广告——直到他发现女儿怀孕了[来源:Datoo, Duhigg, 经济学人]。

政府和隐私倡导者已尝试规范个人可识别信息(PII)的使用或披露方式,以使个人对哪些信息成为公开知识拥有一定程度的控制权。但预测分析可以绕过许多现有法律(这些法律主要处理特定类型的数据,如您的财务、医疗或教育记录),通过让公司利用从数字来源收集到的零散信息,间接且很可能在您不知情的情况下,对您做出推断。一些公司正在使用这些信息来做一些事情,例如使用典型信用评分之外的数据来检查潜在客户的信用状况,这可能对您有利或不利,取决于他们发现和解释的结果。然而,一个担忧是,这类个人信息可能导致难以察觉的就业、住房或贷款歧视。更糟糕的是,它可能并非总是完全准确。

大数据中发现的模式也有可能被误解,从而导致错误的决策。像任何工具一样,结果完全取决于其使用得当与否。尽管涉及数学,但大数据分析并非一门精确的科学,人类的规划和决策必须介入其中。面对庞大的数据集,需要对哪些重要、哪些可以忽略做出判断。但良好地进行大数据分析可以为公司带来竞争优势。

此类分析可用于明显有益的事情,例如打击欺诈。银行、信用卡提供商以及其他金融公司现在越来越多地使用大数据分析来发现指向犯罪活动的不寻常模式。对于单个账户,他们可以迅速发现异常迹象,如购买不寻常的商品、客户通常不会支出的金额、奇怪的地理位置,或者先小额测试性购买后紧接着大额购买。跨多个账户的模式,例如来自同一地区不同卡的类似收费,也可以提醒公司可能存在的欺诈行为。

庞大的数据集可以帮助科学和社会学研究、选举预测、天气预报以及其他有价值的追求。社交媒体帖子和谷歌搜索甚至已被用于快速发现疾病爆发的地点。所以,并非全是坏消息。解决所有潜在问题并实施保护我们免受潜在伤害的法律还需要一段时间。在此之前,如果您担心,您可能希望恢复现金支付,并注意您在网上发布关于自己的信息。不过,我们可能已经深陷其中,以至于任何人都无法完全摆脱雷达的追踪了。

广告

更多信息

作者注:什么是“大数据”?

像任何事物一样,大数据可以用于善,可以用于恶,也可以用于介于两者之间的许多事情。针对我们的广告和优惠券可能是一种便利,也可能是一种主要的烦恼。而陌生人仅仅因为我们在他们的商店刷卡或使用他们的卡就能了解我们这么多信息,这着实令人不安。

我一直认为会员卡是收集我们购物数据的方式,但直到现在我才真正意识到,通过借记卡/信用卡购买,有多少类似的数据被单独关联到我们身上,或者从中可以识别出我们生活中的惊人细节。这甚至还没有包括互联网上关于我们的所有其他信息。

一想到我的一举一动都被分析,我就想在某种程度上脱离网络,停止在线发布,并一切都用现金。尽管我们大多数人,包括我,可能为了方便起见会继续保持现状。我可能会像被监视一样发布和购买东西。

相关文章

  • Apache. "Hadoop." (Nov. 30, 2013) https://hadoop.apache.ac.cn/
  • Arthur, Lisa. "What Is Big Data?" Forbes. Aug. 15, 2013. (Dec. 1, 2013) http://www.forbes.com/sites/lisaarthur/2013/08/15/what-is-big-data/
  • Brooks, David. "What Data Can't Do." New York Times. Feb. 18, 2013. (Dec. 4, 2013) http://www.nytimes.com/2013/02/19/opinion/brooks-what-data-cant-do.html?_r=1&
  • Brooks, David. "What You'll Do Next." New York Times. April 15, 2013. (Dec. 4, 2013) http://www.nytimes.com/2013/04/16/opinion/brooks-what-youll-do-next.html
  • Brust, Andrew. "MapReduce and MPP: Two sides of the Big Data coin?" ZDNet. March 2, 2012. (Dec. 5, 2013) http://www.zdnet.com/blog/big-data/mapreduce-and-mpp-two-sides-of-the-big-data-coin/121
  • Butler, Brandon. "Lessons From Numbers Guru Nate Silver About Working With Big Data." Network World. Sept. 11, 2013. (Dec. 4, 2013) http://www.networkworld.com/news/2013/091113-nate-silver-big-data-273740.html
  • Cox, Ryan. "Nate Silver Skeptical of Big Data Trends, Keys in on Culture." Silicon Angle. Sept. 12, 2013. (Dec. 4, 2013) http://siliconangle.com/blog/2013/09/12/nate-silver-skeptical-of-big-data-trends-keys-in-on-culture/
  • Crawford, Kate and Jason Schultz. "Big Data and Due Process: Toward a Framework to Redress Predictive Privacy Harms." New York University School of Law. October 1, 2013. (Dec. 4, 2013) http://papers.ssrn.com/sol3/papers.cfm?abstract_id=2325784
  • Datoo, Siraj. "Rapid Development in Big Data Analytics Has Led to Increased Investment." Guardian. Nov. 22, 2013. (Nov. 29, 2013) http://www.theguardian.com/news/2013/nov/22/rapid-development-in-big-data-analytics-has-led-to-increased-investment
  • Duhigg, Charles. "How Companies Learn Your Secrets." New York Times. Feb. 16, 2012. (Dec. 2, 2013) http://www.nytimes.com/2012/02/19/magazine/shopping-habits.html?pagewanted=6&_r=3&hp&pagewanted=all&
  • Economist. "Big Data - Crunching the Numbers." May 19, 2012. (Dec. 1, 2013) http://www.economist.com/node/21554743
  • EMC. "EMC: Behind the Big Data Curtain." 2012. (Dec. 1, 2013) http://www.emc.com/campaign/global/big-data/hfbd-infographic-4web-1500.jpg?cmp=micro-big_data-general-emc
  • Fitzgerald, Michael. "Big Data: Big Threat Or Big Lie?" InformationWeek. Nov. 21, 2013. (Dec. 4, 2013) http://www.informationweek.com/big-data-big-threat-or-big-lie/d/d-id/1112668?
  • Gartner. "Big Data." (Nov. 29, 2013) http://www.gartner.com/it-glossary/big-data/
  • Gnau, Scott. "Putting Big Data in Context." Wired. Sept. 10, 2013. (Dec. 4, 2013) http://www.wired.com/insights/2013/09/putting-big-data-in-context/
  • Henschen, Doug. "Big Data Reshapes Weather Channel Predictions." InformationWeek. Nov. 25, 2013. (Dec. 4, 2013) http://www.informationweek.com/big-data/software-platforms/big-data-reshapes-weather-channel-predictions/d/d-id/1112776?
  • IBM. "What is big data?" (Dec. 4, 2013) http://www-01.ibm.com/software/data/bigdata/what-is-big-data.html
  • Intel. "Big Data 101: How Big Data Makes Big Impacts." (Nov. 29, 2013) http://www.intel.com/content/www/us/en/big-data/big-data-101-animation.html
  • Intel. "Combat Credit Card Fraud with Big Data." (Nov. 30, 2013) http://www.intel.com/content/dam/www/public/us/en/documents/white-papers/combat-credit-card-fraud-with-big-data-whitepaper.pdf
  • Intel. "What is Big Data?" (Nov. 30, 2013) http://www.intel.com/content/www/us/en/big-data/big-data-what-is-big-data-landing.html
  • Laney, Doug. "Deja VVVu: Others Claiming Gartner's Construct for Big Data." Gartner. Jan. 14, 2012. (Dec. 1, 2013) http://blogs.gartner.com/doug-laney/deja-vvvue-others-claiming-gartners-volume-velocity-variety-construct-for-big-data/
  • Lund, Susan, James Manyika, Scott Nyquist, Lenny Mendonca, and Sreenivas Ramaswamy. "Game Changers: Five Opportunities for US Growth and Renewal." McKinsey Global Institute. July 2013. (Dec. 3, 2013) http://www.mckinsey.com/insights/americas/us_game_changers
  • MongoDB. "Big Data Explained." (Dec. 5, 2013) https://mongodb.ac.cn/learn/big-data
  • Naughton, John. "Why Big Data Has Made Your Privacy a Thing of the Past." Guardian. Oct. 5, 2013. (Nov. 29, 2013) http://www.theguardian.com/technology/2013/oct/06/big-data-predictive-analytics-privacy
  • Novet, Jordan. "Here's Why 2014 Will be the Year of the 'Internet of Things.'" Venturebeat. Nov. 25, 2013. (Dec. 1, 2013) http://venturebeat.com/2013/11/25/heres-why-2014-will-be-the-year-of-the-internet-of-things/
  • Romanov, Alex. "Putting a Dollar Value on Big Data Insights." Wired. July 17, 2013. (Dec. 4, 2013) http://www.wired.com/insights/2013/07/putting-a-dollar-value-on-big-data-insights/
  • SAS. "What is Big Data?" (Dec. 1, 2013) http://www.sas.com/big-data/
  • Sicular, Svetlana. "Gartner's Big Data Definition Consists of Three Parts, Not to Be Confused with Three 'V's." Forbes. March 27, 2013. (Dec. 1, 2013) http://www.forbes.com/sites/gartnergroup/2013/03/27/gartners-big-data-definition-consists-of-three-parts-not-to-be-confused-with-three-vs/
  • Zettaset. "What is Big Data and Hadoop?" (November 29, 2013) http://www.zettaset.com/info-center/what-is-big-data-and-hadoop.php

广告

加载中...