某种程度上,大数据顾名思义——海量数据。自互联网问世以来,我们一直在以惊人的数量生成数据。据估计,截至2003年,总共只生成了5艾字节的数据——相当于50亿吉字节。但从2003年到2012年,这一数量达到了约2.7泽字节(或2700艾字节,或2.7万亿吉字节)[来源:英特尔,Lund]。根据伯克利研究人员的说法,我们现在每两天大约生成5千兆字节(或约4.3艾字节)的数据[来源:Romanov]。
'大数据'一词通常指的是海量、快速增长、多样化且通常是非结构化的数字化数据集,这些数据集难以使用传统数据库进行维护。它可能包括互联网上漂浮的所有数字信息、我们与之有过业务往来的公司的专有信息以及官方政府记录等诸多内容。这也暗示着这些数据正在被用于某种目的进行分析。
广告
我们通过在线购物和参与社交媒体自己生成了大量数据,但这只是冰山一角。大数据可以包括数字化文档、照片、视频、音频文件、推文和其他社交网络帖子、电子邮件、短信、电话记录、搜索引擎查询、RFID标签和条形码扫描以及金融交易记录,尽管这些并非唯一来源。每次您进行任何在线操作时,都在生成数据,留下一个数字足迹,其他人可以沿着这个足迹挖掘有用的信息。
生成数据的设备数量和类型也在激增。除了家用电脑和零售商的销售点系统,我们还有互联网连接的智能手机、能发布我们体重的WiFi秤、追踪有时还会分享健康相关数据的健身传感器、能自动在线发布照片和视频的摄像头,以及能精确定位我们在地球上位置的全球定位卫星(GPS)设备,这只是其中一小部分。别忘了天气和交通传感器、监控摄像头、汽车和飞机中的传感器以及其他与个人无关但持续收集数据的设备。大量生成和上传数据的电子设备催生了“物联网”一词。
您会发现大数据有多种定义,因此并非所有人都完全同意其包含的内容,但它可以是任何人们可能有兴趣了解的、可以进行计算机分析的事物。这些庞大、难以处理的数据集需要新的方法来收集、存储、处理和分析。
广告