什么是大数据?你需要知道的一切
支持大数据的IT基础设施
要让大数据的概念发挥作用,组织需要有合适的基础设施来收集和存储数据、提供对数据的访问并保护信息在存储和传输过程中的安全。
这在较高的层面上还包括为大数据,数据管理和集成软件,商业智能和数据分析软件以及大数据应用设计的存储系统和服务器。
由于公司希望继续利用其数据中心投资,大部分这种基础设施可能会在本地部署。但越来越多的组织依靠云计算服务来处理他们的大部分大数据需求。
数据收集需要有收集数据的来源。其中有很多来源——如Web应用程序、社交媒体渠道、移动应用程序和电子邮件存档——已经就位。但随着物联网的逐渐成熟,企业可能需要在各种设备、车辆和产品上部署传感器、以及生成用户数据的新应用程序来收集数据。(面向物联网的大数据分析具有自身的专业技术和工具。)
为了存储所有传入的数据,组织需要有足够的数据存储。存储选项包括传统的数据仓库,数据湖泊和基于云的存储。
安全基础架构工具可能包括数据加密、用户身份验证和其它访问控制、监控系统、防火墙、企业移动管理以及其它保护系统和数据的产品,
大数据特有的技术
一般来说,除了上述用于数据的IT基础架构之外。你的IT基础架构应该支持大数据特有的几种技术。
Hadoop生态系统
Hadoop是其中一项与大数据密切相关的技术。Apache Hadoop项目为可扩展的分布式计算开发开源软件。
Hadoop软件库是一个框架,该框架支持使用简单的编程模型在计算机集群中对大数据集进行分布式处理。它旨在从单个服务器扩展到数千个,每个服务器都提供本地计算和存储。
该项目包括几个模块:
? Hadoop Common是支持其它Hadoop模块的通用工具
? Hadoop分布式文件系统,它可以为应用程序数据提供高吞吐量的访问
? Hadoop YARN是一个作业调度和集群资源管理的框架
? Hadoop MapReduce是一个基于YARN的大数据集并行处理系统。
Apache Spark
作为Hadoop生态系统的一部分的Apache Spark是一个开源的集群计算框架,它可充当在Hadoop中处理大数据的引擎。Spark已经成为关键的大数据分布式处理框架之一,而且它可以通过多种方式进行部署。它为Java、Scala、Python(尤其是Natrona Python发行版)和R编程语言(R特别适用于大数据)提供本地绑定,它还支持SQL、流数据、机器学习和图形处理。
数据湖泊
数据湖泊是存储库,这个存储库可以容纳大量以原始格式的形式存在的数据,直到业务用户需要数据为止。数字化转型举措和物联网的发展是数据湖泊发展的推手。数据湖的宗旨是,在用户有需求时,使他们更轻松地访问大量的数据。
最新活动更多
-
11月22日立即报名>> 【线下论坛】华邦电子与莱迪思联合技术论坛
-
11月28日立即报名>>> 2024工程师系列—工业电子技术在线会议
-
精彩回顾立即查看>> 【线下论坛】华邦电子与恩智浦联合技术论坛
-
精彩回顾立即查看>> 【在线会议】多物理场仿真助跑新能源汽车
-
精彩回顾立即查看>> 【限时免费下载】TE暖通空调系统高效可靠的组件解决方案
-
精彩回顾立即查看>> 2024德州仪器嵌入式技术创新发展研讨会
推荐专题
- 1 格科微5000万像素产品再传佳讯 剑指中高端手机后主摄市场
- 2 Kvaser发布全新软件CanKing 7:便捷CAN总线诊断与分析!
- 3 小米15供应链谁是大赢家?市场高度关注这家企业
- 4 Intel酷睿Ultra 9 285K首发评测:游戏性能一言难尽
- 5 锐龙7 9800X3D首发评测:网游断崖式领先
- 6 国补加持!双11最值得入手的Mini Led电视来了!不买真亏大了
- 7 小米入局家用NAS市场!手机厂商要做NAS普及推手?
- 8 HUAWEI SOUND 用科技开创智慧音响新世代
- 9 工业加热技术创造烘焙奇迹:Kanthal AF加热元件以37.55秒创造世界最短披萨烘焙时间
- 10 瑞典Ionautics HiPSTER 25重磅新品! SiC晶体管引领HiPIMS高效镀膜新时代,镀膜效率显著提升
发表评论
请输入评论内容...
请输入评论/评论长度6~500个字
暂无评论
暂无评论