大数据分析一般用什么工具分析?
医学上的分析SPSS较常见,因为医学生若干年都在学习医学相关知识往往忽略了统计学的学习,SPSS是属于易上手的傻瓜软件,而且方便准确,可以满足基本的数据分析功能。对于大数据来说,属于数据挖掘与机器学习的领域,比较好用的软件有matalab、R、Weka,内部嵌入很多包,而且具体的包可以网上下载或者自己编写,R较为灵活强大,Matlab不太了解据说作图很不错,个人比较喜欢Weka,易于学习操作,内部嵌入的工具包全面,不用自己编程,能够实现很多算法的运行,当然不同人有不同看法,如果数据不够多或者怎么学也学不会的SPSS甚至是excel都够用了
一、ExcelExcel作为一个入门级工具,是快速分析数据的理想工具,也能创建供内部使用的数据图,但是Excel在颜色、线条和样式上课选择的范围有限,这也意味着用Excel很难制作出能符合专业出版物和网站需要的数据图。二、GoogleChartAPIGoogleChart提供了一种非常完美的方式来可视化数据,提供了大量现成的图标类型,从简单的线图表到复杂的分层树地图等。它还内置了动画和用户交互控制。三、D3D3(DataDrivenDocuments)是支持SVG渲染的另一种JavaScript库。但是D3能够提供大量线性图和条形图之外的复杂图表样式,例如Voronoi图、树形图、圆形集群和单词云等。四、RR语言是主要用于统计分析、绘图的语言和操作环境。虽然R主要用于统计分析或者开发统计相关的软件,但也有用作矩阵计算。其分析速度可比美GNUOctave甚至商业软件MATLAB。五、http://Visual.ly如果你需要制作信息图而不仅仅是数据可视化,http://Visual.ly是最流行的一个选择。六、ProcessingProcessing是数据可视化的招牌工具。你只需要编写一些简单的代码,然后编译成Java。Processing可以在几乎所有平台上运行。七、LeafletLeaflet是一个开源的JavaScript库,用来开发移动友好地交互地图。八、OpenlayersOpenlayers可能是所有地图库中可靠性最高的一个。虽然文档注释并不完善。且学习曲线非常陡峭,但是对于特定的任务来说,Openlayers能够提供一些其他地图库都没有的特殊工具。九、PolyMapsPolyMaps是一个地图库,主要面向数据可视化用户。PolyMaps在地图风格化方面有独到之处,类似CSS样式表的选择器。十、ChartingFontsChartingFonts是将符号字体与字体整合(把符号变成字体),创建出漂亮的矢量化图标。十一、GephiGephi是进行社会图谱数据可视化分析的工具,不但能处理大规模数据集并且Gephi是一个可视化的网络探索平台,用于构建动态的、分层的数据图表。十二、CartoDBCartoDB是一个不可错过的网站,你可以用CartoDB很轻易就把表格数据和地图关联起来,这方面CartoDB是最优秀的选择。十三、WekaWeka是一个能根据属性分类和集群大量数据的优秀工具,Weka不但是数据分析的强大工具,还能生成一些简单的图表。十四、NodeBoxNodeBox是OSX上创建二维图形和可视化的应用程序,你需要了解Python程序,NodeBox与Processing类似,但没有Processing的互动功能。
给大家良心推荐一款超好用的爬虫软件——前嗅ForeSpider爬虫工具,也是最近发现的。本人是数据工作者,每天就是跟各种各样的数据打交道,数据采集必不可少,然而这也是最令我头疼的地方,尝试了各种各样的爬虫工具,不是操作繁琐就是采集精度不够,无奈自己没有能力造一个,只能受限于现在市面上的种种。说重点~说重点~重点就是我最近在网上搜索又发现了一款爬虫软件,查了一下说是什么前嗅公司旗下的一款爬虫产品叫前嗅ForeSpider爬虫,只能说是目前为止本人强烈推荐的,用过才发现,简直更是技术白们的福音。跟之前使用过的其他爬虫软件对比发现,人家这个前嗅ForeSpider爬虫有自己的内置数据库,当然也支持MySQL等主流数据存储系统啦。在使用过程中有几点感受必须大赞特赞。(1)采集全面。可以采集几乎100%的互联网公开数据。支持正则表达式,内置脚本。(连企业信息公示系统都可以采集,你可以想象它的强大。。)(2)智能。可以智能模拟用户和浏览器行为,因此即使反爬虫机制很严的网站也能采集。支持动态调整模板、自动定时采集、模板在线更新、数据智能排重。(3)数据质量高。前嗅ForeSpider爬虫的操作都是可视化的,通过模板配置链接抽取和数据抽取,过滤干净无关信息。数据可以在爬虫内直接预览,在采集数据之前直接先把无效数据剔除干净,数据质量高。(4)数据直接入库。通过可视化的操作流程,从建表、过滤、采集到入库一步到位。(5)功能强大。支持验证码识别、关键词搜索、登录采集、HTTPS协议、OAuth认证,动态JS生成的页面。。IP代理加速(6)采集性能强大:单机采集能力可达4000-8000万,日采集能力超过500万。服务器单机采集能力可达8亿-16亿,日采集能力超过2000万。并行情况下可支撑百亿以上规模数据链接,堪与百度等搜索引擎系统媲美。
数据可视化是技术与艺术的完美结合,它借助图形化的手段,清晰有效地传达与沟通信息。一方面,数据赋予可视化以意义;另一方面,可视化增加数据的灵性,两者相辅相成,帮助企业从信息中提取知识、从知识中收获价值。目前市场上比较流行的可视化展现工具是Tableau/Qlik/IBMCognos。这些工具我也都用过。
提到用Excel的朋友简直是在讲笑话国内对大数据应用的学习和了解目前只是处于初步阶段国内原有的大量数据处理,学术上只能称为:批量数据处理而大数据处理问题,解决的是海量数据的问题解决这一问题:有几个方面1.安全方面:脱密技术、加密技术,恩师出台的无条件安全技术等目前由国家相关部门独立拥有。其工具更不谈公开2.处理方面:Hadoop,Hive,Hbase。近年阿里云的datalake。Echart什么的只能算批量数据处理的应用软件。3.应用方面:以IBM和Oracle为行业标杆。近期可以关注的还有:Teradata、Opower、Splunk主要应用分类:1.实时处理即时决策2.海量计算价值挖掘回归正题,答题主问:对于数据科学家,主要工具还是算法、代码和论文对于政府,主要工具是别人家的政策和预算对于大数据公司,主要工具就是科学家和政府对于企业,主要工具是数据公司提供的分析软件对于平民,主要工具是企业的各种应用
首先Hadoop,没错就是这只小象。Hadoop是一个能够对大量数据进行分布式处理的软件框架。但是Hadoop是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop还是可伸缩的,能够处理PB级数据。此外,Hadoop依赖于社区服务器,因此它的成本比较低,任何人都可以使用。其次,HPCCHPCC,HighPerformanceComputingandCommunications(高性能计算与通信)的缩写。1993年,由美国科学、工程、技术联邦协调理事会向国会提交了“重大挑战项目:高性能计算与通信”的报告,也就是被称为HPCC计划的报告,即美国总统科学战略项目,其目的是通过加强研究与开发解决一批重要的科学与技术挑战问题。HPCC是美国实施信息高速公路而上实施的计划,该计划的实施将耗资百亿美元,其主要目标要达到:开发可扩展的计算系统及相关软件,以支持太位级网络传输性能,开发千兆比特网络技术,扩展研究和教育机构及网络连接能力。再次,StormStorm是自由的开源软件,一个分布式的、容错的实时计算系统。Storm可以非常可靠的处理庞大的数据流,用于处理Hadoop的批量数据。Storm很简单,支持许多种编程语言,使用起来非常有趣。Storm由Twitter开源而来,其它知名的应用企业包括Groupon、淘宝、支付宝、阿里巴巴、乐元素、Admaster等等。
一、ExcelExcel作为一个入门级工具,是快速分析数据的理想工具,也能创建供内部使用的数据图,但是Excel在颜色、线条和样式上课选择的范围有限,这也意味着用Excel很难制作出能符合专业出版物和网站需要的数据图。二、GoogleChartAPIGoogleChart提供了一种非常完美的方式来可视化数据,提供了大量现成的图标类型,从简单的线图表到复杂的分层树地图等。它还内置了动画和用户交互控制。三、D3D3(DataDrivenDocuments)是支持SVG渲染的另一种JavaScript库。但是D3能够提供大量线性图和条形图之外的复杂图表样式,例如Voronoi图、树形图、圆形集群和单词云等。四、RR语言是主要用于统计分析、绘图的语言和操作环境。虽然R主要用于统计分析或者开发统计相关的软件,但也有用作矩阵计算。其分析速度可比美GNUOctave甚至商业软件MATLAB。五、http://Visual.ly如果你需要制作信息图而不仅仅是数据可视化,http://Visual.ly是最流行的一个选择。六、ProcessingProcessing是数据可视化的招牌工具。你只需要编写一些简单的代码,然后编译成Java。Processing可以在几乎所有平台上运行。七、LeafletLeaflet是一个开源的JavaScript库,用来开发移动友好地交互地图。八、OpenlayersOpenlayers可能是所有地图库中可靠性最高的一个。虽然文档注释并不完善。且学习曲线非常陡峭,但是对于特定的任务来说,Openlayers能够提供一些其他地图库都没有的特殊工具。九、PolyMapsPolyMaps是一个地图库,主要面向数据可视化用户。PolyMaps在地图风格化方面有独到之处,类似CSS样式表的选择器。十、ChartingFontsChartingFonts是将符号字体与字体整合(把符号变成字体),创建出漂亮的矢量化图标。十一、GephiGephi是进行社会图谱数据可视化分析的工具,不但能处理大规模数据集并且Gephi是一个可视化的网络探索平台,用于构建动态的、分层的数据图表。十二、CartoDBCartoDB是一个不可错过的网站,你可以用CartoDB很轻易就把表格数据和地图关联起来,这方面CartoDB是最优秀的选择。十三、WekaWeka是一个能根据属性分类和集群大量数据的优秀工具,Weka不但是数据分析的强大工具,还能生成一些简单的图表。十四、NodeBoxNodeBox是OSX上创建二维图形和可视化的应用程序,你需要了解Python程序,NodeBox与Processing类似,但没有Processing的互动功能。https://www.nodebox.net/code/index.php/Home十五、KartographKartograph不需要任何地图提供者像GoogleMaps,用来建立互动式地图,由两个libraries组成,从空间数据开放格式,利用向量投影的Pythonlibrary以及postGIS,并将两者结合到SVG和JavaScriptlibrary,并把这些SVG资料转变成互动性地图。十六、ModestMapsModestMaps是一个很小的地图库,在一些扩展库的配合下,例如Wax、ModestMaps立刻会变成一个强大的地图工具。十七、TangleTangle是一个用来探索,Play和可以立即查看文档更新的交互工具。十八、CrossfilterCrossfilter既是图表,又是互动图形用户界面的小程序,当你调整一个图表中的输入范围时,其他关联图表的数据也会随之改变十九、RaphaelRaphael是创建图表和图形的JavaScript库,与其他库最大的不同是输出格式仅限SVG和VML.http://raphaeljs.com/二十、jsDraw2DXjsDraw2DX是一个标准的JavaScript库,用来创建任意类型的SVG交互式图形,可生成包括线、矩形、多边形、椭圆、弧线等图形。http://jsdraw2dx.jsfiction.com/二十一、PizzaPieChartsPizzaPieCharts是个响应式饼图图表,基于AdobeSnapSVG框架,通过HTML标记和CSS来替代JavaScript对象,更容易集成各种先进的技术。二十二、FusionChartsSuitXTFusionChartsSuitXT是一款跨平台、跨浏览器的JavaScript图表组件,为你提供令人愉悦的JavaScript图表体验。它是最全面的图表解决方案,包含90+图表类型和众多交互功能,包括3D、各种仪表、工具提示、向下钻取、缩放和滚动等。它拥有完整的文档以及现成的演示,可以帮助你快速创建图表。二十三、iChartsiCharts提供可一个用于创建并呈现引人注目图表的托管解决方案。有许多不同种类的图表可供选择,每种类型都完全可定制,以适合网站的主题。iCharts有交互元素,可以从GoogleDoc、Excel表单和其他来源中获取数据。二十四、ModestMapsModestMaps是一个轻量级、可扩展的、可定制的和免费的地图显示类库,这个类库能帮助开发人员在他们自己的项目里能够与地图进行交互。二十五、RawRaw局域非常流行的D3.js库开发,支持很多图表类型,例如泡泡图、映射图、环图等。它可以使数据集在途、复制、粘贴、拖曳、删除于一体,并且允许我们定制化试图和层次。二十六、SpringySpringy设计清凉并且简答。它提供了一个抽象的图形处理和计算的布局,支持Canvas、SVG、WebGL、HTML元素。二十七、BonsaiBonsai使用SVG作为输出方式来生成图形和动画效果,拥有非常完整的图形处理API,可以使得你更加方便的处理图形效果。它还支持渐变和过滤器(灰度、模糊、不透明度)等效果。二十八、CubeCube是一个开源的系统,用来可视化时间系列数据。它是基于MongoDB、NodeJS和D3.js开发。用户可以使用它为内部仪表板构建实时可视化的仪表板指标。二十九、GanttiGantti是一个开源的PHP类,帮助用户即时生成Gantti图表。使用Gantti创建图表无需使用JavaScript,纯HTML-CSS3实现。图表默认输出非常漂亮,但用户可以自定义样式进行输出(SASS样式表)。三十、SmoothieChartsSmoothieCharts是一个十分小的动态流数据图表路。通过推送一个webSocket来显示实时数据流。SmoothieCharts只支持Chorme和Safari浏览器,并且不支持刻印文字或饼图,它很擅长显示流媒体数据。三十一、FlotFlot是一个优秀的线框图表库,支持所有支持canvas的浏览器(目前主流的浏览器如火狐、IE、Chrome等都支持)。三十二、TableauPublicTableauPublic是一款桌面可视化工具,用户可以创建自己的数据可视化,并将交互性数据可视化发布到网页上。三十三、ManyEyesManyEyes是一个Web应用程序,用来创建、分享和讨论用户上传图形数据。三十四、AnychartAnychart是一个灵活的基于Flash/JavaScript(HTML5)的图表解决方案、跨浏览器、跨平台。除了图表功能外,它还有一款收费的交互式图表和仪表。三十五、DundasChartDundasChart处于行业领先地位的NET图表处理控件,于2009年被微软收购,并将图表产品的一部分功能集成到VisualStudio中。三十六、TimeFlowTimeFlowAnalyticalTimeline是为了暂时性资料的视觉化工具,现在有alpha版本因此有机会可以发现差错,提供以下不同的呈现方式:时间轴、日历、柱状图、表格等。三十七、ProtovisProtovis是一个可视化JavaScript图表生成工具。三十八、ChooselChoosel是可扩展的模块化Google网络工具框架,可用来创建基于网络的整合了数据工作台和信息图表的可视化平台。三十九、ZohoReportsZohoReports支持丰富的功能帮助不同的用户解决各种个性化需求,支持SQL查询、类四暗自表格界面等。四十、QuantumGIS(QDIS)QuantumGIS(QDIS)是一个用户界面友好、开源代码的GIS客户端程序,支持数据的可视化、管理、编辑与分析和印刷地图的制作。四十一、NodeXLNodeXLDE主要功能是社交网络可视化。四十二、OpenStreetMapOpenStreetMap是一个世界地图,由像您一样的人们所构筑,可依据开放协议自由使用。四十三、OpenHeatMapOpenHeatMap简单易用,用户可以用它上传数据、创建地图、交流信息。它可以把数据(如GoogleSpreadsheet的表单)转化为交互式的地图应用,并在网上分享。四十四、CircosCircos最初主要用于基因组序列相关数据的可视化,目前已应用于多个领域,例如:影视作品中的人物关系分析,物流公司的订单来源和流向分析等,大多数关系型数据都可以尝试用Circos来可视化。四十五、ImpureImpure是一个可视化编程语言,旨在收集、处理可视化信息。四十六、PolymapsPolymaps是一个基于矢量和tile创建动态、交互式的动态地图。四十七、RickshawRickshaw是一个基于D3.JS来创建序交互式的时间序列图表库。四十八、Sigma.jsSigma.js是一个开源的轻量级库,用来显示交互式的静态和动态图表。四十九、TimelineTimeline即时间轴,用户通过这个工具可以一目了然的知道自己在何时做了什么。五十、BirdEyeBirdEye是DecearativeVisualAnalytics,它属于一个群体专案,为了要提升设计和广泛的开源资料视觉化发展,并且为了AdobeFlex建视觉分析图库,这个动作以叙述性的资料库为主,让使用者能够建立多元资料视觉化界面来分析以及呈现资讯。五十一、Arbor.JsArbor.Js提供有效率、以力导向的版面配置演算法,抽象画图表组织以及筛选更新的处理。五十二、Highchart.jsHighchart.js是单纯由JavaScript所写的图表资料库,提供简单的方法来增加互动性图表来表达你的网站或网站应用程式。目前它能支援线图、样条函数图。五十三、Paper.jsPaper.js是一个开源向量图表叙述架构,能够在HTML5Canvas运作,对于初学者来说它是很容易学习的,其中也有很多专业面向可以提供中阶及高阶使用者。五十四、VisualizeFreeVisualizeFree是一个建立在高阶商业后台集游InetScoft开发的视觉化软体免费的视觉分析工具,可从多元变量资料筛选并看其趋势,或是利用简单地点及方法来切割资料或是小范围的资料。五十五、GeoCommonsGeoCommons可以使用户构建富交互可视化应用来解决问题,即使他们没有任何传统地图使用经验。你可以将实社会化数据或者GeoCommons保存的超5万份开源数据在地图上可视化,创造带交互的可视化分析作品,并将作品嵌入网站、博客或分享到社交网络上。传统的数据可视化工具仅仅将数据加以组合,通过不同的展现方式提供给用户,用于发现数据之间的关联信息。近年来,随着云和大数据时代的来临,数据可视化产品已经不再满足于使用传统的数据可视化工具来对数据仓库中的数据抽取、归纳并简单的展现。新型的数据可视化产品必须满足互联网爆发的大数据需求,必须快速的收集、筛选、分析、归纳、展现决策者所需要的信息,并根据新增的数据进行实时更新。
R-ggplot2ggplot2是R语言最为强大的作图软件包,强于其自成一派的数据可视化理念。当熟悉了ggplot2的基本套路后,数据可视化工作将变得非常轻松而有条理。技术相关核心理念1.将数据,数据相关绘图,数据无关绘图分离这点可以说是ggplot2最为吸引人的一点。众所周知,数据可视化就是将我们从数据中探索的信息与图形要素对应起来的过程。ggplot2将数据,数据到图形要素的映射,以及和数据无关的图形要素绘制分离,有点类似java的MVC框架思想。这让ggplot2的使用者能清楚分明的感受到一张数据分析图真正的组成部分,有针对性的进行开发,调整。2.图层式的开发逻辑在ggplot2中,图形的绘制是一个个图层添加上去的。举个例子来说,我们首先决定探索一下身高与体重之间的关系;然后画了一个简单的散点图;然后决定最好区分性别,图中点的色彩对应于不同的性别;然后决定最好区分地区,拆成东中西三幅小图;最后决定加入回归直线,直观地看出趋势。这是一个层层推进的结构过程,在每一个推进中,都有额外的信息被加入进来。在使用ggplot2的过程中,上述的每一步都是一个图层,并能够叠加到上一步并可视化展示出来。3.各种图形要素的自由组合由于ggplot2的图层式开发逻辑,我们可以自由组合各种图形要素,充分自由发挥想象力
回答请先登录