统计分析利器——R语言

项目实践中,具体的业务应用常常以数据为中心展开,数据本身代表着应用系统价值的核心。然而仅仅是大量庞杂的数据,还无法直接体现自身的价值,数据通常需要经过多层分析过滤和处理,才会去粗取精,挖掘出数据所蕴含的信息。

GNU麾下的开源项目R语言是专门解决数据统计与分析相关问题的一把利剑。R语言使得基于数理统计思想的数据分析过程得到了极大的简化。通过简洁的语法和强大的命令让我们专注于数据本身,而非羁绊于具体处理过程的实现,减轻了数据统计分析的编程与操作负担。

R语言提供基于命令行的使用方式,内建一系列数据统计分析和图形显示工具,可以实现统计检验、矩阵计算、线性和非线性模型、分类聚类等各项数据统计处理功能。在Windows平台下,还可以通过RGui这样的图形化交互界面,完成数据统计、分析甚至数据挖掘工作,并且提供如MetaPost般强大的作图能力。

R语言的编程环境拥有非常好的一致性和拓展性,简单的数据统计计算可以直接在命令控制台中执行,如果需要编写R的程序段,WinEdt、Emacs和Vi等常用的编辑器都提供了对R语言的语法加亮支持。RGui环境已经集成了基本函数、数据集、标准统计和图形工具等26个针对不同应用的基本程序包,更多的程序包可以在CRAN项目中得到并载入使用。

R语言的语法在形式上类似C语言,语义上倾向于LispAPL(Array Processing Language)语言并与其有较强的兼容性。R语言允许把表达式作为函数的输入参数,这样极大方便了使用R语言进行统计模拟和绘图的工作。在R语言中,内置有众多数据处理相关的函数,并且用户可以创建自己的函数对象。函数一般以对象的形式在R工作空间中加载和使用,同时R的部分内部函数还可以用在表达式中,使得R程序的功能性和便利性得到极大扩展。

数学是任何科学的基础,在开放源码领域中,面向科学计算方面的项目十分广泛,为各种特定数学领域的问题提供了辅助工具。数据统计分析主要研究不确定性数据中所蕴含的规律性,在众多学科专业领域里都得到越来越广泛的应用。通过R语言来完成数据统计和处理将会极大提高效率,并对数据统计分析得出的定量决策,避免主观判断的随机性。(本文全文参见《程序员》07年9月刊。)