第四届中国R语言会议(北京会场)纪要
第四届中国R语言会议(北京会场)于2011年5月28日~29日在中国人民大学明德法学楼0201成功召开。会议由中国人民大学应用统计科学研究中心与中国人民大学统计学院主办、统计之都(cos.name)协办。在两天的会议时间里,参会者齐聚一堂,就R语言在生物、金融、网络、商业等诸多方面的应用进行了深入的探讨。
会议概况
本次会议吸引了近250名参会者前来参会,规模属历届之最。参会者主要来自各大高校、科研机构、企业和事业单位,全体参会者所在单位汇总如下。 高校和研究所:
Banaras Hindu University、University of Alaska、北京大学、北京大学医学部、北京工业大学、北京化工大学、北京科技大学、北京理工大学、北京林业大学、北京师范大学、大连海事大学、电子科技大学互联网科学中心、对外经济贸易大学、华北电力大学、华东师范大学、华中科技大学、嘉兴学院、军事医学科学院放射与辐射医学研究所、南开大学、清华大学、热带林业研究所、首都经济贸易大学、天津理工大学、西南交通大学、同济大学、中国测绘科学研究院、中国科学技术大学、中国科学院大气物理研究所、中国科学院地理科学与资源研究所、中国科学院计算技术研究所、中国科学院武汉植物园、中国矿业大学、中国林业科学研究院、中国农业大学、中国农业科学院、中国农业科学院农业资源与农业区划研究所、中国人民大学、中国石油大学、中国政法大学、中科院北京基因组研究所、中科院地理所、中科院动物所、中科院武汉植物园、中南大学、中水产科学研究院黄海水产研究所、中央财经大学、中央民族大学
企业、事业单位:
58同城、Mango Solutions、Sanofi Pasteur、SAS北京研发中心、SPSS China、艾瑞咨询、百度、北京安泰科信息开发有限公司、北京风行在线技术有限公司、北京汉端科技有限公司、北京航空航天大学出版社、北京市国富如荷网络科技有限公司、北京网达信联科技发展有限公司上海分公司、北京正和之道管理咨询有限责任公司、北京质量协会、北森、博奥生物有限公司、创维数字、当当网、歌尔泰克、好耶网络广告、华胜天成、甲骨文、酷6网、奇艺网、上海烟草集团有限责任公司、深圳华大基因研究院、深圳茂源投资管理有限公司、首钢、水利部发展研究中心、淘宝、腾讯、同方股份有限公司、无线讯奇、西安交通大学出版社、小米科技、新华社中经社控股有限公司、新华信咨询、新浪、益普索、优酷网、中诚信信用管理、中国电子科技集团公司信息化工程总体研究中心、中国疾控、中国移动、中国邮政集团、卓望信息
会议内容
本次会议讨论的主题涵盖了R语言在生物信息、生态学、金融、混合编程、高性能计算、网络和出版等众多方面的最新进展,共进行了17场精彩的报告。会议的流程和主要内容摘录如下。
1、吴喜之教授致辞
吴喜之教授是国内推广R语言的先驱,他在致词中简述了R的诸多优势,如免费、公开、容易学习、可扩展、功能强大、不断更新等,并对现场的参会者提出了殷切的期待,希望大家能从R中不断学习新的统计知识。吴喜之教授幽默睿智的演讲受到了现场观众的热烈欢迎。
2、李舰——R与高性能运算
演讲指出,S语言的一个设计理念是“人的时间比机器的时间宝贵”,因此R在设计之初并不是纯粹追求高效,而是符合统计的思维方式。演讲针对R的三个事实——解释性语言,数据都读入内存和单线程——详细讲述了R的高性能运算,包括基础优化、大数据、代数运算和并行计算四部分的内容。
3、李欣海——广义线性模型的基本原理及其应用
演讲详细介绍了广义线性模型的概念、组成和估计等内容,重点讲解了Logistic回归的原理和应用。同时,演讲者结合具体的专业背景讲解了广义线性模型在生态学中的应用。
4、肖嘉敏——基于R的网络用户行为研究
演讲中对用户行为的研究包括网站浏览、软件使用和行为特征三个方面,具体的数据操作包括数据预处理、数据库操作、缺失值、变量转换、tapply()应用等。演讲还专门针对网络数据的特点介绍了一些特定的高性能运算算法,来提高网络数据处理的效率。
5、张金龙——R 与进化生态学
演讲介绍了进化生态学的来源和特点,通过几个实例引入了系统发育的相关理论,之后介绍了R中处理相应问题的软件包。演讲人之后对进化树、祖先状态、物种分化速率、群落系统和生态位进化等内容进行了详细的讲解,其中对每一个问题都提供了程序示例和图形等展示内容。
6、李青龙——R与EXCEL VBA及MATLAB混合编程
Excel和Matlab各自在商业和数学领域有广泛的应用,而混合编程可以将不同工具的优势结合起来。演讲详述了混合编程的步骤,并通过R与Matlab和Excel VBA交互的实例讲解了混和编程的操作方法。
7、王洪月——SAS Interaction with R
演讲从SAS的视角对R的特点进行了分析,解释了SAS为什么要集成R,以及如何进行集成。通过实例的演示,演讲者展示了如何利用IML Studio来实现SAS与R的交互。
8、颜林林——R高级编程技巧及Rcpp的介绍
R的高级编程技巧主要包括向量运算和扩展软件包的使用两方面。演讲的第一部分介绍了apply()系列函数的用法,来实现R中的向量化操作;第二部分介绍了Rcpp的相关历史,并详细叙述了Rcpp的使用方法及效率方面的比较。
9、曹宗富——基于R/Bioconductor进行生物芯片数据分析
演讲首先介绍了生物芯片的应用及其对应的数据处理方法,之后介绍了Bioconductor的创始人和历史,并利用相应的软件包对基因芯片进行了一系列的分析,包括预处理、聚类、可视化等。
10、李颖——推进R语言图书的发展
演讲介绍了目前国内R语言图书出版的现状,鼓励R语言的爱好者将编程经验系统化,编写相关的教材或翻译国外的作品。演讲者还对目前正在进行的出版计划进行了介绍。
11、邓一硕——R与现代金融分析
在以往的几届R会议中都没有涉及金融方面的应用,本演讲旨在填补这一部分的空白。演讲总体分为五个部分,介绍了金融时间序列建模、风险度量、技术分析、期权以及投资组合等方面的理论和R语言实现。
12、林伟林——R在量化投资的应用
演讲概述了量化投资在中国的机会与不足,接下来介绍了对套利的研究和时间序列的基本知识,最后针对股指期货和指数的联动关系提出了理论模型及其R语言实现。
13、胡江堂——关于R和SAS的7个广为流传的误解
演讲者指出演讲的目的在于加强R用户和SAS用户的沟通和交流。针对R与SAS之间的7个误解,演讲者进行了澄清和解释。演讲结束后众多听众也都发表了自己的观点,与演讲者进行了热烈的讨论。
14、李舰——R的商用情况简介
演讲介绍了R在工业领域的应用,包括分析咨询,外包,程序开发,培训和支援等。针对每个方面演讲者都举出了R的具体应用范围,并着重对制药行业中R的应用进行了介绍。
15、朱剑锋——R在宏基因组研究中的应用
演讲者首先介绍了宏基因组的背景知识,然后提出了基因数据分析中遇到的问题,并对qvalue、“软”聚类等概念进行了细致的讨论,给出了相应R软件包的使用方法。演讲者还对R的发展提出了展望,指出R的发展离不开行业的发展,希望大家能多进行交流。
16、赵毅——R与.NET混合编程及其在化学计量学中的应用
演讲者介绍了R与.NET环境结合的背景,并结合一个实际的项目分析了R与.NET开发的流程及相应的解决方案。最后演讲者说明了如何将混合编程的方法应用到化学计量学中,并进行了现场演示。
17、卢一鸣——R在基因芯片数据处理中的应用
演讲的第一部分介绍了基因芯片的数据特点和相关的软件包,第二部展示了R在基因芯片数据分析中的高级应用,重点介绍了Lasso方法的原理和R语言实现。
18、张雯——R语言在物种进化分析中的应用
演讲指出,技术革新与交叉学科产生的海量数据使得生物学进入了一个新时代,生物信息学急需对数据进行挖掘,但目前生物研究人员缺乏统计学基础。针对这种现象,R是一个非常强大的工具。演讲者通过一个案例展示了R在物种进化分析中的应用,最后讨论了R语言与Perl语言之间的结合。
资源下载
经演讲者的授权同意,已将所有同意公开的幻灯片加了超链接供大家下载学习。演讲视频请点击这里。
- 李舰:R与高性能运算(代码)
- 李欣海:广义线性模型的基本原理及其应用
- 肖嘉敏:基于R的网络用户行为研究
- 张金龙:R 与进化生态学
- 李青龙:R与EXCEL VBA及MATLAB混合编程
- 王洪月:SAS Interaction with R
- 颜林林:R高级编程技巧及Rcpp的介绍
- 曹宗富:基于R/Bioconductor进行生物芯片数据分析
- 李颖:推进R语言图书的发展
- 邓一硕:R与现代金融分析
- 林伟林:R在量化投资的应用
- 胡江堂:关于R和SAS的7个广为流传的误解
- 李舰:R的商用情况简介
- 朱剑锋:R在宏基因组研究中的应用
- 赵毅:R与.NET混合编程及其在化学计量学中的应用
- 卢一鸣:R在基因芯片数据处理中的应用
- 张雯:R语言在物种进化分析中的应用
感想和建议
如果您对于中国R语言会议还有任何感想、意见或建议,欢迎您在本页面、统计之都人人网页面或统计之都新浪微博留言,我们会尽力在今后对会议质量进行进一步的改善。