微软在2015年收购R语言工具厂商Revolution Analytics后,于2016年开始在其主要开发工具Visual Studio上支持R语言。微软会如何在微软开发工具链中定位R语言?微软亚太区数据科学总监格雷厄姆威廉姆斯直言,“R是Visual Studio生态系统的第一公民!」
拥有30年数据探索研究经验的格雷厄姆·威廉姆斯(Graham Williams)是使用R语言进行数据探索研究的先驱者之一,早在10年前就开发出了R语言的数据探索图形化工具Rattle。
他于2016年加入微软,是澳大利亚国内税收署的首席数据科学家。10多年来,他一直致力于各种税收、海关、医疗保健和金融分析研究。他也是R社区基础入门教材的重要撰稿人之一。
格雷厄姆·威廉姆斯,微软亚太区数据科学总监
“r是数据科学家最常用的分析工具!格雷厄姆·威廉姆斯指出了分析工具使用的现状。他认为R能成为数据科学家最常用的工具,不仅因为R是开源免费的工具,还因为R是数据科学家的生态圈。
他说,在R软件生态系统中,来自世界各地的数据科学家、统计学家、机器学习工程师等开发者都会使用R,如果发现需要解决的问题,他们会将Package贡献给R的CRAN(综合R档案网)。
目前,整个生态系统中由数据科学家贡献的包多达10,450个。“作为一名数据科学家,我有超过10万个包来完成我的任务。”比如无论是时间序列分析、财务预测分析还是机器学习算法,R都有相对的资源可以利用。
此外,格雷厄姆威廉姆斯还补充说,r软件与其他分析工具兼容,比如数据分析软件Weka,在r软件中,也可以直接调用Weka的包来使用。
他认为R是数据科学家的强大工具,因为单一工具可以使用相当多样的资源。
R软件最大的优点是可以用的包很多,但是R的包是谁管理的呢?格雷厄姆威廉姆斯(Graham Williams)说:“r实际上分为两部分,一部分由r核心团队管理,另一部分,开发人员可以将官方批准的套件贡献给crane。”。
一般来说,开发者贡献的包必须经过仔细审核,符合核心团队的要求,才能放入CRAN,而R核心团队负责的重要包不到100个,有权修改R软件。
Visual Studio集成了R,打破了两大限制
在2015年微软收购Revolution Analytics后,Graham Williams强调微软将R作为Visual Studio的第一要务,并为Visual Studio(RTVS)提供R Tools,这是一款面向数据科学家的语言工具。此外,RTVS几乎拥有所有功能。
他认为,RTVS可以让数据科学家在Visual Studio中直接使用R,而不必适应开发环境。
格雷厄姆·威廉姆斯说,数据分析生命周期需要一个完整的管理机制,Visual Studio可以为企业提供一个平台,对大数据的开源工具进行监督和管理,允许数据科学家在同一个平台上使用多种数据科学工具。
比如Visual Studio提供R、Python、Spark、Hadoop等数据科学工具,甚至提供数据仓库管理、版本管理功能。
此外,格雷厄姆威廉姆斯表示,微软还突破了开源R软件的两个局限:一是微软解决了R只能分析内存中的数据量的问题,让数据科学家可以分析任意大小的数据量。
其次,原开源R只能执行单线程,而机器学习的算法往往需要多线程请求模式,微软R为数据科学家提供了使用多线程的灵活性。
Python和R不是竞争,而是共存
然而,除了R语言之外,另一种语言Python在信息科学领域也越来越受欢迎。格雷厄姆·威廉姆斯(Graham Williams)认为,开源环境不是竞争关系,而是和谐共存。
“我不想把数据科学家束缚在R,”他坦率地说。其实开源软件的优势在于开发者有高度的自由选择自己的工具,数据科学家可以根据自己的情况选择最好的工具。
“我可以自由选择最适合我的工具,然后将其他资源整合到我的生态系统中。”格雷厄姆·威廉姆斯(Graham Williams)指出,普通数据科学家习惯于在同一环境中进行数据分析。如果分析过程中需要新的工具,其他工具将应用于原始环境。
他认为R和Python各有不可替代的优势。比如R同时拥有统计学和机器学习的生态圈,可能会在数据科学领域长期保持领先地位,但是Python有一个很好的套件,可以串联到Hadoop和Spark。
除了这两种数据分析语言,他不排除未来可能会出现更新更好的语言,比如近期出现的新语言Julia。
“以前执行一个数据科学项目需要3年,现在5分钟就能完成!”他说。
格雷厄姆·威廉姆斯(Graham Williams)说,由于工具多,企业中的数据科学家可以在云中自由调度计算能力,使用各种分析工具,这使得数据科学方便快捷。不仅如此,还能为企业节省大量资金。
他指出,过去大多数企业购买大量的超级计算机来运行数据分析,需要花钱和人力来维护硬件设备。然而,实际使用的资源不到10%。他说,如果使用云上的资源,企业可以节省构建环境的过程,并根据使用情况付费。
即使云计算有如此吸引人的优势,格雷厄姆·威廉姆斯也承认,许多企业和政府机构仍然对云中的内部数据有很大的怀疑。
不过他说加密技术早就相当成熟了,就像Dropbox,Google Drive等。,这可以确保数据不会泄露,并且只有数据的所有者才能访问它。
他认为技术不是问题,但是要慢慢建立起企业对云的信任。他也承认,企业对云中数据的怀疑是微软目前面临的情况。
集成个人异构数据可以在信息科学领域创造新的商业机会
对于那些害怕将数据放入云中的人,格雷厄姆·威廉姆斯(Graham Williams)还建议,事实上,每个人都有自己的数据,并拥有访问数据的唯一权限。“如果能把所有分散的异构数据整合起来,就能实现惊人的数据分析!」
他进一步举例说明。只有自己知道他有好几个银行账户,而且只有自己才能访问这些数据。银行只知道客户账户的信息,不与其他银行共享信息。
比如银行开发一款App,可以通过整合分散的异构数据,包括银行账户、税务信息、社交软件数据等,为消费者提供智能手机等个人设备,分析预测其投资组合或财务状况。
“提供一个机器学习算法模型,可以让客户在个人设备上进行分析,这可以创造更多的商业机会。”比如格雷厄姆威廉姆斯(Graham Williams),用户可以通过分析结果来管理自己的财务,企业也可以增加推荐营销的机会,为客户提供财务建议和解决方案。
但他也承认,在没有获得客户数据的情况下,企业很难建立准确的分析模型供客户使用。
此外,格雷厄姆·威廉姆斯(Graham Williams)预测,在未来,机器学习和深度学习算法将不再局限于超级计算机或云执行环境,而是更加贴近我们的生活,在个人设备上运行。
觉得这个信息有帮助?请转发给更多人
关注技术前沿,看IT新闻
1.《第一顺位 R 语言是 Visual Studio 生态第一顺位》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《第一顺位 R 语言是 Visual Studio 生态第一顺位》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/guoji/1488448.html