最近,字节跳动宣布,今年春季招聘将为大学生开设6000多个全职和实习生职位。这一招聘数字超过了此前字节跳动春季的招聘规模,使字节跳动成为今年互联网行业罕见的“不缩水”企业。
字节跳动招聘负责人表示,2020年,字节跳动将继续加大人才培养力度,投入更多平台资源,帮助社会创造更多就业岗位。字节跳动将为应届毕业生提供广阔而稳定的发展机会,完善的新型人才培养体系,平等开放的工作氛围,有竞争力的回报和福利。
此前,2019年美国科学家联盟名单已经公布,来自字节跳动人工智能实验室的科学家李航入选。前交叉韧带研究员是对NLP从业者的最高认可。根据美国公民自由联盟官网信息,李航入选是因为他在信息检索方面做出了基础性的贡献,尤其是在学习排序、深度学习和对话生成方面做出了突出贡献,推动了NLP在中国的发展和商业化。
李航在东京大学获得了计算机科学博士学位。曾任微软亚洲研究院首席研究员,华为诺亚方舟实验室首席科学家。2019年5月,李航的机器学习导论“蓝皮书”和“统计学习方法”再版。字节范邀分享新书内容,加盟的经历,年轻技师的成长,机器学习的未来,人工智能的趋势。
在李航工作是一种怎样的体验?
字节跳动的一些员工表示,他们当然很高兴,他们都知道他是行业内的大技术专家,在微软亚洲研究院、华为诺亚方舟实验室等知名机构有丰富的经验。也有很多员工说没那么神秘。他总是穿着衬衫和裤子而不是码农的t恤,拿着纸质笔记本记会议上的事情,习惯用手表看时间。他温文尔雅,看起来像个大学教授。
他的另一个身份是《统计学习方法》的作者,这本书被很多人亲切地称为“蓝皮书”,是很多技术人员开始机器学习的启蒙书。出版学术专著3部,在国际顶级学术会议和期刊发表论文数百篇,拥有美国授权专利40项。
在接下来的采访中,李航分享了新书的内容,加入字节跳动的经历,年轻技术人员的成长,机器学习的未来,人工智能的发展趋势。
关于新书
问:统计学习方法第二版相比第一版有哪些更新?
统计学习是机器学习,第一版主要介绍监督学习的算法和模型。第二版主要补充了近六年的八种无监督学习方法,对第一版的有监督学习方法做了一些修改。虽然目前90%以上的机器学习都是监督学习,但无监督学习实际上是机器学习的重点和难点,即让机器自己去发现数据中的规律,这是未来实现强大人工智能的重要动力。以后我会用3-4年的时间来补充深度学习和强化学习。因为我在业余时间写作,所以花了我很长时间。
问:很多人把《统计学习方法》称为蓝皮书,是机器学习入门的启蒙读物。然而,一些学生会发现很难阅读这本书。可以推荐一些入门的方法吗?
a这本书本身的内容是最基础的,也就是大家在机器学习领域应该掌握的东西。从这个意义上说,确实是入门书。但是这本书不是我从入门的角度写的。我反而整理了一些最基本的概念,这也是一个重新学习和思考的过程。你也可以认为你是从教材的角度来写这些内容的,所以这本书适合多次阅读,需要经常查看,而不是只看一遍。
这本书适合有一定基础的读者,主要是数学基础。特别不适合初学者,或者对概率论和统计学不太了解的初学者。这些基础知识可以通过其他课程或课本快速完成。当然,读者也可以在阅读《统计学习方法》的同时完成基础知识,这样学习可能会更有效率。
当然,我希望《统计学习法》不仅仅是教材,还能为行业内的工程师提供一些有用的帮助。
问:能否分享一下你的经验和年轻技术人员是如何成长的?
我认为有几件重要的事情。第一,树立远大的理想和目标,选择自己喜欢做什么,擅长什么,能给自己带来什么好处。设定有挑战性的目标,想想5-10年后你想成为什么样的人。第二,一旦有了目标,就要在日常工作中脚踏实地的去做。没有捷径。
此外,当我们谈论技术人员的工作时,科学家和工程师应该有不同的想法。工程师的思维方式应该是以问题为导向,解决问题,而科学家的思维方式应该是建立普世价值的理论和方法。对于AI实验室的同事来说尤其如此,他们需要知道自己目前在做什么样的工作。理想是不断培养自己两方面的能力,但也有侧重点。
关于加入字节跳动
在问答社区有一个问题,“如何评价李航参与今天的头条母公司字节跳动?”那你为什么加入字节跳动?到目前为止,感觉如何?
a字节跳动产品好,用户多,人工智能研究需要大数据,公司有很多优秀人才。总之这里有最好的技术开发环境,有很多有趣的问题可以和大家一起做。事实证明,这是一个正确的决定,公司的机制和文化都很好,大家都很开心,也很高效。
问:越来越多的人工智能领域的专家正在从校园走向行业。如何看待这种现象?
这取决于你想做什么。学校适合做研究,行业更倾向于产品和应用。人工智能时代,需要使用大数据,学校很难有这样的环境,促使很多老师选择行业。在计算机科学领域,和以前有很大的不同。之前很多研究都是大学在行业之前进行的,现在联合推广,甚至反过来。
我在NEC和微软的研究部门工作过,比较像传统行业的研究部门,不直接负责产品开发。字节跳动是我去过的第四家公司,这里的研究部门是离产品最近的部门,很多东西需要在实际场景中应用,非常接近美国一些互联网公司的做法,既有部分产品,也有基础研究。
问:你喜欢这种平衡吗?不是摔跤吗?
a在我个人看来,理想的情况是70%的精力用于应用,30%用于相关的基础研究,虽然两者之间没有明确的界限。我们需要为未来做好规划。这是这个时代技术发展的必然趋势。很多东西都需要真实的数据和真实的场景来验证,机器学习也是这样的技术。所以我很享受这种平衡,我觉得这不是摔跤。
Q现在主要解决什么问题?
a做好内容平台。目前我们主要开发自然语言处理和机器学习技术,希望开发更好的智能信息处理技术,帮助人们获得更好的信息和知识。比如与搜索团队的精准问答,就是帮助用户更精准地获取高质量的信息。标题中还有新闻推荐,利用算法帮助提高内容质量,压低低质量内容,提高高质量内容。
综上所述,就是让每个用户在获取信息的过程中有更好的体验,真正得到自己想要的。理想的状态是我们每个人都有一个智能助手,助手会给你任何你想要的信息。
问:你一开始学的是电气电子工程,为什么最后进入机器学习领域?
a,是巧合。我第一次接触人工智能是在京都大学人工智能实验室大一的时候。80年代末,人工智能非常流行的时候,看到机器翻译和图像识别是非常有趣的。90年代在日本NEC公司研发部工作,偶然加入机器学习小组,开始了研究之路。
在这期间,我经历了人工智能的风风雨雨,但也感受到了整个领域的巨大发展。当时只有专家在讨论AI,现在已经家喻户晓,大家都可以评论一下。最典型的题目是AlphaGo。我们已经使用了许多人工智能技术的产品,这是一个质的飞跃。不好的是我们觉得有点浮躁,所以我们的研发应该更扎实。
坚持研究的秘密可能是保持年轻的头脑。感觉脑子和20年前当医生的时候没什么区别。做研究很痛苦,也很享受。想做出比现有方法更好的方法并不容易,研究过程中也有很多挫折和坎坷。但是当你做出真正管用的东西的时候,你就会有很大的成就感。可以比作成长和奔跑。你会在跑步的过程中感到疲惫,但当你到达终点时,你会享受完成一件事的快乐。大概就是这种感觉。
问:所以你见证了人工智能在中国的发展。你看好它的发展趋势吗?人工智能的未来是怎样的?
是的,复旦大学在2002年组织了一个关于机器学习的研讨会。当时参加研讨会的不到30人,现在是近千人。在不到20年的时间里,人工智能在中国突飞猛进,这是意料之外的。
中国市场大,人才多,从业者辛苦,这是其他国家没有的优势。但也要注意,我们的创新能力还远不如美国,这可能需要几代人的努力。目前最基本、最核心的概念和方法大多是在美国开发的,我们的快速发展更多的体现在产品的落地上。我相信我们很快,但我们仍然需要不断努力提高我们的创新能力。真正的创新还需要很长时间。
我们可以把人工智能理解为人类的好工具。不要夸大其词,至少在未来很长一段时间内,就像你的秘书或助理一样。
关于机器学习的未来
问:你最近的论文关注的是脑科学。有观点认为机器学习的重要内容是对人脑的研究,那么脑科学给人工智能带来了什么?
a随着今天科学的发展,我们已经对外部宇宙有了很多了解,但对我们自己内部的“宇宙”——人脑——这是今天最大的未知领域却了解不够。脑科学是研究这个问题的科学领域。从计算机器的角度来看,人脑是一台很棒的计算机,消耗的能量不到30瓦,可以做这么多复杂的计算。
人工智能希望开发智能工具,这离不开对人脑信息处理机制的理解。脑科学的发展可以启迪和指导人工智能,尤其是自然语言处理。人工智能有三大应用领域——音频、图形和文本,即语音、图像和文本,语言是最难的。前两者是感知能力,语言是认知能力。另外,看东西或者听东西的时候,只有一部分大脑在工作,但是使用语言的时候,整个大脑都在工作,所以很复杂。要想让计算机像人类一样操作和使用语言,就需要对人类的语言处理机制有更好的了解,重视脑科学的研究成果,多做跨学科的研究。
问:机器学习和深度学习是如何结合的?
答:在第一版的统计学习方法中,介绍了很多算法,都是非常基础和经典的机器学习方法。然而,在深度学习的时代,我们更多的是根据经验、实验和启发式方法来理解模型,而这些经典算法很少受到大家的关注。相比之下,常见的深度学习方法和技巧不一定具有与传统方法相同的理论。
其实传统的机器学习和深度学习在技术上是一脉相承的,中间是分不开的。我在面试员工的时候,也发现了这样一个问题。每个人都知道很多关于深度学习的知识,但是对于传统的机器学习却知之甚少。这种现象不好。比如我们在TensorFlow上实现了某个模型,然后直接运行实验,所以对很多基本概念了解不够。理想情况下,我们应该对机器学习的概念和理论有更全面的了解,然后进行深度学习实践,也就是说,了解传统的机器学习将有助于我们更好地掌握深度学习技术。
另外,虽然深度学习在很多任务上有极好的效果,但不能说传统的机器学习没有用。例如,在小数据集或简单问题上,SVM或GBDT方法在实践中被大量使用。
q有人说机器学习无疑是最有希望实现突破的方向之一。你怎么看待这个判断?你对机器学习的未来有什么期待?
机器学习是人工智能的核心领域。几乎所有的人工智能技术实际上都是机器学习技术。毫无疑问,机器学习技术的发展决定了人工智能的未来。希望机器学习能有更多的突破,推动整个领域的发展。我认为,从长远来看,机器学习与推理、知识相结合,类脑学习或类脑计算将是该领域未来的发展方向。
问:近年来,各种自然语言对话系统如雨后春笋般涌现,那么计算机能在多大程度上与人自由对话呢?自然语言对话的挑战是什么?未来可能会有哪些突破?
a从功能的角度来说,计算机也许可以像人类一样,用自然语言自由交谈,但现在这个命题无法证明是真的,也无法证伪。原因是人脑的语言理解机制还不清楚,用计算机完全模拟人类的语言理解还是很困难的。然而,我们已经看到了一台像人类一样在特定领域和场景中进行自然语言对话的计算机的实现。问题是如何以更低的开发成本,扩展覆盖更多的领域和场景。
语言理解的核心是向内部表征的映射。多义性和多样性是计算机语言理解面临的最大挑战。为了完成特定的任务,体现计算机的智能,定义和使用内部表示似乎是不可或缺的。基于分析的方法是必不可少的,即使在聊天机器人的场景中也是如此。基于检索的方法更适合单轮问答场景。基于生成的方法只能用于特定的场景。多轮对话要体现完成任务的整体逻辑,用有限状态机来表达。开放式对话意味着动态改变任务,所以在目前的技术条件下非常困难;在具体领域任务明确的情况下进行对话是现实可行的。
近年来,深度学习和强化学习在对话中的应用取得了很大进展。主要体现在表征学习和端到端学习。事实上,它需要符号表征和神经表征、深度学习和符号处理的结合,这应该是未来发展的一个重要方向。
最后,分享一部你最喜欢的科幻电影。
AI看的电影不多。印象深刻的AI和斯皮尔伯格的AI有关,让人思考机器和人类智能的本质区别。
1.《字节跳动难进吗 字节跳动春招开放6000个岗位,在技术大牛身边工作是怎样的体验?》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《字节跳动难进吗 字节跳动春招开放6000个岗位,在技术大牛身边工作是怎样的体验?》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/caijing/1306781.html