海外学习

交流心得

当前位置: 本站首页 -> 海外学习 -> 交流心得 -> 正文

英国牛津大学大数据线上项目

发布日期:2023-04-18   点击量:

                               

牛津大学(University of Oxford),简称牛津Oxford)。牛津大学是英语世界中最古老的大学,也是世界上现存第二古老的高等教育机构。牛津大学在数学、物理、医学、法学、商学等多个领域拥有崇高的学术地位,共培养了72位诺贝尔奖得主、3位菲尔兹奖得主、6位图灵奖得主,为人类文明的发展进步做出了卓越贡献。牛津大学于2017-2019年连续三年在泰晤士高等教育世界大学排名中位列世界第一。

课程架构:

模块

主要课程

机器学习核心理论

人工智能领域中机器学习(Machine Learning)的基本语言模式,包括监督学习(Supervised   Learning)、无监督学习(Unsupervised Learning)、强化学习(Reinforcement Learning)、神经网络(Neural   Networks)、物体识别(Shape Recognition)、机器视觉(Computer Vision)、贝叶斯深度学习(Bayesian Deep   Learning)、主动学习(Active Learning)、信息论(Information Theory)、决策论与分类(Decision   Theory and Classification)、 高斯过程(Gaussian Processes)等技术与模型的理论核心,帮助学生在机器学习领域建立较为全面的认知体系和较为扎实的理论基础。

机器学习的跨领域应用及其前沿研究

通过介绍机器学习在跨领域应用中世界前沿的科研成果与研究过程,如机器学习在健康产业、自动驾驶、制造业、零售业、机器视觉中的不同应用,引导学生进一步掌握机器学习的应用机制,了解其更广泛的应用实例和跨领域研究方法。

机器学习中数据分析与编程实践

在实操课中,通过Python编程练习,培养学生对数据的分析、回归和建模能力,通过完成如分析加利福尼亚地区房产市场等课堂项目,带领学生对大数据有一定的建构和理解能力,获得在不同场景下通过数据分析进行前景预测的知识和能力,了解如何利用机器学习的核心理论提出现实问题的解决方案,引导学生将机器学习作为科研工具,提高在复杂科研环境中解决问题的实践能力,并对机器学习的科研方法拥有更加深入的了解和认识。

科研创新冲刺

“5天科研冲刺带领学生从实践出发,亲自参与设计一项可待解决或改善的科技应用,运用所学机器学习理论做出符合现实需要的产品模型,或利用机器学习这一工具,对现存富有挑战的科技问题提出创新解决方案,达到科技向善的目的。科研冲刺旨在充分锻炼学生的研发能力、解决实际问题的能力、设计思维能力及批判性思维,让学生对科研过程拥有较为全面的认识和更深的见解。

科研论文写作工作坊

带领学生学习专业科研论文的原理、写作步骤、格式要求及写作技巧,对亚洲学生较为薄弱的知识环节如如何做前期调研、如何寻找有意义的论文课题、如何撰写研究提案等知识进行重点讲解,并通过科研冲刺”presentation,帮助学生提高做专业学术报告的能力。

研究生申请工作坊

邀请牛津大学在读研究生/博士生,讲解牛津申请过程中的重点,并详细介绍以英国为代表的海外优秀高校的申请条件、教学模式、材料准备、学业规划等与学生切实相关的话题。

学术论文写作工作坊

课堂互动

结业报告形式、课题、导师评分标准书面说明

各小组结题汇报

 

<学生感言>

 

张博洋-国际学院-电子商务及法律专业本科生

今年寒假,我有幸参加了英国牛津大学大数据寒假线上项目。通过本项目,我不仅学习到有关人工智能与机器学习的一系列知识,还结识了许多朋友。在对今后学习生活有了更清晰认知的同时,也对人工智能及其当前主流的实现方式有了更加准确的理解。

 

图:部分课程设置

随着技术不断发展,人工智能已经成为赋能无人驾驶、生物医药、金融地产等众多领域的重要工具。因此,在当下可以说,谁掌握了人工智能,谁就掌握了未来开启各个行业命运的钥匙。通过Mateja Kovacic教授的讲座,我了解到人工智能其实并不是近些年才产生的新兴概念。早在1956年夏,麦卡锡、明斯基等科学家在美国达特茅斯学院开会研讨如何用机器模拟人的智能,就首次提出人工智能(Artificial Intelligence这一概念,这也标志着人工智能学科的正式诞生。但是如所有技术一样,人工智能的发展也并非一帆风顺,其探索道路上也充斥着曲折起伏。总体而言,人工智能的发展历程划分为以下6个阶段:一是起步发展期:1956—20世纪60年代初。在人工智能的概念提出后,学界陆续取得了一批令人瞩目的研究成果,如机器定理证明、跳棋程序等,掀起人工智能发展的第一波高潮。二是反思发展期:20世纪60年代—70年代初。人工智能发展初期的突破性进展大大提升了人们对人工智能的期望,人们开始尝试更具挑战性的任务,并提出了一些不切实际的研发目标。然而,接二连三的失败和预期目标的落空,也使人工智能的发展走入低谷。三是应用发展期:20世纪70年代初—80年代中。20世纪70年代出现的专家系统模拟人类专家的知识和经验,解决特定领域的问题,实现了人工智能从理论研究走向实际应用、从一般推理策略探讨转向运用专门知识的重大突破。专家系统在医疗、化学、地质等领域取得成功,推动人工智能走入应用发展的新高潮。四是低迷发展期:20世纪80年代中—90年代中。随着人工智能的应用规模不断扩大,专家系统存在的应用领域狭窄、缺乏常识性知识、知识获取困难、推理方法单一、缺乏分布式功能、难以与现有数据库兼容等问题逐渐暴露出来。五是稳步发展期:20世纪90年代中—2010年。由于网络技术特别是互联网技术的发展,加速了人工智能的创新研究,促使人工智能技术进一步走向实用化。六是蓬勃发展期:2011年至今。随着大数据、云计算、互联网、物联网等信息技术的发展,感知数据和图形处理器等计算平台推动以深度神经网络为代表的人工智能技术飞速发展,大幅跨越了科学与应用之间的技术鸿沟,诸如图像分类、语音识别、知识问答、人机对弈、无人驾驶等人工智能技术实现了从不能用”、“不好用可以用的技术突破,迎来爆发式增长的新高潮。

那么人工智能是如何实现的?其背后的代码又是如何编写的呢?这些疑问在Michael Wang的讲座上得到了充分的解答。通过Michael老师的讲解,我了解到目前人工智能的机器学习可以分为监督学习,无监督学习和半监督学习三种,其中监督学习为通过已有的一部分输入数据与输出数据之间的相应关系,生成一个函数,将输入映射到合适的输出,比如分类任务就是一种监督学习。无监督学习直接对输入数据集进行建模,比如聚类的方式,而半监督学习则是综合利用有类标的数据和没有类标的数据,来生成合适的分类函数。其中,目前在监督学习领域,神经网络和回归分析是两种主流的方式,但是这两者也都存在其相应的优势与不足,神经网络虽然预测结果准确度较高,但往往可解释性一般,不容易阐明其对应的输入与输出的关系;相反,回归分析虽然可以明确所有产生变化的输入因子,却往往会受到结果准确度偏差较大的限制。在实现方面,Michael老师带领我们通过回归分析完成了对于加州房价的预测,将机器学习的知识运用Python这门语言得到了很好的实现。

图:加州房价预测的部分代码截图

当然,除了以上两位教授,其他教授的课堂和介绍的知识也让我受益匪浅,无论是图像识别在肿瘤筛查中的应用,还是人工智能在海底珊瑚保护上的应用,都让我意识到未来人工智能的无限前景和可能带来的颠覆性改变。这些不同领域的实践结果,在让我们为之震惊的同时,也启迪我们每一个人的思维。在最终的Design Sprint当中,我们选择研究机器学习在杂货店定价中的相关应用。我们运用了线性回归的方式,考虑了时间,库存,保质日期等诸多因素,最终获得了一套已有定价方式的对应改进方案,并将部分回归算法的代码用Python进行了一定程度上的实现。在与牛津大学教授的沟通过程中,我们的想法得到了教授们的一致好评,并在最终的打分环节上获得了4.68/5.00 的好成绩。

图:制定商品价格所需的多元回归算法的相关代码截图

项目尾声,来自牛津大学的招生官Emily老师还向我们介绍了未来研究生申请方面的注意事项,以及牛津大学的院系设置和研究生项目所需要的相关资质和标准,为我们未来的研究生学习提前进行了相应铺垫,让我们在对海外申请有更深一步认识的同时,也明确了自己今后发展的方向。

总而言之,我十分感谢学校可以给予我们这样一次宝贵的与牛津大学教授密切沟通交流的机会,希望学校以后可以举办更多此类交流学习活动,让更多同学提前了解海外名校的授课模式与氛围,从而更早地为未来学习与就业做出相应规划。

韩涛-计算机学院(国家示范性软件学院)-计算机科学与技术专业本科生

项目期间,牛津大学为我们安排了在机器学习领域有所成就的教授,和我们一起交流机器学习技术在前沿领域的研究成果和应用。很多教授的项目令我印象深刻,其中让我最有感触的是一位教授将机器学习的技术应用在早期癌症的诊断和治疗中。众所周知,癌症治疗是全人类面临的难以攻克的最大难题之一,但如果我们能更早地发现病情,尽早治疗,治愈几率能大大提升。因此牛津大学的教授就将研究聚焦于用深度学习技术对大量病人样本进行学习和识别,帮助医生通过早期活样切片样本的识别结果来判断病人是否有患癌症的风险。该技术已经在英国的一些医院得到试点应用,教授也说在不远的将来有望在全球范围内得到广泛推广,让全世界的病人受益。从教授的研究案例中,我意识到研究一门技术不单单是为了得到经济效益,更多时候我们要思考如何将一门技术运用到实际生活中去,解决人们目前面临的难题,这才是最有意义的。

项目学习过程中,牛津方专门安排了教授和我们一起交流技术方面的知识,还会用一些实际案例来教我们如何应用技术来解决问题。这样对于一些技术小白是比较友好的,能让他们迈出研究机器学习的第一步,毕竟学习再多的理论知识是不够的,还需要自己在操作过程中去体会和总结,才会有所突破,因此在最初阶段打好基础是最重要的。

项目最后,每个人需要利用机器学习的方法解决一个相关领域的实际难题。我们小组研究的领域是优化可再生能源生产和整合,这是一个非常大的课题,可研究的东西也是非常的多,这里就需要介绍一下牛津大学教授教给我们的一种特殊的研究方法,“design sprint”,即研究设计冲刺,又名设计冲刺。这是一个分为五个阶段的过程,通过设计、原型制作和与专家测试想法来回答关键的研究问题。这种方法最初由谷歌Venture公司提出,是商业战略、创新、行为科学、设计思维等方面的最成功之作,经过实战考验,适用于任何团队。采用这种方法来进行课题讨论,能大大减少我们小组辩论的周期,大幅提高了我们的研究效率,让我们快速找到问题的核心所在,从而把大部分精力花在有效解决问题和寻找方法上。这个方法对我们今后的实际学习和工作也会很有帮助。

经过讨论,我们小组选择用机器学习当中的神经网络算法来解决风力发电站的选址问题。要想挑选适合建立风力发电设施的地方,我们就需要证明某地的风电数据优于其他候选地点,因此需要对每个候选地进行风电功率预测,从而进行筛选。

针对风电的预测方法,国内外已经有诸多研究。其中差分滑动平均自回归模型(ARIMA)是一种常用的时间序列预测模型,它的原理是将非平稳时间序列转化为平稳时间序列,然后将因变量(仅对它的滞后值)以及随机误差项的现值和滞后值进行回归所建立的模型。但是相对于ARIMA模型,神经网络模型在拟合变量之间的非线性关系方面具有优势,它是由输入层,隐含层和输出层组成的网络,每个神经细胞间的信息通过加权后传递给下一层,并进行相关的计算。通过对给定的输入和输出相对应的数据进行训练学习,可以得到细胞间的权重值,进而拟合输入和输出之间的关系。使用神经网络模型对风电进行预测能大大提高收敛速度和预测精度。

我们使用的算法是双向LSTM神经网络算法,因为双向LSTM可利用过去和未来的天气预报预测数据来推导可再生能源发电功率。双向LSTM的基本思想是——每个训练的序列向前和向后分别是两个长短期记忆神经网络,且这两个层都连接输入层和输出层。输出值综合了过去(前向)和未来(反向)的信息,在风电功率预测中,则是过去和未来的风速预测数据,根据风速的预测信息,进而实现对风电功率的预测。

利用神经网络模型进行预测时,通常要利用历史数据训练神经网络,从而建立输入输出关系。训练完成后,利用现有的输入数据来预测未来数据。我们通过对浙江省过去三年的历史风速数据以及风电功率的历史SCADA数据进行分析,将风电功率与NWP风速数据建立联系。我们利用过去的风速数据信息和未来的风速数据信息预测得到风电功率,从而帮助我们就风力发电设施最优选址向相关决策者提供建议。

在最后的验收阶段,教授们充分肯定了我们的想法和设计,我们得到了4.63(满分5分)的好成绩。

这次项目虽然时间不长,但是我受益匪浅。我相信从项目中学到的方法和知识会为我今后的学习和工作带来很大的帮助,希望以后有更多机会参与这类学习项目。

贾瑞祺-国际学院-电信工程及管理专业本科生

通过此次课程学习,让我深深感受到,随着互联网、移动互联网、传感器、物联网、社交网站、云计算等的兴起,社会各个方面几乎都已数字化,并产生了大量新型、实时的数据。无疑,我们已身处在大数据的海洋。两个重要的趋势使得当前时代(大数据时代)与之前时代有着显著的差别:其一,社会生活的广泛数字化所产生数据的规模、复杂性及速度都已远远超过此前的任何时代;其二,人类的数据分析技术和工艺使得各机构、组织和企业能够以从前无法达到的复杂度、速度和精准度,从庞杂的数据中获得史无前例的洞察力和预见性。

大数据是技术进步的产物,而其中关键是云技术的进步。在云技术中,虚拟化技术乃最基本、最核心的组成部分。计算虚拟化、存储虚拟化和网络虚拟化技术,使得大数据在数据存储、挖掘、分析和应用分享等方面不仅在技术上可行,在经济上也可被接受。大数据以其人类史上从未有过的庞大容量、极大的复杂性、快速的生产及经济可得性,使人类第一次试图从总体而非样本,混杂性而非精确性,相关关系而非因果关系来测量、计量我们所处的世界。人类的思维方式、行为方式及社会生活的诸多形态(当然包括商业活动)正在开始发生新变革,或许是一场革命性、颠覆性的变化。从这个意义上讲,大数据不仅是一场技术运动,更是一次哲学创新。

 数据挖掘是未来的发展趋势。在我看来,Web 网路中数据挖掘的应用,特别是在互联网上建立数据挖掘服务器,与数据库服务器配合,实现数据挖掘,从而建立强大的数据挖掘引擎与数据挖掘服务市场,是未来的大趋势。通过融合各种异构数据的挖掘技术,可以加强对各种非结构化数据的开采,如文本数据,图形数据,视频图像数据,声音数据乃至综合多媒体数据。

数据挖掘是一个新兴领域,具有广阔应用前景。随着计算机的处理能力的日益强大,能获得的数据量越大,能挖掘到的价值就越多。实验的不断反复、大数据的日渐积累让人类发现规律,预测未来不再是科幻电影里的读心术。推动数据掘技术的深入发展和广泛应用,创造出更多的社会和经济价值。

众所周知,大数据分析中最基础的就是数据模型的建立,此次项目从概率论讲起,通过连续变量的概率分布、高斯分布、最大似然估计、最大后验概率估计以及对高斯过程分析得到决策分类和相关理论知识的建立。在这些理论基础上,又深度学习了数据模型建立和基于金融数据的分析预测,通过9次专题课程的线上学习,我对大数据从理论到实践应用有了较为深入的理解。

结合各自专业,我们小组选择的研究课题是:《机器学习在提高5G无线网络运营商利润中的应用》。通过实际研究,我对5G+算法测试应用有了较为深入的理解。随着社会数字化进展的加速,基于人工智能、大数据、云计算、区块链及深度学习的算法在社会综合治理、民生各行业需求愈发旺盛。人脸识别算法分析、基于视频监控的人行为轨迹算法分析等算法已经成为疫情防控、社会治理、平安中国、雪亮工程等重要算法。国家基于算法没有统一标准、测试检验、深度学习完善的标准和规范。各地政府对于此类产学研项目及高科技技术有政策扶持和资金补贴。基于上述算法的开发、测试、验证及深度学习可以产业化、标准化、前景十分广阔。“5G+算法测试应用工坊就是基于以上要求的商业项目。

基于机器学习的5G+算法测试应用主要来源于三个方面:第一,鉴于市场需求基于产学研技术上,提供算法能力提供、视频算力、存储、算法测试、深度学习等一揽子服务的商业模式;第二,形成性的产业链并可以将各自优势强强联合,充分利用社会对视频算法需求、借助运营商基础网络、算力存储投资、高校算法研究成功,打破行业壁垒、软硬件壁垒,集约各自优势,可以共赢发展;第三,制定行业标准,引领行业发展,汇聚视频AI领域产业生态,制定行业准入标准,引领图像算法行业发展。基于5G+算法测试应用,社会上目前没有形成研究规模,也没有专业排名情况,从目前掌握情况来看,算法领域的竞争对手除了旷世、海康、大华及华为算法研究机构之外,就是运营商主导的产学研联合体。只有快速形成能力、推进标准化,才能真正具有竞争力。

感谢牛津大学为我们提供的此次宝贵学习机会,让我能了解现代科技前沿的最新方向,这对我今后选择研究方向有良好的参考和指导意义。我相信,大数据分析及数据建模、算法应用会让我们的生活更为便捷,世界更为美好。我也愿意在此方向,结合实际展开更加深入的实践和应用研究。

 

版权所有 © 版权所有@北京邮电大学国际合作与交流处   地址:北京市西土城路10号  邮编:100876

博达软件设计开发  丨  返回旧版