国家天元数学西北中心定于2024年4月8日-12日在西安交通大学举办“面向大数据的现代分析方法讲习班”。该活动是中心2024“数据科学与医疗健康”主题年活动之一,共开设“基于模拟学习方法论的大数据分析方法”、“大数据分析的分布式优化基础理论与方法”和“大模型原理与技术”三门课程。讲习班将详细介绍基于大模型的大数据分析方法的基本原理和应用场景,介绍大数据分析的分布式优化基础理论与方法、优缺点和实现方式,并针对大模型等人工智能前沿技术飞速发展而产生的海量数据,讲授相应的大数据分析研究方法及研究工具,如数据挖掘、机器学习、自然语言处理等,探讨未来的发展趋势,帮助我们更好地挖掘和利用海量数据中隐藏的信息和价值。
【日程安排】
时间:2024年4月7日报到,4月8日-12日上课
地点:西安交通大学兴庆校区云顶国际4008服务平台二楼2-1会议室
课程表
【课程介绍】
课程一:基于模拟学习方法论的大数据分析方法 课时:10学时
课程简介:随着大数据时代的来临,以机器学习为代表的传统数据分析面临巨大的变革性挑战,传统方法的合理性前提与算法构建模式均发生了巨大的改变。其中最为典型的挑战为:传统数据分析方法面对的处理对象往往是“数据”层次,而现代分析方法往往亟需改造为“任务”层次的执行模式。超越于传统机器学习将“数据”作为输入,“标签”作为输出,旨在学习“数据”到“标签”的标签预测函数泛化规律的“数据层次”学习,发展将学习任务设为输入,将机器学习的超参设置方法设为输出,将学习范式目标转变为获取由“任务”到“方法”的学习方法论泛化规律,即“模拟学习方法论”的方法论思想。本课程将综合对比介绍传统机器学习与新型的模拟学习方法论范式的关联与本质差异,从而帮助各位学员理解这一新型大数据分析方法的核心思想。
主讲人:孟德宇,西安交通大学云顶国际4008服务平台教授,任统计系主任,大数据分析与计算分析工程实验室常务副主任。长期致力于机器学习基础理论的研究,近五年来,在机器学习相关领域期刊会议发表论文百余篇,近五年谷歌学术引用超过24000次。曾获陕西省科学技术一等奖(第一获奖人),陕西省青年科技奖,入选国家级人才计划、国家级青年人才计划。以项目负责人身份承担科技部“变革性关键科学问题”重点专项项目,承担多项教育部、基金委、JWKJW项目。现任中国工业与应用数学学会副理事长,CSIAM青年工作委员会主任,任IEEE Trans. PAMI,National Science Review,Science China: Information Sciences等7个国内外期刊编委。
课程二:大数据分析的分布式优化基础理论与方法 课时:10学时
课程简介:大数据分析(尤其是基于大模型的大数据分析)往往需要采用基于多机多卡的分布式优化来完成计算。分布式优化算法会影响硬件的算力利用率。低效分布式优化算法将导致较低的算力利用率,甚至可能导致机器和卡越多、训练速度越慢的结果。高效分布式优化算法能提升算力利用率,可以为学术界(算力资源相对受限)研究大数据分析和大模型提供关键支撑,也可以为工业界大数据分析和大模型应用的降本增效提供核心技术。本课程将介绍支撑大数据分析和大模型的高效分布式优化算法,包括业内主流算法和我们研究组最近提出的算法。
主讲人:李武军,南京大学计算机系教授,博导,南京鼓楼医院医学大数据中心主任。研究领域为人工智能、机器学习、大数据与智慧医疗。2020-2023年连续四年入选AI 2000人工智能全球最具影响力学者(或提名)榜单,其中2021年在经典人工智能领域排在全球第8名。在国内外著名人工智能和医学期刊/会议上发表论文70余篇,获授权发明专利10余项,申请发明专利20余项。论文被70余位国内外科学院/工程院院士和200余位AAAI/ACM/IEEE Fellow引用。研究成果被国际著名学者评价为“首个方法”和“先进水平”,并被应用于国家重要部门、头部互联网企业、大型央企和医院。
课程三:大模型原理与技术 课时:10学时
课程简介:本课程讲解大模型的基本原理和实现技术,从而获得深入理解大模型的内在机理。本课程涵盖从准备数据、预处理、模型架构、训练、微调、到后处理和评估的全过程,不仅将聚焦在大模型的实现和应用技术,同时也会涉及到一些最新的研究进展,例如多模态大模型、新型模型架构等。这门课程的目标是让学员掌握大模型背后的原理,并掌握大模型在具体实践中的应用技术。
主讲人:邱锡鹏,复旦大学计算机学院教授,主要研究方向为自然语言处理基础技术和基础模型,发表CCF-A/B类论文100余篇,引用19,000余次,入选爱思唯尔“中国高被引学者”和“终身科学影响力排行榜(全球前2%顶尖科学家榜单)”,曾获中国科协青年人才托举工程、国家优青等项目,获钱伟长中文信息处理科学技术奖一等奖(第一完成人),入选中国教师发展基金会“高校计算机专业优秀教师奖励计划”,两次获得上海市计算机学会教学成果奖一等奖;主持研发的开源框架FudanNLP和FastNLP已被国内外数百家单位使用,主持研发的MOSS已经成为国内影响力最大的开源大型语言模型之一。著作《神经网络与深度学习》被上百家高校作为教材。
【学员待遇】
讲习班计划招生60人,不收取任何费用。活动全程在西安交通大学线下举行,不设线上环节。全国高等院校从事相关研究的青年教师及在校研究生均可报名参加。根据中心促进西北地区学科发展,向西部地区倾斜的原则,活动将优先录取新疆、青海、宁夏、甘肃等地区学员,并为这四省的学员提供住宿(两人一间),全体校外学员提供餐补,其他费用自理。
【报名方式】
请有意参加的学者通过链接在线填写信息表,同时下载附件报名表,将签字的报名表扫描件和个人简历发送到:xbty@xjtu.edu.cn。报名截止日期3月24日。邮件标题请注明“申请人姓名+单位+讲习班报名”。国家天元数学西北中心组织委员会将对申请人材料进行审定,并于3月27日前邮件通知入选者本人。如未接到录取通知即为未入选,不再另行通知。
信息表填写链接:
https://docs.qq.com/form/page/DZUJYWExaZ0pBaUdQ
【联系方式】
联系人:白老师 国家天元数学西北中心
电话:029-82665627
邮箱:xbty@xjtu.edu.cn
地址:西安交通大学云顶国际4008服务平台111办公室