今天下午去南京大学参加了南京大数据技术 Meetup 第十次会议,收获颇丰,不仅是对机器学习、大数据认识有了提升,而且了解当下大数据、机器学习技术在企业中的前沿应用。晚上回来后(南大仙林好远呀 😭,不过听了这场讲座还是值了),直奔教研室 🏃🏃🏃,想把自己下午参会的所听、所想、所得记录下来。
导语:今天下午去南京大学参加了南京大数据技术 Meetup 第十次会议,收获颇丰,不仅是对机器学习、大数据认识有了提升,而且了解当下大数据、机器学习技术在企业中的前沿应用。晚上回来后(南大仙林好远呀 😭,不过听了这场讲座还是值了),直奔教研室 🏃🏃🏃,想把自己下午参会的所听、所想、所得记录下来。
一、介绍
南京大学的这个大数据技术 Meetup 是由计算机学院助理研究员、南大大数据实验室的顾荣博士发起的 算上加上这次已经举办了 10 次了,特此鸣谢顾荣博士发起并组织大数据技术 Meetup,主要是邀请海内外互联网大数据公司或高等院校学者来给大家带来&分享其最新的大数据技术、学术成果、工程实践应用,可以说是一场产、学、研集一身的“盛会”(虽然自己还是个数据科学“菜鸟”,但能够有机会多听听、多见见还是受益匪浅的。
这个是本次(第 10 次)大数据 Meetup 活动详情连接,感兴趣的小伙伴可以看看 o( ̄▽ ̄)ブ
二、主要嘉宾讲演回顾(回忆版)及个人思考 ┗|`O′|┛ 嗷~~
1. 大数据时代下的自然语言处理研究进展 via 周德宇
周德宇教授主要从事 NLP 方面的研究,通过周教授的讲述我对 NLP 有了新的认识,比如一般从事 NLP 研究过程如下:
① 数据预料处理(词性标注 -> 命名实体识别) -> ② 知识发现(关系抽取/事件抽取) -> ③ 创建知识图谱 或 ③ 构建事件图谱(情感计算 / 事件可视化)
周教授说事理图谱是由哈工大的刘挺教授提出了,相对知识图谱更难,但作用很大,很多场合下事件图谱更能解决实际问题。有兴趣的小伙伴可以查看相关资料深度了解一下。
周教授的讲座主要分享在三个方面做的研究以及一些实际应用:
关系抽取:周教授带学术做了药物相互作用之间的关系抽取,举个简答的例子,e.g 药物 A 和药物 B 不能和药物C同时使用,我们可以抽取出如下关系表:
| 关系 | 相互作用与否 | | ------------ | ------------ | | < A, C > | Yes | | < B , C > | Yes | | < A , B > | No |
我觉得这个非常有意思,每年有很多因俩种或多种药物不良反应造成的医疗事故,如果我们可以通过这种药物关系抽取出各种不良药物反应的关系,然后绘制知识图谱/事件图谱,然后在医生使用 HIS 系统开药时,智能辅助,是不是可以大大降低因药物不良反应的事故率呢 😉
此外,周教授还有一个处于研究中的叫做 position-aware relation extraction。
这个对比传统的关系抽取方法,主要区别是在分词 part of bags 分词阶段加入单词位置的考虑,简单来说,一句英文不用位置的单词重要性不同,所以英文我们会强调有重读和弱读。不然很长的一句话,别人无法抓住重点,就会造成理解上的障碍。
事件抽取:事件抽取方面,周教授主要谈及利用 Topic Model 进行事件抽取方面的研究。
Deep Learning 这俩年的超级火爆,利用 LDA 模型进行的研究的人员少了很多,但时周教授发现,Deep Learning 和 AI 占据主流技术的同时,LDA 模型仍然有其用武之地。
周教授团队用 Topic Model 把每一个事件用一个 document 表示,然后关联不同 document,进行事件抽取。LDA 我也只了解皮毛,所以我就不阐述了。
文本情感分析:做文本情感分析的人很多,但周教授及其团队选取的角度很独特 ———— 针对 Trump 2016 大选事件做 Twitter 用户态度。不仅分析出每条 tweet 的表达 support / disapprove 的态度,更重要的是找出其支持的理由/主题 ,制作图谱
🔗 去年的《信息传播学》课程实践作业,我爬取了 Trump 和 Hilary 过年一年所有 tweets 作为输入语料 ,利用内容分析法,分析出了其各自主要政治态度、宗教、教育、军事等方面的 态度 / 观点。
实际应用:
- 社会舆情采集系统(Spark、Hadoop、MongoDB…)
- …
2. 大规模场景下的智能化硬盘故障预警及修复 via 朱颖航
主要通过采集服务器日志信息和多种传感器数据,分析影响硬盘故障的因素和权重,构建一个智能化硬盘故障预警及修复系统。
记得吴恩达(Ng Andrew)在 Google 期间,就带领团队利用机器学习分析统计预计 Datacenter 的能耗问题,最终实现了显著的能耗降低。
这里我提了一个问题,就是 LinkedSee 灵犀在IT企业智能化运维除了硬盘故障预警及修复,对于能耗问题是否涉及?朱颖航说他在百度期间就从事了相关的工作,这里面的故事很多 ~~~
我还有一点感触就是 ———— 人工智能、机器学习等的应用场景还有很多,我们需要打开思路,发散思维,以全新的视角去审视问题。这个就给我们做了很多的范例。在数据极大丰富、计算能力大幅提升、算法多种多样的今天,我们更加需要深刻理解业务场景、提高问题意识,不断创新问题解决思路、方法,用新工具解决新问题,持续提升效率。
3. 企业大数据在风控领域的应用与价值挖掘 via 冯娟
企业大数据不同于以往的社交媒体数据挖掘,而且强调一种“全数据”的概念,包含各种企业公开信息(公司概况、财务、运营数据)、新闻媒体、社交媒体数据、政府监管数据等等。
通过挖掘企业的全数据,我们可以绘制公司/企业的“知识图谱”,了解其错综复杂的关系网,利益链,人脉关系网;隐藏着融资风险、非法集资链条等等。
📌 企业大数据挖掘建模的几个要素:
数据和技术要为业务服务 – 领域知识很重要。
抽象业务问题,合理定义目标
分群建模的重要性。不同的人群特点不同,不可能一个模型/算法通吃。
…
4. 数据挖掘思维的基础 via 丁明
这次收获或者感悟最多的还是要数丁明带来的《数据挖掘思维的基础》,原因有二:
- peer-view 观点,一个从网络运维转型数据挖掘工程师,偶然参加了数据科学竞赛,从此走上数据挖掘道路
- 分享的是数据挖掘/数据科学核心的分析思维/逻辑问题,而非传统的技术分享。
数据分析类型
Descriptive Analysis(描述性分析,也就是我们常说的 EDA):主要通过一些统计分析指标(平均值、众数、方差…)、变量分析(单变量、双变量、多变量)、成分分析探寻数据中一些基本特征、变量关系,为下一步的 predictive analysis 等打下基础,做些基本储备,充分了解数据特征和关系。
Diagonal Analysis(诊断性数据分析):在描述性分析基础上,探寻某些关系、规律背后的影响因素、原因。进一步刻画数据中存在的规律、变化。
Predictive Analysis(预测性分析):根据前俩个分析得出的结论、规律等,进行建模预测,对未来数据变化/用户行为进行预测。
Prescriptive Analysis(指导性):这步主要是面向管理层/高层领导进行的操作,分析师们需要将发现的 Insights/Ideas 写成分析报告(包括 Visualization Analysis),以支持上级领导/公司高层进行业务/战略的 优化/决策。
数据挖掘基本流程
数据预处理模块 -> 目标评分公式模块 -> 特征工程模块 -> Label标签模块 -> 训练模型模块
八种常见任务类型
分类
回归
聚类
相似匹配
频繁集发现
统计(属性、行为、状态)描述
连接预测
因果分析
我印象最深刻的一句话是 ———— “我们最终要成为一个模型、算法的分拣器”。我们在了解各种算法后,需要通过大量的训练,获得成为分拣器的实践经验和相应的业务知识/领域知识。 多聆听 👂 多思考 🤔 多实践 🏃