南京大数据技术 Meetup 第十次会议参会内容回顾与思考

导语：今天下午去南京大学参加了南京大数据技术 Meetup 第十次会议，收获颇丰，不仅是对机器学习、大数据认识有了提升，而且了解当下大数据、机器学习技术在企业中的前沿应用。晚上回来后（南大仙林好远呀 😭，不过听了这场讲座还是值了），直奔教研室 🏃🏃🏃，想把自己下午参会的所听、所想、所得记录下来。

一、介绍

南京大学的这个大数据技术 Meetup 是由计算机学院助理研究员、南大大数据实验室的顾荣博士发起的算上加上这次已经举办了 10 次了，特此鸣谢顾荣博士发起并组织大数据技术 Meetup，主要是邀请海内外互联网大数据公司或高等院校学者来给大家带来&分享其最新的大数据技术、学术成果、工程实践应用，可以说是一场产、学、研集一身的“盛会”（虽然自己还是个数据科学“菜鸟”，但能够有机会多听听、多见见还是受益匪浅的。

这个是本次（第 10 次）大数据 Meetup 活动详情连接，感兴趣的小伙伴可以看看 o(￣▽￣)ブ

二、主要嘉宾讲演回顾（回忆版）及个人思考 ┗|｀O′|┛ 嗷~~

1. 大数据时代下的自然语言处理研究进展 via 周德宇

周德宇教授主要从事 NLP 方面的研究，通过周教授的讲述我对 NLP 有了新的认识，比如一般从事 NLP 研究过程如下：

① 数据预料处理（词性标注 -> 命名实体识别） -> ② 知识发现（关系抽取/事件抽取） -> ③ 创建知识图谱 或 ③ 构建事件图谱（情感计算 / 事件可视化）

周教授说事理图谱是由哈工大的刘挺教授提出了，相对知识图谱更难，但作用很大，很多场合下事件图谱更能解决实际问题。有兴趣的小伙伴可以查看相关资料深度了解一下。

周教授的讲座主要分享在三个方面做的研究以及一些实际应用：

关系抽取：周教授带学术做了药物相互作用之间的关系抽取，举个简答的例子，e.g 药物 A 和药物 B 不能和药物C同时使用，我们可以抽取出如下关系表：
```
  |    关系      |  相互作用与否  |
  | ------------ | ------------  |
  | < A, C >     |     Yes       |
  | < B , C >    |     Yes       |
  | < A , B >    |     No        |
```
我觉得这个非常有意思，每年有很多因俩种或多种药物不良反应造成的医疗事故，如果我们可以通过这种药物关系抽取出各种不良药物反应的关系，然后绘制知识图谱/事件图谱，然后在医生使用 HIS 系统开药时，智能辅助，是不是可以大大降低因药物不良反应的事故率呢 😉

此外，周教授还有一个处于研究中的叫做 position-aware relation extraction。

这个对比传统的关系抽取方法，主要区别是在分词 part of bags 分词阶段加入单词位置的考虑，简单来说，一句英文不用位置的单词重要性不同，所以英文我们会强调有重读和弱读。不然很长的一句话，别人无法抓住重点，就会造成理解上的障碍。
事件抽取：事件抽取方面，周教授主要谈及利用 Topic Model 进行事件抽取方面的研究。

Deep Learning 这俩年的超级火爆，利用 LDA 模型进行的研究的人员少了很多，但时周教授发现，Deep Learning 和 AI 占据主流技术的同时，LDA 模型仍然有其用武之地。

周教授团队用 Topic Model 把每一个事件用一个 document 表示，然后关联不同 document，进行事件抽取。LDA 我也只了解皮毛，所以我就不阐述了。
文本情感分析：做文本情感分析的人很多，但周教授及其团队选取的角度很独特 ———— 针对 Trump 2016 大选事件做 Twitter 用户态度。不仅分析出每条 tweet 的表达 support / disapprove 的态度，更重要的是找出其支持的理由/主题，制作图谱

🔗 去年的《信息传播学》课程实践作业，我爬取了 Trump 和 Hilary 过年一年所有 tweets 作为输入语料，利用内容分析法，分析出了其各自主要政治态度、宗教、教育、军事等方面的态度 / 观点。
实际应用：
- 社会舆情采集系统（Spark、Hadoop、MongoDB…）
- …

2. 大规模场景下的智能化硬盘故障预警及修复 via 朱颖航

主要通过采集服务器日志信息和多种传感器数据，分析影响硬盘故障的因素和权重，构建一个智能化硬盘故障预警及修复系统。

记得吴恩达（Ng Andrew）在 Google 期间，就带领团队利用机器学习分析统计预计 Datacenter 的能耗问题，最终实现了显著的能耗降低。

这里我提了一个问题，就是 LinkedSee 灵犀在IT企业智能化运维除了硬盘故障预警及修复，对于能耗问题是否涉及？朱颖航说他在百度期间就从事了相关的工作，这里面的故事很多 ~~~

我还有一点感触就是 ———— 人工智能、机器学习等的应用场景还有很多，我们需要打开思路，发散思维，以全新的视角去审视问题。这个就给我们做了很多的范例。在数据极大丰富、计算能力大幅提升、算法多种多样的今天，我们更加需要深刻理解业务场景、提高问题意识，不断创新问题解决思路、方法，用新工具解决新问题，持续提升效率。

3. 企业大数据在风控领域的应用与价值挖掘 via 冯娟

企业大数据不同于以往的社交媒体数据挖掘，而且强调一种“全数据”的概念，包含各种企业公开信息（公司概况、财务、运营数据）、新闻媒体、社交媒体数据、政府监管数据等等。

通过挖掘企业的全数据，我们可以绘制公司/企业的“知识图谱”，了解其错综复杂的关系网，利益链，人脉关系网；隐藏着融资风险、非法集资链条等等。

📌 企业大数据挖掘建模的几个要素：

数据和技术要为业务服务 – 领域知识很重要。
抽象业务问题，合理定义目标
分群建模的重要性。不同的人群特点不同，不可能一个模型/算法通吃。
…

4. 数据挖掘思维的基础 via 丁明

这次收获或者感悟最多的还是要数丁明带来的《数据挖掘思维的基础》，原因有二：

- peer-view 观点，一个从网络运维转型数据挖掘工程师，偶然参加了数据科学竞赛，从此走上数据挖掘道路

- 分享的是数据挖掘/数据科学核心的分析思维/逻辑问题，而非传统的技术分享。

数据分析类型
- Descriptive Analysis（描述性分析，也就是我们常说的 EDA）：主要通过一些统计分析指标（平均值、众数、方差…）、变量分析（单变量、双变量、多变量）、成分分析探寻数据中一些基本特征、变量关系，为下一步的 predictive analysis 等打下基础，做些基本储备，充分了解数据特征和关系。
- Diagonal Analysis（诊断性数据分析）：在描述性分析基础上，探寻某些关系、规律背后的影响因素、原因。进一步刻画数据中存在的规律、变化。
- Predictive Analysis（预测性分析）：根据前俩个分析得出的结论、规律等，进行建模预测，对未来数据变化/用户行为进行预测。
- Prescriptive Analysis（指导性）：这步主要是面向管理层/高层领导进行的操作，分析师们需要将发现的 Insights/Ideas 写成分析报告（包括 Visualization Analysis），以支持上级领导/公司高层进行业务/战略的 优化/决策。
数据挖掘基本流程

数据预处理模块 -> 目标评分公式模块 -> 特征工程模块 -> Label标签模块 -> 训练模型模块
八种常见任务类型
- 分类
- 回归
- 聚类
- 相似匹配
- 频繁集发现
- 统计（属性、行为、状态）描述
- 连接预测
- 因果分析

我印象最深刻的一句话是 ———— “我们最终要成为一个模型、算法的分拣器”。我们在了解各种算法后，需要通过大量的训练，获得成为分拣器的实践经验和相应的业务知识/领域知识。多聆听 👂 多思考 🤔 多实践 🏃

技术

#机器学习 #Meetup #大数据

南京大数据技术 Meetup 第十次会议参会内容回顾与思考

https://github.com/zhililab/2017/11/04/Nanjing-BigData-Meetup-10-Review/

作者

[object Object]

发布于

2017年11月4日

许可协议

机器学习算法之【线性模型】上一篇

TOEFL Test Review 下一篇