今天下午去南京大学参加了南京大数据技术 Meetup 第十次会议,收获颇丰,不仅是对机器学习、大数据认识有了提升,而且了解当下大数据、机器学习技术在企业中的前沿应用。晚上回来后(南大仙林好远呀 😭,不过听了这场讲座还是值了),直奔教研室 🏃🏃🏃,想把自己下午参会的所听、所想、所得记录下来。

导语:今天下午去南京大学参加了南京大数据技术 Meetup 第十次会议,收获颇丰,不仅是对机器学习、大数据认识有了提升,而且了解当下大数据、机器学习技术在企业中的前沿应用。晚上回来后(南大仙林好远呀 😭,不过听了这场讲座还是值了),直奔教研室 🏃🏃🏃,想把自己下午参会的所听、所想、所得记录下来。

一、介绍

南京大学的这个大数据技术 Meetup 是由计算机学院助理研究员、南大大数据实验室的顾荣博士发起的 算上加上这次已经举办了 10 次了,特此鸣谢顾荣博士发起并组织大数据技术 Meetup,主要是邀请海内外互联网大数据公司或高等院校学者来给大家带来&分享其最新的大数据技术学术成果工程实践应用,可以说是一场产、学、研集一身的“盛会”(虽然自己还是个数据科学“菜鸟”,但能够有机会多听听、多见见还是受益匪浅的。

这个是本次(第 10 次)大数据 Meetup 活动详情连接,感兴趣的小伙伴可以看看 o( ̄▽ ̄)ブ

二、主要嘉宾讲演回顾(回忆版)及个人思考 ┗|`O′|┛ 嗷~~

1. 大数据时代下的自然语言处理研究进展 via 周德宇

周德宇教授主要从事 NLP 方面的研究,通过周教授的讲述我对 NLP 有了新的认识,比如一般从事 NLP 研究过程如下:

① 数据预料处理(词性标注 -> 命名实体识别) -> ② 知识发现(关系抽取/事件抽取) -> ③ 创建知识图谱③ 构建事件图谱(情感计算 / 事件可视化)

周教授说事理图谱是由哈工大的刘挺教授提出了,相对知识图谱更难,但作用很大,很多场合下事件图谱更能解决实际问题。有兴趣的小伙伴可以查看相关资料深度了解一下。


周教授的讲座主要分享在三个方面做的研究以及一些实际应用:

  • 关系抽取:周教授带学术做了药物相互作用之间的关系抽取,举个简答的例子,e.g 药物 A 和药物 B 不能和药物C同时使用,我们可以抽取出如下关系表:

      |    关系      |  相互作用与否  |
      | ------------ | ------------  |
      | < A, C >     |     Yes       |
      | < B , C >    |     Yes       |
      | < A , B >    |     No        |
    

    我觉得这个非常有意思,每年有很多因俩种或多种药物不良反应造成的医疗事故,如果我们可以通过这种药物关系抽取出各种不良药物反应的关系,然后绘制知识图谱/事件图谱,然后在医生使用 HIS 系统开药时,智能辅助,是不是可以大大降低因药物不良反应的事故率呢 😉

    此外,周教授还有一个处于研究中的叫做 position-aware relation extraction。

    这个对比传统的关系抽取方法,主要区别是在分词 part of bags 分词阶段加入单词位置的考虑,简单来说,一句英文不用位置的单词重要性不同,所以英文我们会强调有重读和弱读。不然很长的一句话,别人无法抓住重点,就会造成理解上的障碍。

  • 事件抽取:事件抽取方面,周教授主要谈及利用 Topic Model 进行事件抽取方面的研究。

    Deep Learning 这俩年的超级火爆,利用 LDA 模型进行的研究的人员少了很多,但时周教授发现,Deep Learning 和 AI 占据主流技术的同时,LDA 模型仍然有其用武之地。

    周教授团队用 Topic Model 把每一个事件用一个 document 表示,然后关联不同 document,进行事件抽取。LDA 我也只了解皮毛,所以我就不阐述了。

  • 文本情感分析:做文本情感分析的人很多,但周教授及其团队选取的角度很独特 ———— 针对 Trump 2016 大选事件做 Twitter 用户态度。不仅分析出每条 tweet 的表达 support / disapprove 的态度,更重要的是找出其支持的理由/主题 ,制作图谱

    🔗 去年的《信息传播学》课程实践作业,我爬取了 Trump 和 Hilary 过年一年所有 tweets 作为输入语料 ,利用内容分析法,分析出了其各自主要政治态度、宗教、教育、军事等方面的 态度 / 观点

  • 实际应用:

    • 社会舆情采集系统(Spark、Hadoop、MongoDB…)

2. 大规模场景下的智能化硬盘故障预警及修复 via 朱颖航

主要通过采集服务器日志信息和多种传感器数据,分析影响硬盘故障的因素和权重,构建一个智能化硬盘故障预警及修复系统。

记得吴恩达(Ng Andrew)在 Google 期间,就带领团队利用机器学习分析统计预计 Datacenter 的能耗问题,最终实现了显著的能耗降低。

这里我提了一个问题,就是 LinkedSee 灵犀在IT企业智能化运维除了硬盘故障预警及修复,对于能耗问题是否涉及?朱颖航说他在百度期间就从事了相关的工作,这里面的故事很多 ~~~

我还有一点感触就是 ———— 人工智能、机器学习等的应用场景还有很多,我们需要打开思路,发散思维,以全新的视角去审视问题。这个就给我们做了很多的范例。在数据极大丰富、计算能力大幅提升、算法多种多样的今天,我们更加需要深刻理解业务场景、提高问题意识,不断创新问题解决思路、方法,用新工具解决新问题,持续提升效率。

3. 企业大数据在风控领域的应用与价值挖掘 via 冯娟

企业大数据不同于以往的社交媒体数据挖掘,而且强调一种“全数据”的概念,包含各种企业公开信息(公司概况、财务、运营数据)、新闻媒体、社交媒体数据、政府监管数据等等。

通过挖掘企业的全数据,我们可以绘制公司/企业的“知识图谱”,了解其错综复杂的关系网,利益链,人脉关系网;隐藏着融资风险、非法集资链条等等。

📌 企业大数据挖掘建模的几个要素

  • 数据和技术要为业务服务 – 领域知识很重要。

  • 抽象业务问题,合理定义目标

  • 分群建模的重要性。不同的人群特点不同,不可能一个模型/算法通吃。

4. 数据挖掘思维的基础 via 丁明

这次收获或者感悟最多的还是要数丁明带来的《数据挖掘思维的基础》,原因有二:

- peer-view 观点,一个从网络运维转型数据挖掘工程师,偶然参加了数据科学竞赛,从此走上数据挖掘道路

- 分享的是数据挖掘/数据科学核心的分析思维/逻辑问题,而非传统的技术分享。
  • 数据分析类型

    • Descriptive Analysis(描述性分析,也就是我们常说的 EDA):主要通过一些统计分析指标(平均值、众数、方差…)、变量分析(单变量、双变量、多变量)、成分分析探寻数据中一些基本特征、变量关系,为下一步的 predictive analysis 等打下基础,做些基本储备,充分了解数据特征和关系。

    • Diagonal Analysis(诊断性数据分析):在描述性分析基础上,探寻某些关系、规律背后的影响因素、原因。进一步刻画数据中存在的规律、变化。

    • Predictive Analysis(预测性分析):根据前俩个分析得出的结论、规律等,进行建模预测,对未来数据变化/用户行为进行预测。

    • Prescriptive Analysis(指导性):这步主要是面向管理层/高层领导进行的操作,分析师们需要将发现的 Insights/Ideas 写成分析报告(包括 Visualization Analysis),以支持上级领导/公司高层进行业务/战略的 优化/决策

  • 数据挖掘基本流程

    数据预处理模块 -> 目标评分公式模块 -> 特征工程模块 -> Label标签模块 -> 训练模型模块

  • 八种常见任务类型

    • 分类

    • 回归

    • 聚类

    • 相似匹配

    • 频繁集发现

    • 统计(属性、行为、状态)描述

    • 连接预测

    • 因果分析

我印象最深刻的一句话是 ———— “我们最终要成为一个模型、算法的分拣器”。我们在了解各种算法后,需要通过大量的训练,获得成为分拣器的实践经验和相应的业务知识/领域知识。 多聆听 👂 多思考 🤔 多实践 🏃


南京大数据技术 Meetup 第十次会议参会内容回顾与思考
https://github.com/zhililab/2017/11/04/Nanjing-BigData-Meetup-10-Review/
作者
[object Object]
发布于
2017年11月4日
许可协议