分类
未分类

机器学习路线图

机器学习路线图

第一阶段 机器学习基础与凸优化
本阶段主要目的是讲解必要的算法理论以及凸优化技术,为后续的课程打下基础。凸优化的重要性不言而喻,如果想具备改造模型的能力,对于凸优化的理解是必不可少的!

【核心知识点】
KNN,Weighted KNN、近似 KNNKD 树,近似 KD 树、哈希算法、LSH岭回归、LASSO、ElasticNet正则:L1, L2, L-inifity NormLR、GD、SGD、小批量 SGD凸集,凸函数、判定凸函数LP、QP、ILP、SDP 问题Duality,Strong Duality、KKT 条件带条件/无条件优化问题、Projected GD平滑函数、Convergence Analysis

【实战】
基于 QP 的股票投资组合策略设计

基于 LP 的短文本相似度计算

基于 KNN 的图像识别

第二阶段 SVM 与集成模型

本阶段主要目的是深入理解 SVM 以及核函数部分的知识点。为了理解清楚 SVM 的 Dual 转换,需要掌握第一部分里的 Duality 理论。另外,重点介绍 Bagging 和 Boosting 模型,以及所涉及到的几项有趣的理论。
【核心知识点】
Max-Margin 与线性 SVM 构建Slack Variable 以及条件的松弛SVM 的 Dual、Kernelized SVMKernel Functions, Mercer’定理Kernelized LR/KNN/K-Means/PCABagging, Boosting, Stacking信息论与决策树随机森林,完全随机森林基于残差的提升树训练思想GBDT 与 XGBoost集成不同类型的模型VC 理论, PAC Learning

【实战】
基于 XGBoost 的金融风控模型

基于 PCA 和 Kernel SVM 的人脸识别.

基于 Kernal PCA 和 Linear SVM 的人脸识别

第三阶段 无监督学习与序列模型

本阶段主要目的是学习无监督算法和经典的序列模型。重点讲解 EM 算法以及 GMM,K-means 的关系,同时花几次课程时间来仔细讲解 CRF 的细节:从无向图模型、Potential 函数、Log-Linear Model、逻辑回归、HMM、MEMM、Label Bias、Linear CRF、Inference,最后到 Non-Linear CRF。
【核心知识点】
K-means、GMM 以及 EM层次聚类,DCSCAN,Spectral 聚类算法隐变量与隐变量模型、Partition 函数条件独立、D-Separation、Markov 性质HMM 以及基于 Viterbi 的 DecodingForward/Backward 算法基于 EM 算法的参数估计有向图与无向图模型区别Log-Linear Model,逻辑回归,特征函数MEMM 与 Label Bias 问题Linear CRF 以及参数估计

【实战】
基于 HMM 和 GMM 的语音识别

基于聚类分析的用户群体分析

基于 CRF 的命名实体识别

第四阶段 深度学习

本阶段主要讲解深度学习理论以及常见的模型。这里包括 BP 算法、卷积神经网络、RNN/LSTM、BERT、XLNet、ALBERT 以及各类深度学习图模型。另外,也会涉及到深度相关的优化以及调参技术。
【核心知识点】
神经网络与激活函数BP 算法、卷积层、Pooling 层、全连接层卷积神经网络、常用的 CNN 结构Dropout 与 Batch NormalizationSGD、Adam、Adagrad 算法RNN 与梯度消失、LSTM 与 GRUSeq2Seq 模型与注意力机制Word2Vec, Elmo, Bert, XLNet深度学习中的调参技术深度学习与图嵌入(Graph Embedding)Translating Embedding (TransE)Node2Vec- Graph Convolutional NetworkGraph Neural NetworkDynamic Graph Embedding

【实战】
基于 Seq2Seq 和注意力机制的机器翻译

基于 TransE 和 GCN 的知识图谱推理

基于 CNN 的人脸关键点检测

第五阶段 推荐系统与在线学习

推荐系统一直是机器学习领域的核心,所以在本阶段重点来学习推荐系统领域主流的算法以及在线学习的技术、包括如何使用增强学习来做推荐系统。 在线学习算法很深具有很漂亮的理论基础,在本阶段你都会一一体会到!
【核心知识点】
基于内容和协同过滤的推荐算法矩阵分解,带条件的矩阵分解基于内容的 Gradient Tree基于深度学习的推荐算法冷启动问题的处理Exploration vs ExploitationMulti-armed BanditUCB1 algorithm,EXP3 algorithmAdversarial Bandit modelContexulalized Bandit、LinUCB

【实战】
使用 GB Tree 做基于 interaction 与 content 的广告推荐

使用深度神经网络做基于 interaction 与 content 的推荐

LinUCB 做新闻推荐, 最大化 rewards

第六阶段 贝叶斯模型

本阶段重点讲解贝叶斯模型。贝叶斯派区别于频率派,主要的任务是估计后验概率的方式来做预测。我们重点讲解主题模型以及不同的算法包括吉布采样、变分法、SGLD 等,以及如何把贝叶斯的框架结合在深度学习模型里使用,这就会衍生出 Bayesian LSTM 的模型。贝叶斯部分的学习需要一定的门槛,但我们会让每个人听懂所有细节!
【核心知识点】
主题模型(LDA) 以及生成过程Dirichlet/Multinomial Distribution蒙特卡洛与 MCMCMetropolis Hasting 与 Gibbs Sampling使用 Collapsed Gibbs Sampler 求解 LDAMean-field variational Inference使用 VI 求解 LDAStochastic Optimization 与贝叶斯估计利用 SLGD 和 SVI 求解 LDA基于分布式计算的贝叶斯模型求解随机过程与无参模型(non-parametric)Chinese Retarant ProcessStick Breaking ProcessStochastic Block Model 与 MMSB基于 SGLD 与 SVI 的 MMSB 求解Bayesian Deep Learning 模型Deep Generative Model

【实战】
基于 Bayesian LSTM 的文本分析

使用无参主题模型做文本分类

基于贝叶斯模型实现小数量的图像识别

第七阶段 增强学习与其他前沿主题

本阶段重点讲解增强学习以及前沿的内容,包括增强学习在文本领域的应用,GAN, VAE,图片和文本的 Disentangling,深度学习领域可解释性问题、Adversial Learning, Fair Learning 等最前沿的主题。 这一阶段的安排也会根据学员的兴趣点做局部的调整。
【核心知识点】
Policy Learning、Deep RLVariational Autoencoder(VAE)与求解隐变量的 Disentangling图像的生成以及 Disentangling文本的生成以及 DisentanglingGenerative Adversial Network(GAN)CycleGan深度学习的可解释性Deconvolution 与图像特征的解释Layer-wise PropagationAdversial Machine LearningPurturbation AnalysisFair Learning

【实战】
基于 GAN 的图像生成基于 VAE 的文本 Style Transfer可视化机器翻译系统

综合实战

项目 1:人脸识别
基于 Kernel PCA 的思路, 实现 Kernel LDA(Linear Discriminant Analysis). 使用 Kernel LDA 进行人脸识别。

项目 2:语音识别
基于 HMM 和 GMM 从零搭建一个语音识别系统,这个语音识别系统可用于 IOT 的场景中来识别各类命令。在项目中也需要使用常见的语音的特征如 MFCC。

项目 3:实时视频人脸美化
在基于 CNN 人脸关键点检测的基础上, 实现一个人脸美化的算法, 给一副照片中的人脸加上墨镜。

项目 4: 机器翻译
从零搭建一个中英机器翻译系统。项目中需要使用 LSTM 以及注意力机制,并结合 Bert 等词向量技术。

项目 5: 推荐系统
使用 Gradient Boost Machine 预测用户点击广告的概率 CTR, 用于广告推荐系统。

项目 6:情感分析
基于 LDA 模型做改造并应用在情感分析。在此项目中需要完成:1. 改造原始的 LDA 模型。2. 对于改造后的模型做求解 3. 实现模型并识别文本中的情感。

项目 7:基于深度神经网络的强化学习系统「打乒乓球」
使用 Policy Gradient 的思路, 实现基于深度神经网络的强化学习系统, 让系统能够在乒乓球游戏中战胜机器。

项目 8:文本风格迁移
基于 VAE 搭建一个文本风格迁移模型。对于给定的一句话,按照一定的风格去改造文本。