1.广度神经网络:
2.中文分词算法:
方法:(1)基于词典的方法:逐词匹配法,最大匹配法,逆向最大匹配法,双向匹配法;(优点)算法简单,易于实现;(缺点)匹配速度慢,存在歧义切分,无法智能匹配
(2)基于统计的方法:统计量(词频,互信息量,t-测试差);统计方法(N-元分词,隐马尔科夫模型,最大熵模型);(优点)自动识别陌生词,自动消除歧义
(3)基于理解的方法:专家系统方法,神经网络方法,生成-测试方法;(优点)知识处理为动态演化过程,能够实现智能匹配,加入新词对结果影响不大,字词模型与输入过程匹配,切分方式与输出过程匹配,能有效发现歧义
方法比较:是否消歧,是否智能,是否需要词典,是否需要语料库,是否需要规则库,是否准确,是否快速,实现是否复杂,是否通用
方法结合:基于字典的方法与基于统计的方法结合,分词与词性标注相结合
歧义类型:交叉歧义,覆盖歧义
消歧方法:穷举法(双向匹配法),词性标注法,EM期望最大化法,联想-回溯方法,短语匹配和语义规则方法
未登录词分类:专用未登录词,通用未登录词
专用未登录词识别方法:候选词表,猜测未登录词
通用未登录词:建库,启发式规则(如:史密斯先生),钱数三种通用方法
3.垃圾邮件过滤(采用贝叶斯算法)
垃圾邮件:截断源头,邮件过滤
数据集:垃圾邮件过滤语料库
评价标准:召回率,正确率,精确率,错误率
方法:(1)黑名单/白名单,手工指定规则(2)基于内容的机器学习判定方法
基于内容的机器学习判定方法:(1)基于规则的(2)基于统计的
基于规则的:(1)决策树分类方法(2)Ripper分类方法(3)Boosting强分类器分类方法(4)粗糙集分类方法
基于统计的:(1)kNN最近邻方法(2)rocchio向量距离方法(3)window特征的权重向量方法(5)svm最优线性分类面方法(6)bayes方法(伯努利分布,多项式分布,高斯分布)
4.推荐系统
5.梯度下降算法
6.序列模式挖掘:序列模式挖掘就是挖掘相对于时间或其它模式出现频率较高的模式
7,数据挖掘流程:背景了解,数据选择,数据预处理,数据变换,数据挖掘(挖掘目标了解,挖掘算法选择,挖掘过程展开),挖掘性能评估,挖掘效果可视化
8.数据预处理的重要性:保证数据质量(完整性,准确性,一致性,时效性,可信性,可理解性),进行数据清理(缺失值和噪声数据),数据集成(实体识别,冗余和相关分析,元组重复,数据值冲突),数据规约(数据属性规约,数据属性值规约),数据变换
9.svm算法,核函数就是将线性不可分低维空间向量映射到线性可分高维空间的向量后,向量的内积函数
10.最小二乘法(回归分析):预测分析使用
11.粗糙集和模糊集:粗糙集用来推断规则的,模糊集用来模糊属性界限的
12.信息熵:衡量未知属性情况下集合的分类信息量大小
13.马尔克夫链
信息增益:衡量已知某属性情况下集合的分类信息量大小,属性的所有值情况下集合的分类信息量加权之和
信息增益比率:信息增益除以,分类属性的信息熵,即衡量分类属性分类宽度和均匀度的值,以便在决策树建立时尽量不选择那种分类较广的属性
13.最大熵算法:
14.梯度下降算法:
附上2012年某IT大牛公司面试题:
1.svm算法推导
2.sinx精确值如何求得
3.Fibnacci数列
4.逆波兰式
附上2013年某IT互联网公司W笔试题:
1.Apriori算法
2.KMP算法
3.线性分类器和非线性分类器
4.观点挖掘
5.错误校验码能否识别多位:奇偶校验码,循环冗余码,BCD码,海明码
6.基数排序的最坏情况下时间复杂度
7.RAIDn能提高磁盘阵列可靠性
8.最大熵算法
9.高斯混合模型
10.逻辑斯蒂回归分析
11.梯度下降算法
12.Aprioi算法中的拉格朗日乘子a!=0和a=0分别代表什么意思?