NLP Memo Note
09 May 2018NLP
虚词
对短语的语义不起决定作用,对QA的查询贡献也小,这些词一般作为停用词表(stop list)
语法词:can, go, say, he;
功能词:介词of, about;
实词
内容词: content word
VSM & LSA
向量空间模型算法(VSM) 与潜在语义分析(LatentSemanticAnaiysis,LSA)
- VSM属于词袋模型,用tf-idf计算每个term权重,再用权重计算余弦距离评估两个文档的相似度,因为是词袋,所以无法利用语义信息。
Q
- diff between matching similarity & semantic similarity
- post-web & pre-web feature