^

Young Anything I do that may help others, I'll post it here.

NLP Memo Note

NLP

虚词

对短语的语义不起决定作用,对QA的查询贡献也小,这些词一般作为停用词表(stop list)

语法词:can, go, say, he;

功能词:介词of, about;

实词

内容词: content word

VSM & LSA

向量空间模型算法(VSM) 与潜在语义分析(LatentSemanticAnaiysis,LSA)

  • VSM属于词袋模型,用tf-idf计算每个term权重,再用权重计算余弦距离评估两个文档的相似度,因为是词袋,所以无法利用语义信息。

参考:VSM、TF-IDF与LSA

Q

  1. diff between matching similarity & semantic similarity
  2. post-web & pre-web feature