aMMAI: [aMMAI] Paper Summary: Probabilistic latent semantic analysis

Title: Probabilistic latent semantic analysis

Author: T. Hofmann

Publication: SIGIR, 1999

LSA:

Latent Semantic Analysis的縮寫，用來分析文件中潛在的語意。

基本的作法是將高維的向量空間(根據term frequency)投影到潛在語意空間中，達到降維的效果。

具體的作法是用奇異值分析singular value Decomposition(SVD)。

先定義一些參數:

z屬於Z，Z={z_1,z_2,…,z_K}，有K種語意。

w屬於W，W={w_1,w_2,…,w_M}，有M種字。

d屬於D，D={d_1,d_2,…,d_N}，有N份文件。

式子(1)，是將維度N*W的矩陣N做SVD。

式子(2)，N與V兩個都是正交矩陣(orthogonal matrices)。

式子(3)，取sigma前K個最大的特徵值，其它設為零，形成新的sigma。

式子(4)，利用新的sigma產生一個新的N，近似原本的N。

式子(5)，利用內積來計算文件與文件間的相似度。

式子(6)，文件在Latent Space上的座標。

pLSA:

Probabilistic Latent Semantic的縮寫。

在LSA上加入統計機率模型的概念，解決了同義詞與一字多意的問題。

也是先定義一些參數:

P(d): 選到文件d的機率。

P(z|d): 文件d選到潛在語意z的機率。

P(w|z): 語意z產生詞w的機率。

觀察到一對(d,w)，但是z沒有被加進來，因此利用joint probability model

利用貝氏定理做轉換

根據likelihood原理，經由最大化log-likelihood function決定P(d)、P(z|d)、P(w|z)

利用EM求解

E-step:

M-step:

因為pLSA有時會出現overfit的問題。

overfit: 一個假設在training data上可以獲得比其它假設更好的fit，但是在training data以外的data set上卻無法有很好的fit。

pLSA可以產生所在dataset的文件模型，可是卻無法產生新文件的模型。

因此修改EM，引入了一個新參數beta，稱為tempered EM (TEM)

公式如下:

Beta的起始值為1，接著逐漸減少。

然後根據待訓練數據來測試模型，如果成功，則使用該beta，如果不成功，則收斂。收斂的意思就是使得beta = n*beta，n<1

pLSA與LSA的關係對照

其中p(z)表示Latent Space的信息，也就是主題空間；

p(w|z)表示主題空間與詞空間之間的關係，對應LSA中的V；

文件分類時，上述兩部分是在訓練時要保留的資訊，當新文件進入時，利用EM算法得到新的文件與主题的對應關係p(d|z)，並由此得到文件在主題空間上的表示p(z|d)。

pLSA的優點:

1.定義的機率模型。

2.LSA隱含了高斯分部，pLSA隱含了Multi-nomial更符合文件特性。

3.pLSA目標是KL-divergence最小，與orthogonal projection不同。

4.解決了多意詞的問題

參考網站:

http://tech.bobgo.net/?tag=plsa

http://blog.csdn.net/cuiyanws/archive/2010/12/20/6086820.aspx

aMMAI

2011年3月20日星期日

[aMMAI] Paper Summary: Probabilistic latent semantic analysis

沒有留言:

張貼留言

標籤

網誌存檔

總網頁瀏覽量