2011年3月20日 星期日

[aMMAI] Paper Summary: Probabilistic latent semantic analysis

Title: Probabilistic latent semantic analysis
Author: T. Hofmann
Publication: SIGIR, 1999



LSA:
Latent Semantic Analysis的縮寫,用來分析文件中潛在的語意。
基本的作法是將高維的向量空間(根據term frequency)投影到潛在語意空間中,達到降維的效果。
具體的作法是用奇異值分析singular value Decomposition(SVD)
先定義一些參數:
z屬於ZZ={z_1,z_2,…,z_K},有K種語意。
w屬於WW={w_1,w_2,…,w_M},有M種字。
d屬於DD={d_1,d_2,…,d_N},有N份文件。









式子(1),是將維度N*W的矩陣NSVD
式子(2)NV兩個都是正交矩陣(orthogonal matrices)
式子(3),取sigmaK個最大的特徵值,其它設為零,形成新的sigma
式子(4),利用新的sigma產生一個新的N,近似原本的N
式子(5),利用內積來計算文件與文件間的相似度。
式子(6),文件在Latent Space上的座標。


pLSA:
Probabilistic Latent Semantic的縮寫。
LSA上加入統計機率模型的概念,解決了同義詞與一字多意的問題。
也是先定義一些參數:
P(d): 選到文件d的機率。
P(z|d): 文件d選到潛在語意z的機率。
P(w|z): 語意z產生詞w的機率。

觀察到一對(d,w),但是z沒有被加進來,因此利用joint probability model





利用貝氏定理做轉換





根據likelihood原理,經由最大化log-likelihood function決定P(d)P(z|d)P(w|z)





利用EM求解
E-step:





M-step:










因為pLSA有時會出現overfit的問題。
overfit: 一個假設在training data上可以獲得比其它假設更好的fit,但是在training data以外的data set上卻無法有很好的fit
pLSA可以產生所在dataset的文件模型,可是卻無法產生新文件的模型。
因此修改EM,引入了一個新參數beta,稱為tempered EM (TEM)
公式如下:







Beta的起始值為1,接著逐漸減少。
然後根據待訓練數據來測試模型如果成功則使用該beta如果不成功則收斂收斂的意思就是使得beta = n*betan<1

pLSALSA的關係對照











其中p(z)表示Latent Space的信息,也就是主題空間;
p(w|z)表示主題空間與詞空間之間的關係,對應LSA中的V
文件分類時,上述兩部分是在訓練時要保留的資訊,當新文件進入時, 利用EM算法得到新的文件與主题的對應關係p(d|z),並由此得到文件在主題空間上的表示p(z|d)


pLSA的優點:
1.定義的機率模型。
2.LSA隱含了高斯分部,pLSA隱含了Multi-nomial更符合文件特性。
3.pLSA目標是KL-divergence最小,與orthogonal projection不同。
4.解決了多意詞的問題



沒有留言:

張貼留言