Title: Probabilistic latent semantic analysis
Author: T. Hofmann
Publication: SIGIR, 1999
LSA:
Latent Semantic Analysis的縮寫,用來分析文件中潛在的語意。
基本的作法是將高維的向量空間(根據term frequency)投影到潛在語意空間中,達到降維的效果。
具體的作法是用奇異值分析singular value Decomposition(SVD)。
先定義一些參數:
z屬於Z,Z={z_1,z_2,…,z_K},有K種語意。
w屬於W,W={w_1,w_2,…,w_M},有M種字。
d屬於D,D={d_1,d_2,…,d_N},有N份文件。
式子(1),是將維度N*W的矩陣N做SVD。
式子(2),N與V兩個都是正交矩陣(orthogonal matrices)。
式子(3),取sigma前K個最大的特徵值,其它設為零,形成新的sigma。
式子(4),利用新的sigma產生一個新的N,近似原本的N。
式子(5),利用內積來計算文件與文件間的相似度。
式子(6),文件在Latent Space上的座標。
pLSA:
Probabilistic Latent Semantic的縮寫。
在LSA上加入統計機率模型的概念,解決了同義詞與一字多意的問題。
也是先定義一些參數:
P(d): 選到文件d的機率。
P(z|d): 文件d選到潛在語意z的機率。
P(w|z): 語意z產生詞w的機率。
利用貝氏定理做轉換
根據likelihood原理,經由最大化log-likelihood function決定P(d)、P(z|d)、P(w|z)
利用EM求解
E-step:
M-step:
因為pLSA有時會出現overfit的問題。
overfit: 一個假設在training data上可以獲得比其它假設更好的fit,但是在training data以外的data set上卻無法有很好的fit。
pLSA可以產生所在dataset的文件模型,可是卻無法產生新文件的模型。
因此修改EM,引入了一個新參數beta,稱為tempered EM (TEM)
公式如下:
Beta的起始值為1,接著逐漸減少。
然後根據待訓練數據來測試模型,如果成功,則使用該beta,如果不成功,則收斂。收斂的意思就是使得beta = n*beta,n<1
pLSA與LSA的關係對照
其中p(z)表示Latent Space的信息,也就是主題空間;
p(w|z)表示主題空間與詞空間之間的關係,對應LSA中的V;
文件分類時,上述兩部分是在訓練時要保留的資訊,當新文件進入時, 利用EM算法得到新的文件與主题的對應關係p(d|z),並由此得到文件在主題空間上的表示p(z|d)。
pLSA的優點:
1.定義的機率模型。
2.LSA隱含了高斯分部,pLSA隱含了Multi-nomial更符合文件特性。
3.pLSA目標是KL-divergence最小,與orthogonal projection不同。
4.解決了多意詞的問題

沒有留言:
張貼留言