這個比較文本用到的主要是余弦定理比較文本相似度,具體原理右轉某度,主要適用場景是在考試系統中的簡答題概述,可根據權重自動打分,感覺實用性蠻廣的。
先說下思路:
文本分詞,中文于英文不同,規范的英文每個都有空格自動分詞,中文則是連成長串,我們只有一一比對每個詞出現的頻率做簡單的比較,在這里使用到了SCWS的一個分詞api接口http://www.ftphp.com/scws/api.php(僅支持POST,因為要模擬Http請求,所以請求時間也是根據具體環境而定,所以可以自己手寫一些字典,本地分詞要來的快)。但是用此接口分詞過程中,標點符號不會被去掉,所以需要自己手動寫方法去掉標點。
獲取兩個文本的去重復并集
比較每個詞出現的頻率
根據余弦定理計算權重
下面是具體的代碼段(請求是在網上找的,原鏈接找不到了。。)
class Program
{
static void Main(string[] args)
{
Console.Write(Sim("床前明月光,疑是地上霜", "床前明月光,疑是地上霜"));
}
public static double Sim(string txt1, string txt2)
{
List<string> sl1 = Segment(txt1);
List<string> sl2 = Segment(txt2);
//去重
List<string> sl = sl1.union(sl2).ToList<string>();
//獲取重復次數
List<int> arrA = new List<int>();
List<int> arrB = new List<int>();
foreach (var str in sl)
{
arrA.Add(sl1.where(x => x == str).Count());
arrB.Add(sl2.where(x => x == str).Count());
}
//計算商
double num = 0;
//被除數
double numA = 0;
double numB = 0;
for (int i = 0; i < sl.Count; i++)
{
num += arrA[i] * arrB[i];
numA += Math.Pow(arrA[i], 2);
numB += Math.Pow(arrB[i], 2);
}
double cos = num / (Math.Sqrt(numA)* Math.Sqrt(numB));
return cos;
}
public static List<string> Segment(string str)
{
List<string> sl = new List<string>();
try
{
string s = string.Empty;
System.Net.CookieContainer cookieContainer = new System.Net.CookieContainer();
// 將提交的字符串數據轉換成字節數組
byte[] postData = System.Text.Encoding.ASCII.GetBytes("data=" + System.Web.HttpUtility.UrlEncode(str) + "&respond=json&charset=utf8&ignore=yes&duality=no&traditional=no&multi=0");
// 設置提交的相關參數
System.Net.HttpWebRequest request = System.Net.WebRequest.create("http://www.ftphp.com/scws/api.php") as System.Net.HttpWebRequest;
request.Method = "POST";
request.KeepAlive = false;
request.ContentType = "application/x-www-form-urlencoded";
request.CookieContainer = cookieContainer;
request.ContentLength = postData.Length;
// 提交請求數據
System.IO.Stream outputStream = request.GetRequestStream();
outputStream.Write(postData, 0, postData.Length);
outputStream.Close();
// 接收返回的頁面
System.Net.HttpWebResponse response = request.GetResponse() as System.Net.HttpWebResponse;
System.IO.Stream responseStream = response.GetResponseStream();
System.IO.StreamReader reader = new System.IO.StreamReader(responseStream, System.Text.Encoding.GetEncoding("utf-8"));
string val = reader.ReadToEnd();
Newtonsoft.Json.Linq.JObject results = Newtonsoft.Json.Linq.JObject.Parse(val);
foreach (var item in results["words"].Children())
{
Newtonsoft.Json.Linq.JObject word = Newtonsoft.Json.Linq.JObject.Parse(item.ToString());
var sss = word["word"].ToString();
//判斷是否為標點符
bool offom = false;
foreach (char t in sss)
{
if (t >= 0x4e00 && t <= 0x9fbb)
{
offom = true;
}
else
{
offom = false;
}
}
if (offom)
{
sl.Add(sss);
}
}
}
catch
{
}
return sl;
}
}
以上 感覺很多地方都可以優化,以后想到更好的再重新來一遍
該文章在 2023/3/22 16:41:37 編輯過