C#中文文本匹配,字符串匹配,中文詞語(yǔ)匹配,計(jì)算2個(gè)句子相似度
當(dāng)前位置:點(diǎn)晴教程→知識(shí)管理交流
→『 技術(shù)文檔交流 』
向量在數(shù)學(xué)上余弦定義如下: 因此我們可以將句子向量話(huà)計(jì)算句子的余弦相似度。 Public static void Main() { var segmenter = new JiebaSegmenter(); var douba = ClassSim.MatchKeywordSim("123", "145"); Console.WriteLine("【相似度1】:{0}", douba); var douba1 = ClassSim.MatchKeywordSim("包皮手術(shù)治療費(fèi)用怎么治療?", "包皮手術(shù)費(fèi)用"); Console.WriteLine("【相似度1】:{0}", douba1); var douba2= ClassSim.MatchKeywordSim("包皮手術(shù)治療費(fèi)用怎么治療?", "包皮醫(yī)院"); Console.WriteLine("【相似度2】:{0}", douba2); Console.ReadKey(); } 然后我們看下使用的匹配方法: public class ClassSim { public static double MatchKeywordSim(string keyword, string matchkeyword) { List<char> keywordList = keyword.ToCharArray().ToList(); List<char> matchkeywordList = matchkeyword.ToCharArray().ToList(); List<char> unionKeyword = keywordList.union(matchkeywordList).ToList<char>(); List<int> arrA = new List<int>(); List<int> arrB = new List<int>(); foreach (var str in unionKeyword) { arrA.Add(keywordList.where(x => x == str).Count()); arrB.Add(matchkeywordList.where(x => x == str).Count()); } double num = 0; double numA=0; double numB=0; for (int i = 0; i < unionKeyword.Count; i++) { num+=arrA[i]*arrB[i]; numA+=Math.Pow(arrA[i], 2); numB+=Math.Pow(arrB[i], 2); } double cos = num / (Math.Sqrt(numA) * Math.Sqrt(numB)); return cos; } } 運(yùn)行結(jié)果: 該文章在 2023/3/22 15:50:10 編輯過(guò) |
關(guān)鍵字查詢(xún)
相關(guān)文章
正在查詢(xún)... |