狠狠色丁香婷婷综合尤物/久久精品综合一区二区三区/中国有色金属学报/国产日韩欧美在线观看 - 国产一区二区三区四区五区tv

LOGO OA教程 ERP教程 模切知識交流 PMS教程 CRM教程 開發文檔 其他文檔  
 
網站管理員

C# 比較兩文本相似度

admin
2023年3月22日 16:41 本文熱度 1365

這個比較文本用到的主要是余弦定理比較文本相似度,具體原理右轉某度,主要適用場景是在考試系統中的簡答題概述,可根據權重自動打分,感覺實用性蠻廣的。

先說下思路:

  1. 文本分詞,中文于英文不同,規范的英文每個都有空格自動分詞,中文則是連成長串,我們只有一一比對每個詞出現的頻率做簡單的比較,在這里使用到了SCWS的一個分詞api接口http://www.ftphp.com/scws/api.php(僅支持POST,因為要模擬Http請求,所以請求時間也是根據具體環境而定,所以可以自己手寫一些字典,本地分詞要來的快)。但是用此接口分詞過程中,標點符號不會被去掉,所以需要自己手動寫方法去掉標點。

  2. 獲取兩個文本的去重復并集

  3. 比較每個詞出現的頻率

  4. 根據余弦定理計算權重

下面是具體的代碼段(請求是在網上找的,原鏈接找不到了。。)

class Program

{

    static void Main(string[] args)

    {

        Console.Write(Sim("床前明月光,疑是地上霜", "床前明月光,疑是地上霜"));

    }

    public static double Sim(string txt1, string txt2)

    {

        List<string> sl1 = Segment(txt1);

        List<string> sl2 = Segment(txt2);

        //去重

        List<string> sl = sl1.union(sl2).ToList<string>();

        //獲取重復次數

        List<int> arrA = new List<int>();

        List<int> arrB = new List<int>();


        foreach (var str in sl)

        {

            arrA.Add(sl1.where(x => x == str).Count());

            arrB.Add(sl2.where(x => x == str).Count());

        }

        //計算商

        double num = 0;

        //被除數

        double numA = 0;

        double numB = 0;

        for (int i = 0; i < sl.Count; i++)

        {

            num += arrA[i] * arrB[i];

            numA += Math.Pow(arrA[i], 2);

            numB += Math.Pow(arrB[i], 2);

        }

        double cos = num / (Math.Sqrt(numA)* Math.Sqrt(numB));

        return cos;

    }

    public static List<string> Segment(string str)

    {

        List<string> sl = new List<string>();

        try

        {

            string s = string.Empty;

            System.Net.CookieContainer cookieContainer = new System.Net.CookieContainer();

            // 將提交的字符串數據轉換成字節數組

            byte[] postData = System.Text.Encoding.ASCII.GetBytes("data=" + System.Web.HttpUtility.UrlEncode(str) + "&respond=json&charset=utf8&ignore=yes&duality=no&traditional=no&multi=0");


            // 設置提交的相關參數

            System.Net.HttpWebRequest request = System.Net.WebRequest.create("http://www.ftphp.com/scws/api.php") as System.Net.HttpWebRequest;

            request.Method = "POST";

            request.KeepAlive = false;

            request.ContentType = "application/x-www-form-urlencoded";

            request.CookieContainer = cookieContainer;

            request.ContentLength = postData.Length;


            // 提交請求數據

            System.IO.Stream outputStream = request.GetRequestStream();

            outputStream.Write(postData, 0, postData.Length);

            outputStream.Close();


            // 接收返回的頁面

            System.Net.HttpWebResponse response = request.GetResponse() as System.Net.HttpWebResponse;

            System.IO.Stream responseStream = response.GetResponseStream();

            System.IO.StreamReader reader = new System.IO.StreamReader(responseStream, System.Text.Encoding.GetEncoding("utf-8"));

            string val = reader.ReadToEnd();


            Newtonsoft.Json.Linq.JObject results = Newtonsoft.Json.Linq.JObject.Parse(val);

            foreach (var item in results["words"].Children())

            {

                Newtonsoft.Json.Linq.JObject word = Newtonsoft.Json.Linq.JObject.Parse(item.ToString());

                var sss = word["word"].ToString();

                //判斷是否為標點符

                bool offom = false;

                foreach (char t in sss)

                {

                    if (t >= 0x4e00 && t <= 0x9fbb)

                    {

                        offom = true;

                    }

                    else

                    {

                        offom = false;

                    }

                }

                if (offom)

                {

                    sl.Add(sss);

                }

            }

        }

        catch

        {

        }


        return sl;

    }

}

  以上感覺很多地方都可以優化,以后想到更好的再重新來一遍。


該文章在 2025/2/24 14:40:07 編輯過
關鍵字查詢
相關文章
正在查詢...
點晴ERP是一款針對中小制造業的專業生產管理軟件系統,系統成熟度和易用性得到了國內大量中小企業的青睞。
點晴PMS碼頭管理系統主要針對港口碼頭集裝箱與散貨日常運作、調度、堆場、車隊、財務費用、相關報表等業務管理,結合碼頭的業務特點,圍繞調度、堆場作業而開發的。集技術的先進性、管理的有效性于一體,是物流碼頭及其他港口類企業的高效ERP管理信息系統。
點晴WMS倉儲管理系統提供了貨物產品管理,銷售管理,采購管理,倉儲管理,倉庫管理,保質期管理,貨位管理,庫位管理,生產管理,WMS管理系統,標簽打印,條形碼,二維碼管理,批號管理軟件。
點晴免費OA是一款軟件和通用服務都免費,不限功能、不限時間、不限用戶的免費OA協同辦公管理系統。
Copyright 2010-2025 ClickSun All Rights Reserved