java版本结巴分词算法bug[通俗易懂]

编程汇总 • 2025-02-17 16:40 • 阅读 110

java版本结巴分词算法bug[通俗易懂]Never to late 所以明天再做也不会晚结巴分词的过程是 1 根据 dict txt 中的词库构建一棵 trie 树这棵树的实例只有一个采取单例模式 2 每来一次分词构造就顺着 trie 树进行分词这将产生很多种结果于是就生成了一个 DGA 分词的有向无环图终点是句子的左边或者右边实际上应该分别以左边和右边为终点来做处理 3 利用动态规划从句子的终点开始

Never to late。所以明天再做也不会晚

结巴分词的过程是：
1、根据dict.txt中的词库构建一棵trie树，这棵树的实例只有一个，采取单例模式。
2、每来一次分词构造，就顺着trie树进行分词，这将产生很多种结果，于是就生成了一个DGA，分词的有向无环图，终点是句子的左边或者右边（实际上应该分别以左边和右边为终点来做处理）。
3、利用动态规划，从句子的终点开始，到这算回去（这个在动态规划中很常见，概率dp）：对DGA中查找最大的概率的分词路径，路径上的词语就是分词结果。
4、返回分词结果。

bug1：在实现单例模式的时候，作者用的如下方法

public class WordDictionary{ 

   
private static WordDictionary singleton;
public static WordDictionary getInstance() { 

   

        if (singleton == null) { 

   

            synchronized (WordDictionary.class) { 

   

                if (singleton == null) { 

   

                    singleton = new WordDictionary();

                    return singleton;

                }

            }

        }

        return singleton;

    }

}

这种双重锁的方式，在并发场景下，是不安全的，为了避免java编译器对代码进行重排序，应该改为如下形式

private static volatile WordDictionary singleton;

public static WordDictionary getInstance() { 

   

   if (singleton == null) { 

   

        synchronized (WordDictionary.class) { 

   

            if (singleton == null) { 

   

                singleton = new WordDictionary();

                return singleton;

            }

        }

    }

    return singleton;

}

bug2：使用trie树对待分词句子建立DGA的时候采取递归建树，使得大量DictSegment和DictSegment[]堆积，对内存消耗特别严重。使用visual vm进行测试可以发现，将该分词加入到项目中一段时间后，在内存中可以看见DictSegment和DictSegment[]的占比非常高，如果老年代不够大，很有可能会引起OutOfMemory的异常

 Hit match(char[] charArray, int begin, int length, Hit searchHit) { 

   



        if (searchHit == null) { 

   

            // 如果hit为空，新建

            searchHit = new Hit();

            // 设置hit的起始文本位置

            searchHit.setBegin(begin);

        } else { 

   

            // 否则要将HIT状态重置

            searchHit.setUnmatch();

        }

        // 设置hit的当前处理位置

        searchHit.setEnd(begin);

        //设置起始字符为当前字典树的根节点

        Character   keyChar = new Character(charArray[begin]);

        //该keyChar对应的DictSegment

        DictSegment ds      = null;



        // 引用实例变量为本地变量，避免查询时遇到更新的同步问题

        DictSegment[]               segmentArray = this.childrenArray;

        Map segmentMap   = this.childrenMap;



        // STEP1 在节点中查找keyChar对应的DictSegment

        if (segmentArray != null) { 

   

            // 在数组中查找

            DictSegment keySegment = new DictSegment(keyChar);

            int         position   = Arrays.binarySearch(segmentArray, 0, this.storeSize, keySegment);

            if (position >= 0) { 

   

                ds = segmentArray[position];

            }



        } else if (segmentMap != null) { 

   

            // 在map中查找

            ds = (DictSegment) segmentMap.get(keyChar);

        }



        // STEP2 找到DictSegment，判断词的匹配状态，是否继续递归，还是返回结果

        if (ds != null) { 

   

            if (length > 1) { 

   

                // 词未匹配完，继续往下搜索

                return ds.match(charArray, begin + 1, length - 1, searchHit);

            } else if (length == 1) { 

   



                // 搜索最后一个char

                if (ds.nodeState == 1) { 

   

                    // 添加HIT状态为完全匹配

                    searchHit.setMatch();

                }

                if (ds.hasNextNode()) { 

   

                    // 添加HIT状态为前缀匹配

                    searchHit.setPrefix();

                    // 记录当前位置的DictSegment

                    searchHit.setMatchedDictSegment(ds);

                }

                return searchHit;

            }



        }

        // STEP3 没有找到DictSegment， 将HIT设置为不匹配

        return searchHit;

    }

编程小号

2025年高等数学解题神器app_ubuntu cp命令

上一篇 2025-03-08 08:51

备忘录模式实例_iphone语音备忘录无法分享

下一篇 2025-01-27 18:57

2025年高等数学解题神器app_ubuntu cp命令 1737022313
2025年Ora：12154 PLsql连接报错 1737022310
TLS 工作原理 1737022309
2025年docker-jenkins部署cmake自动构建[通俗易懂] 1737022307
Away3D基础教程（二）：加载外部模型[通俗易懂] 1737022304
与oracle相比,mysql有什么优势_sql数据库和oracle数据库 1737022303
2025年linux常用命令解释_vim常用命令总结 1737022297
virtualbox怎么安装windows10_安装ubuntu教程 1737022294
2025年Java 继承（extends）详解 1737022293
备忘录模式实例_iphone语音备忘录无法分享 1737022322
c++ 线程间通信方式 1737022323
2025年HDFS分布式文件存储系统详解 1737022329
jmeter并发不同请求_jmeter3000个并发怎么测 1737022333
python+pycharm安装_pycharm安装教程2020 1737022339
2025年2021必看！java电子书合集，值得收藏！[通俗易懂] 1737022344
2025年java 删除目录下所有文件_Java删除文件、目录及目录下所有文件的方法实例 1737022355
2025年jquery validation engine ajax验证,jQuery Validation Engine 表单验证「建议收藏」 1737022356
2025年layoutSubviews总结 1737022359

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至举报，一经查实，本站将立刻删除。
如需转载请保留出处：https://bianchenghao.cn/hz/134950.html