首页新闻招聘找找看知识库
  • 回复:330 浏览:44793 2009-08-14 07:54 来自 eaglet

    盘古分词是一个中英文分词组件。作者eaglet 曾经开发过KTDictSeg 中文分词组件,拥有大量用户。作者基于之前分词组件的开发经验,结合最新的开发技术重新编写了盘古分词组件。

    项目首页:

    http://www.codeplex.com/pangusegment

     

    为了更好的为大家服务,盘古分词的问题解答统一转移到HubbleDotNet 中文社区进行回复,请大家在HubbleDotNet 中文社区提问和交流。

    中文社区网址

    http://hubbledotnet.51aspx.com/

  • lab7202727
    2012-06-14 15:13 lab7202727
    你好,楼主
    state.Id must be equal to States index!
    at PanGu.Framework.DFA`2.AddState(DFAState`2 state)
    at PanGu.Framework.Lexical.InitIdentifierStates()
    at PanGu.Framework.Lexical.InitDFAStates()
    at PanGu.Framework.Lexical.Initialize()
    at PanGu.Framework.Lexical.Init()
    at PanGu.Framework.DFA`2.Input(Int32 action, Token token)
    at PanGu.Segment.GetInitSegment(String text)
    at PanGu.Segment.PreSegment(String text)
    at PanGu.Segment.DoSegment(String text, MatchOptions options, MatchParameter parameters)
    这个错误是什么原因导致的?
    不是每次都这样的,只是偶尔的出现这个错误
    第301楼 回到顶楼
  • dcr212
    2012-06-16 15:27 dcr212
    请问楼主,在中英文混合词汇中怎么设置分词?
    比如 U盘,t恤

    词库中存在这两个词汇

    我在调试的时候发现在分词时是先打断语句,中文和英文打断,请问如何解决这个问题?
    第302楼 回到顶楼
  • 瀞默
    2012-07-21 09:33 瀞默
    请问运行页面时,没报错,弹点击确定时,报"directory 'F:\Login\Web\bin\NewsIndex' does not exist "错,请问应该怎样修改?
    第303楼 回到顶楼
  • 莫耶
    2012-10-03 02:19 莫耶
    如果被分词的字段中包含了 '['、']' 这两个符号,查询时,包含有关键词的文档就查询不出来,您有什么建议没有?
    第304楼 回到顶楼
  • net-亮
    2012-10-12 10:07 net-亮
    我想问一下,盘古分词怎么调用pangu.xml文件里面的配置啊, 我的项目没有放pangu.xml文件也能用,我想配置一下pangu.xml里面的配置
    第305楼 回到顶楼
  • 一刻
    2012-10-16 16:41 一刻
    <SymbolRank>3</SymbolRank>
    近义词权重居然设置这个,有问题,另外高亮近义词的时候,比如有句话“北方的小孩很聪明",如果“小孩",“小孩子"是近义词,那么在高亮的时候会出问题,“小孩很"高亮了,高亮的数字总 是取近义词中字数最多的一个。

    总结:两个问题,1:近义词权重配置搞混。2:高亮出问题。
    在线等回复。
    第306楼 回到顶楼
  • Freedom.Z
    2012-10-19 09:47 Freedom.Z
    如何把人名识别出来后也把不带姓的人名作为分词结果呢?比如全名“张自银"分词的结果就有“张自银/自银"这两个,谢谢!
    第307楼 回到顶楼
  • 圣帝明王
    2012-11-07 10:43 圣帝明王
    请问,突然出现了“Can't order by none index fields with score or docid"
    不知道是什么意思?
    第308楼 回到顶楼
  • 地菜
    2012-11-28 10:44 地菜
    想问下如何抽取一段内容中出现的高频词条 ,是想作为seo的meta-keywords
    类似的,如何获取摘要内容 ?
    第309楼 回到顶楼
  • 大道无情
    2012-12-20 17:22 大道无情
    请问如何过滤 在,的,地,了 这些没有意义的通用词?在结果输出中过滤掉?
    第310楼 回到顶楼
  • gion
    2013-01-01 21:15 gion
    请问盘古什么时候兼容lucene.net 3.0.3
    第311楼 回到顶楼
  • cdboy
    2013-01-09 11:44 cdboy
    什么时候出lucene.net 3.0.3的版本,期待中,
    第312楼 回到顶楼
  • 孤狼独啸
    2013-02-20 11:14 孤狼独啸
    我现在用的是2.3.1.0版本,在输出同义词时,发现有个问题。
    在Synonym.txt文件中,有个“山大,山东大学"的同义词对,但是总是无法输出,分词结果总是“山/大",其它同义词正常。
    这是不是一个bug?
    第313楼 回到顶楼
  • 大漠孤鹰
    2013-03-09 11:52 大漠孤鹰
    楼主,我在用盘古执行搜索时,出现内存溢出的问题,是怎么造成的呢,有没有什么好的解决办法
    第314楼 回到顶楼
  • khaos
    2013-03-23 17:04 khaos
    同求能支持lucene.net 3.0.3,的盘古分词。。。。。谢谢了。。。
    第315楼 回到顶楼
  • 张忠伟
    2013-05-21 13:50 张忠伟
    @大漠孤鹰
    你的问题我猜主要是seacher 的时候每次都加载一个新的实例,所以产生这个问题。

    把 seacher 做成单例,indexreader 也做成单例,你可以参看网上具体例子。

    注意每次重新添加的索引的时候 indexreader 要 reopen()

    if(!reader.IsCurrent())
    {
    indexreader = indexreader.reopn();
    }

    lucene 不同版本的实现不同,具体参看 API ,思路就是这个思路。
    第316楼 回到顶楼
  • 小准
    2013-10-25 19:42 小准
    您好,我用盘古分词高亮的时候出现了一个问题。
    代码是这样写的:
    static string strPreview(string body, string keyword)
    {
    PanGu.HighLight.SimpleHTMLFormatter simpleHTMLFormatter = new PanGu.HighLight.SimpleHTMLFormatter("<b style=' font-family:微软雅黑; color:#FF6666'>", "</b>");
    PanGu.HighLight.Highlighter highlighter = new PanGu.HighLight.Highlighter(simpleHTMLFormatter, new Segment());
    highlighter.FragmentSize = 100;
    string bodyPreview = highlighter.GetBestFragment(keyword, body);
    return bodyPreview;
    }
    然后,发现可以高亮,但是只是将有关键字的字段给高亮了。这个字段没有关键字的话,数据就没了,变成了空。请问有什么解决办法么?~
    第317楼 回到顶楼
  • Husch
    2013-11-13 13:47 Husch
    你好,我刚接触这个,现在我需要盘古的接口,传入一段关键字,可以根据关键字搜索有用的信息,我做的是c# winform , 可是我完全不知道从何下手,不晓得老师是否可以教导一下 谢谢 我的QQ 774215877
    第318楼 回到顶楼
  • lumia麦小迪
    2014-01-07 16:05 lumia麦小迪
    您好的,现在做的项目需要做全文搜索的功能,但是由于是具体到行业的,所以该行业相关的关键词需要特别增加权重,优先匹配,请问怎么处理比较好呢?需要有自己的词库么?
    第319楼 回到顶楼
  • markzzx
    2014-02-27 15:50 markzzx
    字典库的操作有接口吗?
    第320楼 回到顶楼
  • 屹屴
    2014-03-25 15:47 屹屴
    我导入了一些特殊名词,如“VGA接口",“Java技术",“Internet协议",“PDF417条码"等,还有些是英文后置或剧中的,但都是作为一个词添加的,但在分词时会从中英文之间断开识别为多个词,有没有办法优先词典内容,不做切分,谢谢。
    第321楼 回到顶楼
  • formyseo
    2014-06-23 18:03 formyseo
    @Gincenzo
    我刚在找这个问题,我现在发现了,只要把过滤停用设置为false 就可以了
    第322楼 回到顶楼
  • c++study
    2014-07-07 10:36 c++study
    项目名:Fanyi Helper
    网址:http://www.smo-software.com/fanyi-helper/
    项目介绍:Fanyi Helper是一个翻译辅助软件。
    第323楼 回到顶楼
  • meiguiyu00
    2015-03-18 10:01 meiguiyu00
    分词遇到问题,我的词典库里包含"1号店""1美元"等数字与汉字结合的词典,但是用ktTokenizer.SegmentToWordInfos(keywords)方法进行分词,还是把我的数字跟汉字拆开了,纯中文词典没问题。

    @eaglet
    第324楼 回到顶楼
  • 挂雪的树枝
    2015-04-07 16:43 挂雪的树枝
    @eaglet
    请问楼主,我的字典里包含“X线摄影”这样字母加汉字的词语,可是还是分开了,这种问题该怎么解决呢?
    第325楼 回到顶楼
  • 挂雪的树枝
    2015-04-07 16:47 挂雪的树枝
    @屹屴
    你好,同样的问题我也碰到了 不知道你怎么解决的呢?
    第326楼 回到顶楼
  • 挂雪的树枝
    2015-05-25 09:59 挂雪的树枝
    @守、望
    请问你解决这个问题了吗?我也碰到了相似的问题,想请教你一下
    第327楼 回到顶楼
  • 老牛在路上
    2016-02-22 18:03 老牛在路上
    我用demo测试,发现不能识别出日期,
    例如“该片于2016年2月8日在中国上映”,分词后被识别成“该片/于/2016/年/2/月/8/日/在/中国/上映/”
    怎么样设置能识别成“该片/于/2016年2月8/日/在/中国/上映/”
    第328楼 回到顶楼
  • 业荒于嬉
    2016-04-12 20:55 业荒于嬉
    请问盘古分词支持哪些编码格式呀?
    第329楼 回到顶楼
  • 岁月w
    2016-06-06 13:33 岁月w
    楼主楼主,我想请教下,PanGu.xml文件配置问题。我修改了xml 的配置文件怎么样才能生效呢。
    第330楼 回到顶楼
登录后才能评论,请先登录注册