首页新闻招聘找找看知识库
  • 回复:330 浏览:44712 2009-08-14 07:54 来自 eaglet

    盘古分词是一个中英文分词组件。作者eaglet 曾经开发过KTDictSeg 中文分词组件,拥有大量用户。作者基于之前分词组件的开发经验,结合最新的开发技术重新编写了盘古分词组件。

    项目首页:

    http://www.codeplex.com/pangusegment

     

    为了更好的为大家服务,盘古分词的问题解答统一转移到HubbleDotNet 中文社区进行回复,请大家在HubbleDotNet 中文社区提问和交流。

    中文社区网址

    http://hubbledotnet.51aspx.com/

  • eaglet
    2010-11-30 15:06 eaglet
    第251楼 回到顶楼
  • doado
    2011-02-20 09:22 doado
    发现盘古分词不是很理想啊?是我的配置问题吗?
    我的词组是:武汉武大卓越科技,武汉立方科技有限公司
    结果:武汉武/武汉/武大/大/卓越/科技/,武汉立/武汉/立方/方/科技有限公司/
    配置是:<MatchOptions>
    <ChineseNameIdentify>false</ChineseNameIdentify>
    <FrequencyFirst>true</FrequencyFirst>
    <MultiDimensionality>true</MultiDimensionality>
    <FilterStopWords>false</FilterStopWords>
    <IgnoreSpace>true</IgnoreSpace>
    <ForceSingleWord>false</ForceSingleWord>
    <TraditionalChineseEnabled>true</TraditionalChineseEnabled>
    <OutputSimplifiedTraditional>false</OutputSimplifiedTraditional>
    </MatchOptions>
    <Parameters>
    <UnknowRank>1</UnknowRank>
    <BestRank>5</BestRank>
    <SecRank>4</SecRank>
    <ThirdRank>3</ThirdRank>
    <SingleRank>1</SingleRank>
    <NumericRank>1</NumericRank>
    <EnglishRank>5</EnglishRank>
    <SymbolRank>1</SymbolRank>
    <SimplifiedTraditionalRank>1</SimplifiedTraditionalRank>
    <Redundancy>1</Redundancy>
    </Parameters>
    在词典里添加了武大这个词,重新分词还是不理想,分词里有“武汉武”,又把“武大”分开了,还有就是科技有限公司能不能再分细点,科技/有限/公司/有限公司/科技有限公司。求帮助!!!
    第252楼 回到顶楼
  • eaglet
    2011-02-20 18:12 eaglet
    我把字典中加入武大这个词后,分词结果如下:

    武汉(0,5)/武大(2,5)/卓越(4,5)/科技(6,5)/武汉(9,5)/立方(11,5)/科技(13,3)/科技有限公司(13,5)/有限(15,2)/有限公司(15,3)/公司(17,2)/

    你的参数有误,下面是我的参数,另外我的版本是2.3.2.1

    <?xml version="1.0" encoding="utf-8"?>
    <PanGuSettings xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:xsd="http://www.w3.org/2001/XMLSchema" xmlns="http://www.codeplex.com/pangusegment">
    <DictionaryPath>..\Dictionaries</DictionaryPath>
    <MatchOptions>
    <ChineseNameIdentify>false</ChineseNameIdentify>
    <FrequencyFirst>false</FrequencyFirst>
    <MultiDimensionality>true</MultiDimensionality>
    <EnglishMultiDimensionality>true</EnglishMultiDimensionality>
    <FilterStopWords>true</FilterStopWords>
    <IgnoreSpace>true</IgnoreSpace>
    <ForceSingleWord>false</ForceSingleWord>
    <TraditionalChineseEnabled>false</TraditionalChineseEnabled>
    <OutputSimplifiedTraditional>false</OutputSimplifiedTraditional>
    <UnknownWordIdentify>false</UnknownWordIdentify>
    <FilterEnglish>false</FilterEnglish>
    <FilterNumeric>false</FilterNumeric>
    <IgnoreCapital>false</IgnoreCapital>
    <EnglishSegment>false</EnglishSegment>
    <SynonymOutput>false</SynonymOutput>
    <WildcardOutput>false</WildcardOutput>
    <WildcardSegment>false</WildcardSegment>
    <CustomRule>false</CustomRule>
    </MatchOptions>
    <Parameters>
    <UnknowRank>1</UnknowRank>
    <BestRank>5</BestRank>
    <SecRank>3</SecRank>
    <ThirdRank>2</ThirdRank>
    <SingleRank>1</SingleRank>
    <NumericRank>1</NumericRank>
    <EnglishRank>5</EnglishRank>
    <EnglishLowerRank>3</EnglishLowerRank>
    <EnglishStemRank>2</EnglishStemRank>
    <SymbolRank>1</SymbolRank>
    <SimplifiedTraditionalRank>1</SimplifiedTraditionalRank>
    <SynonymRank>1</SynonymRank>
    <WildcardRank>1</WildcardRank>
    <FilterEnglishLength>0</FilterEnglishLength>
    <FilterNumericLength>0</FilterNumericLength>
    <CustomRuleAssemblyFileName>CustomRuleExample.dll</CustomRuleAssemblyFileName>
    <CustomRuleFullClassName>CustomRuleExample.PickupVersion</CustomRuleFullClassName>
    <Redundancy>2</Redundancy>
    </Parameters>
    </PanGuSettings>
    第253楼 回到顶楼
  • 金威
    2011-02-25 11:32 金威
    你好,我刚接触盘古,添加pangu.xml,出现错误,如下面图片
    错误列表,点击查看大图
    文件结构:
    点击查看大图
    第254楼 回到顶楼
  • eaglet
    2011-02-25 20:02 eaglet
    @金威
    把 xml 文件拷贝到bin 目录下就可以运行了。xml 的错误不要去管它,是因为
    xmlns="http://www.codeplex.com/pangusegment" 这个属性造成的。这个错误不影响运行。

    第255楼 回到顶楼
  • ProEditor
    2011-03-28 15:10 ProEditor
    eaglet
    你好!盘古分词怎么样跟数据库交互呢?需要安装HubbleDotNet才行吗?HubbleDotNet支持Sql2000吗?
    第256楼 回到顶楼
  • eaglet
    2011-03-29 05:10 eaglet
    盘古分词只是分词组件,如果你要索引,你需要用它和全文索引组件配合,HubbleDotNet 就是其中的一种全文索引组件,由于都是我开发的,所以HubbleDotNet 自动支持盘古分词。HubbleDotNet 目前支持 Sql2000, Sql2005,Sql2008, MySql, Oracle, Sqlite 这几种数据库。
    第257楼 回到顶楼
  • yuejianjun
    2011-04-29 11:16 yuejianjun
    盘古分词中,是不是 搜索 “上海浦东" 是搜索不到“上海"内容的?

    如果我想使其也能搜索到“上海"内容,排序比匹配 “上海浦东"的要低

    要这样的话,可以怎么弄?
    第258楼 回到顶楼
  • eaglet
    2011-04-29 13:09 eaglet
    多元分词试试,如果不行,删除 上海浦东这个词,让分词器只能分出 上海 和 浦东来,然后搜索时搜 上海 和 浦东 两个词,就可以得到你要的效果。
    第259楼 回到顶楼
  • 距离~
    2011-04-29 21:02 距离~
    你好 我是第一次用盘古分词 我要结合lucene用 可我不知道该怎样把盘古在eclipse中的环境搭起来 可以详细的给我讲解下吗
    第260楼 回到顶楼
  • eaglet
    2011-05-03 11:41 eaglet
    @距离~
    盘古目前只有 .net 版本
    第261楼 回到顶楼
  • 蔡探长
    2011-05-10 17:26 蔡探长
    瑞星的技术和服务真的非常好
    ---------------------------------
    上面这个句子,使用盘古分词会分出“和服"这个词出来,可是这个句子跟“和服"一点搭边都没有,这要怎么解决呢
    第262楼 回到顶楼
  • gone_1
    2011-07-14 10:07 gone_1
    你好,我看在字典文件里面 代|0x1000|0 ,0x1000代表词性,有词性的列表吗,或者在哪可以看到,后面0是什么?
    第263楼 回到顶楼
  • gone_1
    2011-07-14 11:05 gone_1
    词频跟权重有什么区别?
    第264楼 回到顶楼
  • 哲&amp;思
    2011-07-28 10:11 哲&amp;思
    老大,QueryAnalyzer为什么一直连不上服务器。3.5sp1补丁已经打上,连接字符串程序可以连上,为啥这个一直连不上,总是出现“无法从连接中读取数据,连接失败”!
    第265楼 回到顶楼
  • eaglet
    2011-07-28 11:13 eaglet
    检查一下hubble 各个组件的版本
    第266楼 回到顶楼
  • isfish
    2011-08-06 11:26 isfish
    盘古分词的高亮组件对于助词的支持有问题
    比如“的”、“了” 经过高亮后返回空
    第267楼 回到顶楼
  • mahua
    2011-08-11 08:22 mahua
    有个分词rank的问题让我很纠结,可能是我没搞懂的原因吧,例如我
    分词:让世界知道我们都是中国人
    分词结果:让(0,5)/世界(1,5)/知道(3,5)/我们(5,5)/都是(7,5)/中国人(9,5)/

    如果冗余度设置为1,或者2的时候,rank就不光光是5的了,可能有5以下的。

    我的问题是:一个句子或者说一篇文章中,rank值那么是5的非常多,我怎么抽取到最重要的前N个词组呢?(我现在的做法是:把ICollection<WordInfo>按照WordInfo.Rank进行了排序),但排序出来的效果不理想,因为rank 为5的词特别多,我只想取最重要的10条或者更少,
    我有两个思路:
    1、通过词库,设置词频的办法。通过rank+词频综合出来一个重要度的分值,按照这个分值来排序
    2、计算出每个分词在文章中出现的次数(不过这个方法有点白痴啊,一篇文章至少要分出一把多个词组)
    这怎么处理呢,难道我钻牛角尖了?能否给我个思路?谢谢各位
    第268楼 回到顶楼
  • eaglet
    2011-08-14 18:23 eaglet
    那个rank 并不是用于指示重要度的,要提取重要的词有专门的算法。
    第269楼 回到顶楼
  • 屠夫的哥哥
    2011-08-15 16:21 屠夫的哥哥
    刚接触盘古分词,出现这个问题,组长如何解决啊
    报告访问被拒绝
    地址:http://www.souyou.so/Des/DesShow.aspx?DesCode=100003
    BIN目录已经给network service 全选控制,依然报告这个错误
    BIN目录文件:PanGu.dll ,Dict词典目录


    第270楼 回到顶楼
  • monkey&#39;s
    2011-08-16 10:42 monkey&#39;s
    问题描述:索引文件建立有一个礼拜,一直在用,突然今天提示我:
    对路径“D:\work\ifeng\Web\question_indexs\View_Quesion_Answer_Result\0000008Title.ddx"的访问被拒绝。
    在 System.IO.__Error.WinIOError(Int32 errorCode, String maybeFullPath)
    在 System.IO.FileStream.Init(String path, FileMode mode, FileAccess access, Int32 rights, Boolean useRights, FileShare share, Int32 bufferSize, FileOptions options, SECURITY_ATTRIBUTES secAttrs, String msgPath, Boolean bFromProxy)
    在 Hubble.Framework.IO.CachedFileStream..ctor(CachedType type, Int32 minCacheLength, String path, FileMode mode, FileAccess access, FileShare share) 位置 C:\Documents and Settings\Administrator\桌面\bug_list\hubbledotnet-78184\C#\src\Hubble.Framework\Hubble.Framework\IO\CachedFileStream.cs:行号 149
    在 Hubble.Framework.IO.CachedFileStream..ctor(String path, FileMode mode, FileAccess access) 位置 C:\Documents and Settings\Administrator\桌面\bug_list\hubbledotnet-78184\C#\src\Hubble.Framework\Hubble.Framework\IO\CachedFileStream.cs:行号 127
    在 Hubble.Core.Store.DDXFile..ctor(String filePath, Mode mode) 位置 C:\Documents and Settings\Administrator\桌面\bug_list\hubbledotnet-78184\C#\src\Hubble.Data\Hubble.Core\Store\DDXFile.cs:行号 118
    在 Hubble.Core.Store.IndexWriter..ctor(Int32 serial, String path, String fieldName, IndexMode indexMode) 位置 C:\Documents and Settings\Administrator\桌面\bug_list\hubbledotnet-78184\C#\src\Hubble.Data\Hubble.Core\Store\IndexWriter.cs:行号 81
    在 Hubble.Core.Store.IndexFile.CreateIndexFile(IndexMode indexMode) 位置 C:\Documents and Settings\Administrator\桌面\bug_list\hubbledotnet-78184\C#\src\Hubble.Data\Hubble.Core\Store\IndexFile.cs:行号 597
    在 Hubble.Core.Store.IndexFile.Create(String fieldName, Boolean createNew, IndexMode indexMode) 位置 C:\Documents and Settings\Administrator\桌面\bug_list\hubbledotnet-78184\C#\src\Hubble.Data\Hubble.Core\Store\IndexFile.cs:行号 669
    在 Hubble.Core.Store.IndexFileProxy..ctor(String path, String fieldName, Boolean rebuild, IndexMode indexMode, DBProvider dbProvider) 位置 C:\Documents and Settings\Administrator\桌面\bug_list\hubbledotnet-78184\C#\src\Hubble.Data\Hubble.Core\Store\IndexFileProxy.cs:行号 1298
    在 Hubble.Core.Data.DBProvider.Open() 位置 C:\Documents and Settings\Administrator\桌面\bug_list\hubbledotnet-78184\C#\src\Hubble.Data\Hubble.Core\Data\DBProvider.cs:行号 1252

    索引文件挂了?还是我又什么操作导致了呢?

    第271楼 回到顶楼
  • monkey&#39;s
    2011-08-16 10:44 monkey&#39;s
    索引突然坏掉,然后重新启动一下服务就好了!
    第272楼 回到顶楼
  • 哲 思
    2011-08-21 23:18 哲 思
    老大,有一个问题,不知道你发现没?当我输入一个不分词的词组,如果这个词组在结果中的首位的话,就得不到结果,如:我执行select between 0 to 9 * from News where title contains '李盛霖^1^0' order by score desc的时候,
    李盛霖强调交通建设领域必须先下拨农民工工资
    李毅中李盛霖赶赴湖南凤凰坍塌事故现场
    这两条数据根本不会出来,想知道这是为啥
    第273楼 回到顶楼
  • 哲 思
    2011-08-23 09:11 哲 思
    现在的like方式,不能用and多条件查询
    第274楼 回到顶楼
  • yuxiang
    2011-09-01 23:54 yuxiang
    请问楼主一个问题

    请问lucene.net的索引 怎么与数据库同步呢,请问有什么好的策略
    第275楼 回到顶楼
  • yuxiang
    2011-09-02 17:46 yuxiang
    请问楼主一个问题,为什么Pangu.Segment.Init(fileName) 加载错误,我有Pangu.xml文件的路径,可是每次都不加载这个,会自动在bin目录生成一个Pangu.xml,这是为什么呢
    第276楼 回到顶楼
  • eaglet
    2011-09-11 07:13 eaglet
    @yuxiang
    不是自动生成,是你把 pangu.xml 放到VS项目中了,并且没有设置 copy local = false
    第277楼 回到顶楼
  • Jessica_sqh
    2011-10-06 10:49 Jessica_sqh
    请问,怎么用盘古分词软件做词性标注呢?我没找到这一项,求指点,谢谢啦
    第278楼 回到顶楼
  • 不出茅庐
    2011-10-20 16:11 不出茅庐
    楼主,我想问一下,如果我只是想从一篇文章里面,找出在词库里面出现的频率较高的词,(词库)自己重新维护,是可以实现的吗?现在分词会把空格,也区分开来了。如果可以的话,请麻烦给下思路。或者给我发邮件: linsx1987@126.com 谢谢!盼回复
    第279楼 回到顶楼
  • yqf79
    2011-11-25 08:25 yqf79
    盘古能用于c++或delphi吗
    第280楼 回到顶楼
  • 知多一点点
    2011-12-07 21:25 知多一点点
    已解决
    第281楼 回到顶楼
  • Jason_cao
    2011-12-19 19:28 Jason_cao
    怎么设置,可以使搜索结果更精确些? 目前我们的需求是 搜索条数更少,更精确,使用默认的盘古配置,分词和搜索结果太多了,我们需要更准确些,比如 多元分词,如果设置为false是不是就是按二元分词? 总之,如何设置可以更精确? 如何设置搜索按标题权重匹配更高的排在前面?
    第282楼 回到顶楼
  • Jason_cao
    2011-12-26 13:09 Jason_cao
    盘古分词的高亮有bug,会在个别搜索词后多出一节“<font color=\"red\">""没有结尾的标记,给我测试费啊。
    第283楼 回到顶楼
  • I day-day-up↑
    2011-12-30 11:13 I day-day-up↑
    请问,我想把盘古分词用于提取文章的关键字的程序中,怎么才能提取出出现次数最高的前几个词呢?
    第284楼 回到顶楼
  • junming68
    2012-01-10 11:33 junming68
    请问怎么用盘古分词做词性标注?
    标注成 今天/n 是/v 这样的形式?可以吗?
    第285楼 回到顶楼
  • 守、望
    2012-03-19 17:35 守、望
    楼主您好!
    我想把 成都市武侯区玉林街26号附23号 分词成为
    成都市
    武侯区
    玉林街
    26号
    附23号
    我把 26号和附23号 都加入了词典.用盘古分词自带的词典管理工具也可以搜索到,但是 用代码 分出来的是 成都市
    武侯区
    玉林街
    26


    23

    好像是默认不让数字和汉字放在一起,但是我已经把26号定义为1个词加到了词典.请楼主指点啊,感谢!!
    第286楼 回到顶楼
  • spiralyu
    2012-04-14 14:11 spiralyu
    楼主您好,与第285楼遇到相同问题,如"6月"这个词无法完整输出,会强制输出为"6"、"月"两字,
    虽然可以使用自定义规则强制将断词结果合并,但如果"6月"这个词也是同义词组的一部分,就无法一并输出其他同义词了
    请问是否有其他办法解决,谢谢
    第287楼 回到顶楼
  • 虚心学习者
    2012-04-15 12:56 虚心学习者
    亲爱的eaglet,您好!我自己写了个逆向最大匹配分词算法,基于您的盘古字典,可是效率极低,比您的盘古分词分词速度大概慢了大概60倍。不知道您是写的什么算法能有如此高效的分词效率!
    第288楼 回到顶楼
  • cncqc
    2012-05-13 23:39 cncqc
    案例一:
    --------------------------------------------------------
    婴幼儿

    分词结果:婴(0,1)/婴幼儿(0,5)/幼(1,1)/儿(2,1)/

    查词库:确认“婴幼儿"和“幼儿"这两个词在词库中均存在,未解,为什么无法切分出“幼儿"这个词。

    案例二:
    --------------------------------------------------------
    成年人

    分词结果:成(0,1)/成年(0,3)/成年人(0,5)/年(1,1)/人(2,1)/
    完全正确。

    望楼主解答一下,感谢。
    第289楼 回到顶楼
  • 小luo
    2012-05-19 08:45 小luo
    不知道这的回复还有人能看到吗。盘古里能输出近义词 那么我怎么样去替换近义词呢?
    第290楼 回到顶楼
  • 471991253
    2012-06-10 13:27 471991253
    楼主你好,我在尝试分词时遇到问题,就是发现在分词后原有的标点符号都被清除,而我需要在分词的同时保留标点符号,请问在分词配置中有这项设置么??
    谢谢楼主无私的开源精神!!!
    第291楼 回到顶楼
  • 今昭
    2012-06-11 15:55 今昭
    @小luo
    替换近义词什么意思?
    其实同义词都在一个文件里,你找下就有了,同一行表示一组同义词(不过源文件里都是两个词,实际上如果多个同义词可以放在同一行)
    如果这里没人回答可以在博问中问:地址
    第292楼 回到顶楼
  • 今昭
    2012-06-11 15:56 今昭
    @Gincenzo
    stopwords这个文件里去掉你需要分词的词就好了
    第293楼 回到顶楼
  • 今昭
    2012-06-11 15:56 今昭
    @Jessica_sqh
    词性标注什么意思?
    第294楼 回到顶楼
  • 今昭
    2012-06-11 15:57 今昭
    @不出茅庐
    这个不需要盘古的,你只要开启term vector,lucene就会统计相应term在这个document中出现的次数并记录的。
    第295楼 回到顶楼
  • 今昭
    2012-06-11 15:59 今昭
    @yqf79
    开源的,你翻一下好了,不过lucene c++版本的问题的先解决,哥们其实c#很简单,与其翻译不如直接用c#吧
    第296楼 回到顶楼
  • 今昭
    2012-06-11 16:01 今昭
    @Jason_cao
    不是bug吧,应该是你自己的截断有问题,每个fregment前后的标签都是成对的。
    第297楼 回到顶楼
  • 今昭
    2012-06-11 16:01 今昭
    @I day-day-up↑
    你看下termvector的内容就可以解决。
    第298楼 回到顶楼
  • 今昭
    2012-06-11 16:02 今昭
    @守、望
    这个跟内部的分词顺序有关系,呵呵,盘古应该先适应词典才对。
    第299楼 回到顶楼
  • 今昭
    2012-06-11 16:04 今昭
    @cncqc
    哈哈,同学我也碰到了这个bug,大概原因我是知道的,就是盘古现在用的算法无法对比较短的语句在回退计算词的时候会出现这个问题。
    第300楼 回到顶楼
登录后才能评论,请先登录注册