package posseg import ( "testing" ) var ( seg, _ = LoadDictionaryAt("../dict.txt") testContents = []string{ "这是一个伸手不见五指的黑夜。我叫孙悟空,我爱北京,我爱Python和C++。", "我不喜欢日本和服。", "雷猴回归人间。", "工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作", "我需要廉租房", "永和服装饰品有限公司", "我爱北京天安门", "abc", "隐马尔可夫", "雷猴是个好网站", "“Microsoft”一词由“MICROcomputer(微型计算机)”和“SOFTware(软件)”两部分组成", "草泥马和欺实马是今年的流行词汇", "伊藤洋华堂总府店", "中国科学院计算技术研究所", "罗密欧与朱丽叶", "我购买了道具和服装", "PS: 我觉得开源有一个好处,就是能够敦促自己不断改进,避免敞帚自珍", "湖北省石首市", "湖北省十堰市", "总经理完成了这件事情", "电脑修好了", "做好了这件事情就一了百了了", "人们审美的观点是不同的", "我们买了一个美的空调", "线程初始化时我们要注意", "一个分子是由好多原子组织成的", "祝你马到功成", "他掉进了无底洞里", "中国的首都是北京", "孙君意", "外交部发言人马朝旭", "领导人会议和第四届东亚峰会", "在过去的这五年", "还需要很长的路要走", "60周年首都阅兵", "你好人们审美的观点是不同的", "买水果然后来世博园", "买水果然后去世博园", "但是后来我才知道你是对的", "存在即合理", "的的的的的在的的的的就以和和和", "I love你,不以为耻,反以为rong", "因", "", "hello你好人们审美的观点是不同的", "很好但主要是基于网页形式", "hello你好人们审美的观点是不同的", "为什么我不能拥有想要的生活", "后来我才", "此次来中国是为了", "使用了它就可以解决一些问题", ",使用了它就可以解决一些问题", "其实使用了它就可以解决一些问题", "好人使用了它就可以解决一些问题", "是因为和国家", "老年搜索还支持", "干脆就把那部蒙人的闲法给废了拉倒!RT @laoshipukong : 27日,全国人大常委会第三次审议侵权责任法草案,删除了有关医疗损害责任“举证倒置”的规定。在医患纠纷中本已处于弱势地位的消费者由此将陷入万劫不复的境地。 ", "大", "", "他说的确实在理", "长春市长春节讲话", "结婚的和尚未结婚的", "结合成分子时", "旅游和服务是最好的", "这件事情的确是我的错", "供大家参考指正", "哈尔滨政府公布塌桥原因", "我在机场入口处", "邢永臣摄影报道", "BP神经网络如何训练才能在分类时增加区分度?", "南京市长江大桥", "应一些使用者的建议,也为了便于利用NiuTrans用于SMT研究", "长春市长春药店", "邓颖超生前最喜欢的衣服", "胡锦涛是热爱世界和平的政治局常委", "程序员祝海林和朱会震是在孙健的左面和右面, 范凯在最右面.再往左是李松洪", "一次性交多少钱", "两块五一套,三块八一斤,四块七一本,五块六一条", "小和尚留了一个像大和尚一样的和尚头", "我是中华人民共和国公民;我爸爸是共和党党员; 地铁和平门站", "张晓梅去人民医院做了个B超然后去买了件T恤", "AT&T是一件不错的公司,给你发offer了吗?", "C++和c#是什么关系?11+122=133,是吗?PI=3.14159", "你认识那个和主席握手的的哥吗?他开一辆黑色的士。", "枪杆子中出政权"} defaultCutResult = [][]Segment{{{"这", "r"}, {"是", "v"}, {"一个", "m"}, {"伸手不见五指", "i"}, {"的", "uj"}, {"黑夜", "n"}, {"。", "x"}, {"我", "r"}, {"叫", "v"}, {"孙悟空", "nr"}, {",", "x"}, {"我", "r"}, {"爱", "v"}, {"北京", "ns"}, {",", "x"}, {"我", "r"}, {"爱", "v"}, {"Python", "eng"}, {"和", "c"}, {"C++", "nz"}, {"。", "x"}}, {{"我", "r"}, {"不", "d"}, {"喜欢", "v"}, {"日本", "ns"}, {"和服", "nz"}, {"。", "x"}}, {{"雷猴", "n"}, {"回归", "v"}, {"人间", "n"}, {"。", "x"}}, {{"工信处", "n"}, {"女干事", "n"}, {"每月", "r"}, {"经过", "p"}, {"下属", "v"}, {"科室", "n"}, {"都", "d"}, {"要", "v"}, {"亲口", "n"}, {"交代", "n"}, {"24", "m"}, {"口", "n"}, {"交换机", "n"}, {"等", "u"}, {"技术性", "n"}, {"器件", "n"}, {"的", "uj"}, {"安装", "v"}, {"工作", "vn"}}, {{"我", "r"}, {"需要", "v"}, {"廉租房", "n"}}, {{"永和", "nz"}, {"服装", "vn"}, {"饰品", "n"}, {"有限公司", "n"}}, {{"我", "r"}, {"爱", "v"}, {"北京", "ns"}, {"天安门", "ns"}}, {{"abc", "eng"}}, {{"隐", "n"}, {"马尔可夫", "nr"}}, {{"雷猴", "n"}, {"是", "v"}, {"个", "q"}, {"好", "a"}, {"网站", "n"}}, {{"“", "x"}, {"Microsoft", "eng"}, {"”", "x"}, {"一", "m"}, {"词", "n"}, {"由", "p"}, {"“", "x"}, {"MICROcomputer", "eng"}, {"(", "x"}, {"微型", "b"}, {"计算机", "n"}, {")", "x"}, {"”", "x"}, {"和", "c"}, {"“", "x"}, {"SOFTware", "eng"}, {"(", "x"}, {"软件", "n"}, {")", "x"}, {"”", "x"}, {"两", "m"}, {"部分", "n"}, {"组成", "v"}}, {{"草泥马", "n"}, {"和", "c"}, {"欺实", "v"}, {"马", "n"}, {"是", "v"}, {"今年", "t"}, {"的", "uj"}, {"流行", "v"}, {"词汇", "n"}}, {{"伊藤", "nr"}, {"洋华堂", "n"}, {"总府", "n"}, {"店", "n"}}, {{"中国科学院计算技术研究所", "nt"}}, {{"罗密欧", "nr"}, {"与", "p"}, {"朱丽叶", "nr"}}, {{"我", "r"}, {"购买", "v"}, {"了", "ul"}, {"道具", "n"}, {"和", "c"}, {"服装", "vn"}}, {{"PS", "eng"}, {":", "x"}, {" ", "x"}, {"我", "r"}, {"觉得", "v"}, {"开源", "n"}, {"有", "v"}, {"一个", "m"}, {"好处", "d"}, {",", "x"}, {"就是", "d"}, {"能够", "v"}, {"敦促", "v"}, {"自己", "r"}, {"不断改进", "l"}, {",", "x"}, {"避免", "v"}, {"敞", "v"}, {"帚", "ng"}, {"自珍", "b"}}, {{"湖北省", "ns"}, {"石首市", "ns"}}, {{"湖北省", "ns"}, {"十堰市", "ns"}}, {{"总经理", "n"}, {"完成", "v"}, {"了", "ul"}, {"这件", "mq"}, {"事情", "n"}}, {{"电脑", "n"}, {"修好", "v"}, {"了", "ul"}}, {{"做好", "v"}, {"了", "ul"}, {"这件", "mq"}, {"事情", "n"}, {"就", "d"}, {"一了百了", "l"}, {"了", "ul"}}, {{"人们", "n"}, {"审美", "vn"}, {"的", "uj"}, {"观点", "n"}, {"是", "v"}, {"不同", "a"}, {"的", "uj"}}, {{"我们", "r"}, {"买", "v"}, {"了", "ul"}, {"一个", "m"}, {"美的", "nr"}, {"空调", "n"}}, {{"线程", "n"}, {"初始化", "l"}, {"时", "n"}, {"我们", "r"}, {"要", "v"}, {"注意", "v"}}, {{"一个", "m"}, {"分子", "n"}, {"是", "v"}, {"由", "p"}, {"好多", "m"}, {"原子", "n"}, {"组织", "v"}, {"成", "v"}, {"的", "uj"}}, {{"祝", "v"}, {"你", "r"}, {"马到功成", "i"}}, {{"他", "r"}, {"掉", "v"}, {"进", "v"}, {"了", "ul"}, {"无底洞", "ns"}, {"里", "f"}}, {{"中国", "ns"}, {"的", "uj"}, {"首都", "d"}, {"是", "v"}, {"北京", "ns"}}, {{"孙君意", "nr"}}, {{"外交部", "nt"}, {"发言人", "l"}, {"马朝旭", "nr"}}, {{"领导人", "n"}, {"会议", "n"}, {"和", "c"}, {"第四届", "m"}, {"东亚", "ns"}, {"峰会", "n"}}, {{"在", "p"}, {"过去", "t"}, {"的", "uj"}, {"这", "r"}, {"五年", "t"}}, {{"还", "d"}, {"需要", "v"}, {"很", "d"}, {"长", "a"}, {"的", "uj"}, {"路", "n"}, {"要", "v"}, {"走", "v"}}, {{"60", "m"}, {"周年", "t"}, {"首都", "d"}, {"阅兵", "v"}}, {{"你好", "l"}, {"人们", "n"}, {"审美", "vn"}, {"的", "uj"}, {"观点", "n"}, {"是", "v"}, {"不同", "a"}, {"的", "uj"}}, {{"买", "v"}, {"水果", "n"}, {"然后", "c"}, {"来", "v"}, {"世博园", "nr"}}, {{"买", "v"}, {"水果", "n"}, {"然后", "c"}, {"去", "v"}, {"世博园", "nr"}}, {{"但是", "c"}, {"后来", "t"}, {"我", "r"}, {"才", "d"}, {"知道", "v"}, {"你", "r"}, {"是", "v"}, {"对", "p"}, {"的", "uj"}}, {{"存在", "v"}, {"即", "v"}, {"合理", "vn"}}, {{"的的", "u"}, {"的的", "u"}, {"的", "uj"}, {"在的", "u"}, {"的的", "u"}, {"的", "uj"}, {"就", "d"}, {"以", "p"}, {"和和", "nz"}, {"和", "c"}}, {{"I", "x"}, {" ", "x"}, {"love", "eng"}, {"你", "r"}, {",", "x"}, {"不以为耻", "i"}, {",", "x"}, {"反", "zg"}, {"以为", "c"}, {"rong", "eng"}}, {{"因", "p"}}, {}, {{"hello", "eng"}, {"你好", "l"}, {"人们", "n"}, {"审美", "vn"}, {"的", "uj"}, {"观点", "n"}, {"是", "v"}, {"不同", "a"}, {"的", "uj"}}, {{"很好", "a"}, {"但", "c"}, {"主要", "b"}, {"是", "v"}, {"基于", "p"}, {"网页", "n"}, {"形式", "n"}}, {{"hello", "eng"}, {"你好", "l"}, {"人们", "n"}, {"审美", "vn"}, {"的", "uj"}, {"观点", "n"}, {"是", "v"}, {"不同", "a"}, {"的", "uj"}}, {{"为什么", "r"}, {"我", "r"}, {"不能", "v"}, {"拥有", "v"}, {"想要", "v"}, {"的", "uj"}, {"生活", "vn"}}, {{"后来", "t"}, {"我", "r"}, {"才", "d"}}, {{"此次", "r"}, {"来", "v"}, {"中国", "ns"}, {"是", "v"}, {"为了", "p"}}, {{"使用", "v"}, {"了", "ul"}, {"它", "r"}, {"就", "d"}, {"可以", "c"}, {"解决", "v"}, {"一些", "m"}, {"问题", "n"}}, {{",", "x"}, {"使用", "v"}, {"了", "ul"}, {"它", "r"}, {"就", "d"}, {"可以", "c"}, {"解决", "v"}, {"一些", "m"}, {"问题", "n"}}, {{"其实", "d"}, {"使用", "v"}, {"了", "ul"}, {"它", "r"}, {"就", "d"}, {"可以", "c"}, {"解决", "v"}, {"一些", "m"}, {"问题", "n"}}, {{"好人", "n"}, {"使用", "v"}, {"了", "ul"}, {"它", "r"}, {"就", "d"}, {"可以", "c"}, {"解决", "v"}, {"一些", "m"}, {"问题", "n"}}, {{"是因为", "c"}, {"和", "c"}, {"国家", "n"}}, {{"老年", "t"}, {"搜索", "v"}, {"还", "d"}, {"支持", "v"}}, {{"干脆", "d"}, {"就", "d"}, {"把", "p"}, {"那部", "r"}, {"蒙人", "n"}, {"的", "uj"}, {"闲法", "n"}, {"给", "p"}, {"废", "v"}, {"了", "ul"}, {"拉倒", "v"}, {"!", "x"}, {"RT", "eng"}, {" ", "x"}, {"@", "x"}, {"laoshipukong", "eng"}, {" ", "x"}, {":", "x"}, {" ", "x"}, {"27", "m"}, {"日", "m"}, {",", "x"}, {"全国人大常委会", "nt"}, {"第三次", "m"}, {"审议", "v"}, {"侵权", "v"}, {"责任法", "n"}, {"草案", "n"}, {",", "x"}, {"删除", "v"}, {"了", "ul"}, {"有关", "vn"}, {"医疗", "n"}, {"损害", "v"}, {"责任", "n"}, {"“", "x"}, {"举证", "v"}, {"倒置", "v"}, {"”", "x"}, {"的", "uj"}, {"规定", "n"}, {"。", "x"}, {"在", "p"}, {"医患", "n"}, {"纠纷", "n"}, {"中本", "ns"}, {"已", "d"}, {"处于", "v"}, {"弱势", "n"}, {"地位", "n"}, {"的", "uj"}, {"消费者", "n"}, {"由此", "c"}, {"将", "d"}, {"陷入", "v"}, {"万劫不复", "i"}, {"的", "uj"}, {"境地", "s"}, {"。", "x"}, {" ", "x"}}, {{"大", "a"}}, {}, {{"他", "r"}, {"说", "v"}, {"的", "uj"}, {"确实", "ad"}, {"在", "p"}, {"理", "n"}}, {{"长春", "ns"}, {"市长", "n"}, {"春节", "t"}, {"讲话", "n"}}, {{"结婚", "v"}, {"的", "uj"}, {"和", "c"}, {"尚未", "d"}, {"结婚", "v"}, {"的", "uj"}}, {{"结合", "v"}, {"成", "n"}, {"分子", "n"}, {"时", "n"}}, {{"旅游", "vn"}, {"和", "c"}, {"服务", "vn"}, {"是", "v"}, {"最好", "a"}, {"的", "uj"}}, {{"这件", "mq"}, {"事情", "n"}, {"的确", "d"}, {"是", "v"}, {"我", "r"}, {"的", "uj"}, {"错", "n"}}, {{"供", "v"}, {"大家", "n"}, {"参考", "v"}, {"指正", "v"}}, {{"哈尔滨", "ns"}, {"政府", "n"}, {"公布", "v"}, {"塌", "v"}, {"桥", "n"}, {"原因", "n"}}, {{"我", "r"}, {"在", "p"}, {"机场", "n"}, {"入口处", "i"}}, {{"邢永臣", "nr"}, {"摄影", "n"}, {"报道", "v"}}, {{"BP", "eng"}, {"神经网络", "n"}, {"如何", "r"}, {"训练", "vn"}, {"才能", "v"}, {"在", "p"}, {"分类", "n"}, {"时", "n"}, {"增加", "v"}, {"区分度", "n"}, {"?", "x"}}, {{"南京市", "ns"}, {"长江大桥", "ns"}}, {{"应", "v"}, {"一些", "m"}, {"使用者", "n"}, {"的", "uj"}, {"建议", "n"}, {",", "x"}, {"也", "d"}, {"为了", "p"}, {"便于", "v"}, {"利用", "n"}, {"NiuTrans", "eng"}, {"用于", "v"}, {"SMT", "eng"}, {"研究", "vn"}}, {{"长春市", "ns"}, {"长春", "ns"}, {"药店", "n"}}, {{"邓颖超", "nr"}, {"生前", "t"}, {"最", "d"}, {"喜欢", "v"}, {"的", "uj"}, {"衣服", "n"}}, {{"胡锦涛", "nr"}, {"是", "v"}, {"热爱", "a"}, {"世界", "n"}, {"和平", "nz"}, {"的", "uj"}, {"政治局", "n"}, {"常委", "j"}}, {{"程序员", "n"}, {"祝", "v"}, {"海林", "nz"}, {"和", "c"}, {"朱会震", "nr"}, {"是", "v"}, {"在", "p"}, {"孙健", "nr"}, {"的", "uj"}, {"左面", "f"}, {"和", "c"}, {"右面", "f"}, {",", "x"}, {" ", "x"}, {"范凯", "nr"}, {"在", "p"}, {"最", "a"}, {"右面", "f"}, {".", "m"}, {"再往", "d"}, {"左", "f"}, {"是", "v"}, {"李松洪", "nr"}}, {{"一次性", "d"}, {"交", "v"}, {"多少", "m"}, {"钱", "n"}}, {{"两块", "m"}, {"五", "m"}, {"一套", "m"}, {",", "x"}, {"三块", "m"}, {"八", "m"}, {"一斤", "m"}, {",", "x"}, {"四块", "m"}, {"七", "m"}, {"一本", "m"}, {",", "x"}, {"五块", "m"}, {"六", "m"}, {"一条", "m"}}, {{"小", "a"}, {"和尚", "nr"}, {"留", "v"}, {"了", "ul"}, {"一个", "m"}, {"像", "v"}, {"大", "a"}, {"和尚", "nr"}, {"一样", "r"}, {"的", "uj"}, {"和尚头", "nr"}}, {{"我", "r"}, {"是", "v"}, {"中华人民共和国", "ns"}, {"公民", "n"}, {";", "x"}, {"我", "r"}, {"爸爸", "n"}, {"是", "v"}, {"共和党", "nt"}, {"党员", "n"}, {";", "x"}, {" ", "x"}, {"地铁", "n"}, {"和平门", "ns"}, {"站", "v"}}, {{"张晓梅", "nr"}, {"去", "v"}, {"人民", "n"}, {"医院", "n"}, {"做", "v"}, {"了", "ul"}, {"个", "q"}, {"B超", "n"}, {"然后", "c"}, {"去", "v"}, {"买", "v"}, {"了", "ul"}, {"件", "q"}, {"T恤", "n"}}, {{"AT&T", "nz"}, {"是", "v"}, {"一件", "m"}, {"不错", "a"}, {"的", "uj"}, {"公司", "n"}, {",", "x"}, {"给", "p"}, {"你", "r"}, {"发", "v"}, {"offer", "eng"}, {"了", "ul"}, {"吗", "y"}, {"?", "x"}}, {{"C++", "nz"}, {"和", "c"}, {"c#", "nz"}, {"是", "v"}, {"什么", "r"}, {"关系", "n"}, {"?", "x"}, {"11", "m"}, {"+", "x"}, {"122", "m"}, {"=", "x"}, {"133", "m"}, {",", "x"}, {"是", "v"}, {"吗", "y"}, {"?", "x"}, {"PI", "eng"}, {"=", "x"}, {"3.14159", "m"}}, {{"你", "r"}, {"认识", "v"}, {"那个", "r"}, {"和", "c"}, {"主席", "n"}, {"握手", "v"}, {"的", "uj"}, {"的哥", "n"}, {"吗", "y"}, {"?", "x"}, {"他", "r"}, {"开", "v"}, {"一辆", "m"}, {"黑色", "n"}, {"的士", "n"}, {"。", "x"}}, {{"枪杆子", "n"}, {"中", "f"}, {"出", "v"}, {"政权", "n"}}, } noHMMCutResult = [][]Segment{ {{"这", "r"}, {"是", "v"}, {"一个", "m"}, {"伸手不见五指", "i"}, {"的", "uj"}, {"黑夜", "n"}, {"。", "x"}, {"我", "r"}, {"叫", "v"}, {"孙悟空", "nr"}, {",", "x"}, {"我", "r"}, {"爱", "v"}, {"北京", "ns"}, {",", "x"}, {"我", "r"}, {"爱", "v"}, {"Python", "eng"}, {"和", "c"}, {"C++", "nz"}, {"。", "x"}}, {{"我", "r"}, {"不", "d"}, {"喜欢", "v"}, {"日本", "ns"}, {"和服", "nz"}, {"。", "x"}}, {{"雷猴", "n"}, {"回归", "v"}, {"人间", "n"}, {"。", "x"}}, {{"工信处", "n"}, {"女干事", "n"}, {"每月", "r"}, {"经过", "p"}, {"下属", "v"}, {"科室", "n"}, {"都", "d"}, {"要", "v"}, {"亲口", "n"}, {"交代", "n"}, {"24", "eng"}, {"口", "q"}, {"交换机", "n"}, {"等", "u"}, {"技术性", "n"}, {"器件", "n"}, {"的", "uj"}, {"安装", "v"}, {"工作", "vn"}}, {{"我", "r"}, {"需要", "v"}, {"廉租房", "n"}}, {{"永和", "nz"}, {"服装", "vn"}, {"饰品", "n"}, {"有限公司", "n"}}, {{"我", "r"}, {"爱", "v"}, {"北京", "ns"}, {"天安门", "ns"}}, {{"abc", "eng"}}, {{"隐", "n"}, {"马尔可夫", "nr"}}, {{"雷猴", "n"}, {"是", "v"}, {"个", "q"}, {"好", "a"}, {"网站", "n"}}, {{"“", "x"}, {"Microsoft", "eng"}, {"”", "x"}, {"一", "m"}, {"词", "n"}, {"由", "p"}, {"“", "x"}, {"MICROcomputer", "eng"}, {"(", "x"}, {"微型", "b"}, {"计算机", "n"}, {")", "x"}, {"”", "x"}, {"和", "c"}, {"“", "x"}, {"SOFTware", "eng"}, {"(", "x"}, {"软件", "n"}, {")", "x"}, {"”", "x"}, {"两", "m"}, {"部分", "n"}, {"组成", "v"}}, {{"草泥马", "n"}, {"和", "c"}, {"欺", "vn"}, {"实", "n"}, {"马", "n"}, {"是", "v"}, {"今年", "t"}, {"的", "uj"}, {"流行", "v"}, {"词汇", "n"}}, {{"伊", "ns"}, {"藤", "nr"}, {"洋华堂", "n"}, {"总府", "n"}, {"店", "n"}}, {{"中国科学院计算技术研究所", "nt"}}, {{"罗密欧", "nr"}, {"与", "p"}, {"朱丽叶", "nr"}}, {{"我", "r"}, {"购买", "v"}, {"了", "ul"}, {"道具", "n"}, {"和", "c"}, {"服装", "vn"}}, {{"PS", "eng"}, {":", "x"}, {" ", "x"}, {"我", "r"}, {"觉得", "v"}, {"开源", "n"}, {"有", "v"}, {"一个", "m"}, {"好处", "d"}, {",", "x"}, {"就是", "d"}, {"能够", "v"}, {"敦促", "v"}, {"自己", "r"}, {"不断改进", "l"}, {",", "x"}, {"避免", "v"}, {"敞", "v"}, {"帚", "ng"}, {"自珍", "b"}}, {{"湖北省", "ns"}, {"石首市", "ns"}}, {{"湖北省", "ns"}, {"十堰市", "ns"}}, {{"总经理", "n"}, {"完成", "v"}, {"了", "ul"}, {"这件", "mq"}, {"事情", "n"}}, {{"电脑", "n"}, {"修好", "v"}, {"了", "ul"}}, {{"做好", "v"}, {"了", "ul"}, {"这件", "mq"}, {"事情", "n"}, {"就", "d"}, {"一了百了", "l"}, {"了", "ul"}}, {{"人们", "n"}, {"审美", "vn"}, {"的", "uj"}, {"观点", "n"}, {"是", "v"}, {"不同", "a"}, {"的", "uj"}}, {{"我们", "r"}, {"买", "v"}, {"了", "ul"}, {"一个", "m"}, {"美的", "nr"}, {"空调", "n"}}, {{"线程", "n"}, {"初始化", "l"}, {"时", "n"}, {"我们", "r"}, {"要", "v"}, {"注意", "v"}}, {{"一个", "m"}, {"分子", "n"}, {"是", "v"}, {"由", "p"}, {"好多", "m"}, {"原子", "n"}, {"组织", "v"}, {"成", "n"}, {"的", "uj"}}, {{"祝", "v"}, {"你", "r"}, {"马到功成", "i"}}, {{"他", "r"}, {"掉", "zg"}, {"进", "v"}, {"了", "ul"}, {"无底洞", "ns"}, {"里", "f"}}, {{"中国", "ns"}, {"的", "uj"}, {"首都", "d"}, {"是", "v"}, {"北京", "ns"}}, {{"孙", "zg"}, {"君", "nz"}, {"意", "n"}}, {{"外交部", "nt"}, {"发言人", "l"}, {"马朝旭", "nr"}}, {{"领导人", "n"}, {"会议", "n"}, {"和", "c"}, {"第四届", "m"}, {"东亚", "ns"}, {"峰会", "n"}}, {{"在", "p"}, {"过去", "t"}, {"的", "uj"}, {"这", "r"}, {"五年", "t"}}, {{"还", "d"}, {"需要", "v"}, {"很", "zg"}, {"长", "a"}, {"的", "uj"}, {"路", "n"}, {"要", "v"}, {"走", "v"}}, {{"60", "eng"}, {"周年", "t"}, {"首都", "d"}, {"阅兵", "v"}}, {{"你好", "l"}, {"人们", "n"}, {"审美", "vn"}, {"的", "uj"}, {"观点", "n"}, {"是", "v"}, {"不同", "a"}, {"的", "uj"}}, {{"买", "v"}, {"水果", "n"}, {"然后", "c"}, {"来", "v"}, {"世博园", "nr"}}, {{"买", "v"}, {"水果", "n"}, {"然后", "c"}, {"去", "v"}, {"世博园", "nr"}}, {{"但是", "c"}, {"后来", "t"}, {"我", "r"}, {"才", "d"}, {"知道", "v"}, {"你", "r"}, {"是", "v"}, {"对", "p"}, {"的", "uj"}}, {{"存在", "v"}, {"即", "v"}, {"合理", "vn"}}, {{"的", "uj"}, {"的", "uj"}, {"的", "uj"}, {"的", "uj"}, {"的", "uj"}, {"在", "p"}, {"的", "uj"}, {"的", "uj"}, {"的", "uj"}, {"的", "uj"}, {"就", "d"}, {"以", "p"}, {"和", "c"}, {"和", "c"}, {"和", "c"}}, {{"I", "eng"}, {" ", "x"}, {"love", "eng"}, {"你", "r"}, {",", "x"}, {"不以为耻", "i"}, {",", "x"}, {"反", "zg"}, {"以为", "c"}, {"rong", "eng"}}, {{"因", "p"}}, {}, {{"hello", "eng"}, {"你好", "l"}, {"人们", "n"}, {"审美", "vn"}, {"的", "uj"}, {"观点", "n"}, {"是", "v"}, {"不同", "a"}, {"的", "uj"}}, {{"很", "zg"}, {"好", "a"}, {"但", "c"}, {"主要", "b"}, {"是", "v"}, {"基于", "p"}, {"网页", "n"}, {"形式", "n"}}, {{"hello", "eng"}, {"你好", "l"}, {"人们", "n"}, {"审美", "vn"}, {"的", "uj"}, {"观点", "n"}, {"是", "v"}, {"不同", "a"}, {"的", "uj"}}, {{"为什么", "r"}, {"我", "r"}, {"不能", "v"}, {"拥有", "v"}, {"想要", "v"}, {"的", "uj"}, {"生活", "vn"}}, {{"后来", "t"}, {"我", "r"}, {"才", "d"}}, {{"此次", "r"}, {"来", "v"}, {"中国", "ns"}, {"是", "v"}, {"为了", "p"}}, {{"使用", "v"}, {"了", "ul"}, {"它", "r"}, {"就", "d"}, {"可以", "c"}, {"解决", "v"}, {"一些", "m"}, {"问题", "n"}}, {{",", "x"}, {"使用", "v"}, {"了", "ul"}, {"它", "r"}, {"就", "d"}, {"可以", "c"}, {"解决", "v"}, {"一些", "m"}, {"问题", "n"}}, {{"其实", "d"}, {"使用", "v"}, {"了", "ul"}, {"它", "r"}, {"就", "d"}, {"可以", "c"}, {"解决", "v"}, {"一些", "m"}, {"问题", "n"}}, {{"好人", "n"}, {"使用", "v"}, {"了", "ul"}, {"它", "r"}, {"就", "d"}, {"可以", "c"}, {"解决", "v"}, {"一些", "m"}, {"问题", "n"}}, {{"是因为", "c"}, {"和", "c"}, {"国家", "n"}}, {{"老年", "t"}, {"搜索", "v"}, {"还", "d"}, {"支持", "v"}}, {{"干脆", "d"}, {"就", "d"}, {"把", "p"}, {"那", "r"}, {"部", "n"}, {"蒙", "v"}, {"人", "n"}, {"的", "uj"}, {"闲", "n"}, {"法", "j"}, {"给", "p"}, {"废", "v"}, {"了", "ul"}, {"拉倒", "v"}, {"!", "x"}, {"RT", "eng"}, {" ", "x"}, {"@", "x"}, {"laoshipukong", "eng"}, {" ", "x"}, {":", "x"}, {" ", "x"}, {"27", "eng"}, {"日", "m"}, {",", "x"}, {"全国人大常委会", "nt"}, {"第三次", "m"}, {"审议", "v"}, {"侵权", "v"}, {"责任法", "n"}, {"草案", "n"}, {",", "x"}, {"删除", "v"}, {"了", "ul"}, {"有关", "vn"}, {"医疗", "n"}, {"损害", "v"}, {"责任", "n"}, {"“", "x"}, {"举证", "v"}, {"倒置", "v"}, {"”", "x"}, {"的", "uj"}, {"规定", "n"}, {"。", "x"}, {"在", "p"}, {"医患", "n"}, {"纠纷", "n"}, {"中", "f"}, {"本", "r"}, {"已", "d"}, {"处于", "v"}, {"弱势", "n"}, {"地位", "n"}, {"的", "uj"}, {"消费者", "n"}, {"由此", "c"}, {"将", "d"}, {"陷入", "v"}, {"万劫不复", "i"}, {"的", "uj"}, {"境地", "s"}, {"。", "x"}, {" ", "x"}}, {{"大", "a"}}, {}, {{"他", "r"}, {"说", "v"}, {"的", "uj"}, {"确实", "ad"}, {"在", "p"}, {"理", "n"}}, {{"长春", "ns"}, {"市长", "n"}, {"春节", "t"}, {"讲话", "n"}}, {{"结婚", "v"}, {"的", "uj"}, {"和", "c"}, {"尚未", "d"}, {"结婚", "v"}, {"的", "uj"}}, {{"结合", "v"}, {"成", "n"}, {"分子", "n"}, {"时", "n"}}, {{"旅游", "vn"}, {"和", "c"}, {"服务", "vn"}, {"是", "v"}, {"最好", "a"}, {"的", "uj"}}, {{"这件", "mq"}, {"事情", "n"}, {"的确", "d"}, {"是", "v"}, {"我", "r"}, {"的", "uj"}, {"错", "v"}}, {{"供", "v"}, {"大家", "n"}, {"参考", "v"}, {"指正", "v"}}, {{"哈尔滨", "ns"}, {"政府", "n"}, {"公布", "v"}, {"塌", "v"}, {"桥", "n"}, {"原因", "n"}}, {{"我", "r"}, {"在", "p"}, {"机场", "n"}, {"入口处", "i"}}, {{"邢", "nr"}, {"永", "ns"}, {"臣", "n"}, {"摄影", "n"}, {"报道", "v"}}, {{"BP", "eng"}, {"神经网络", "n"}, {"如何", "r"}, {"训练", "vn"}, {"才能", "v"}, {"在", "p"}, {"分类", "n"}, {"时", "n"}, {"增加", "v"}, {"区分度", "n"}, {"?", "x"}}, {{"南京市", "ns"}, {"长江大桥", "ns"}}, {{"应", "v"}, {"一些", "m"}, {"使用者", "n"}, {"的", "uj"}, {"建议", "n"}, {",", "x"}, {"也", "d"}, {"为了", "p"}, {"便于", "v"}, {"利用", "n"}, {"NiuTrans", "eng"}, {"用于", "v"}, {"SMT", "eng"}, {"研究", "vn"}}, {{"长春市", "ns"}, {"长春", "ns"}, {"药店", "n"}}, {{"邓颖超", "nr"}, {"生前", "t"}, {"最", "d"}, {"喜欢", "v"}, {"的", "uj"}, {"衣服", "n"}}, {{"胡锦涛", "nr"}, {"是", "v"}, {"热爱", "a"}, {"世界", "n"}, {"和平", "nz"}, {"的", "uj"}, {"政治局", "n"}, {"常委", "j"}}, {{"程序员", "n"}, {"祝", "v"}, {"海林", "nz"}, {"和", "c"}, {"朱", "nr"}, {"会", "v"}, {"震", "v"}, {"是", "v"}, {"在", "p"}, {"孙", "zg"}, {"健", "a"}, {"的", "uj"}, {"左面", "f"}, {"和", "c"}, {"右面", "f"}, {",", "x"}, {" ", "x"}, {"范", "nr"}, {"凯", "nr"}, {"在", "p"}, {"最", "d"}, {"右面", "f"}, {".", "x"}, {"再", "d"}, {"往", "zg"}, {"左", "m"}, {"是", "v"}, {"李", "nr"}, {"松", "v"}, {"洪", "nr"}}, {{"一次性", "d"}, {"交", "v"}, {"多少", "m"}, {"钱", "n"}}, {{"两块", "m"}, {"五", "m"}, {"一套", "m"}, {",", "x"}, {"三块", "m"}, {"八", "m"}, {"一斤", "m"}, {",", "x"}, {"四块", "m"}, {"七", "m"}, {"一本", "m"}, {",", "x"}, {"五块", "m"}, {"六", "m"}, {"一条", "m"}}, {{"小", "a"}, {"和尚", "nr"}, {"留", "v"}, {"了", "ul"}, {"一个", "m"}, {"像", "v"}, {"大", "a"}, {"和尚", "nr"}, {"一样", "r"}, {"的", "uj"}, {"和尚头", "nr"}}, {{"我", "r"}, {"是", "v"}, {"中华人民共和国", "ns"}, {"公民", "n"}, {";", "x"}, {"我", "r"}, {"爸爸", "n"}, {"是", "v"}, {"共和党", "nt"}, {"党员", "n"}, {";", "x"}, {" ", "x"}, {"地铁", "n"}, {"和平门", "ns"}, {"站", "v"}}, {{"张晓梅", "nr"}, {"去", "v"}, {"人民", "n"}, {"医院", "n"}, {"做", "v"}, {"了", "ul"}, {"个", "q"}, {"B超", "n"}, {"然后", "c"}, {"去", "v"}, {"买", "v"}, {"了", "ul"}, {"件", "zg"}, {"T恤", "n"}}, {{"AT&T", "nz"}, {"是", "v"}, {"一件", "m"}, {"不错", "a"}, {"的", "uj"}, {"公司", "n"}, {",", "x"}, {"给", "p"}, {"你", "r"}, {"发", "v"}, {"offer", "eng"}, {"了", "ul"}, {"吗", "y"}, {"?", "x"}}, {{"C++", "nz"}, {"和", "c"}, {"c#", "nz"}, {"是", "v"}, {"什么", "r"}, {"关系", "n"}, {"?", "x"}, {"11", "eng"}, {"+", "x"}, {"122", "eng"}, {"=", "x"}, {"133", "eng"}, {",", "x"}, {"是", "v"}, {"吗", "y"}, {"?", "x"}, {"PI", "eng"}, {"=", "x"}, {"3", "eng"}, {".", "x"}, {"14159", "eng"}}, {{"你", "r"}, {"认识", "v"}, {"那个", "r"}, {"和", "c"}, {"主席", "n"}, {"握手", "v"}, {"的", "uj"}, {"的哥", "n"}, {"吗", "y"}, {"?", "x"}, {"他", "r"}, {"开", "v"}, {"一辆", "m"}, {"黑色", "n"}, {"的士", "n"}, {"。", "x"}}, {{"枪杆子", "n"}, {"中", "f"}, {"出", "v"}, {"政权", "n"}}, } ) func TestCut(t *testing.T) { for index, content := range testContents { result := seg.Cut(content, true) if len(defaultCutResult[index]) != len(result) { t.Errorf("default cut for %s length should be %d not %d\n", content, len(defaultCutResult[index]), len(result)) t.Errorf("expect: %v\n", defaultCutResult[index]) t.Fatalf("got: %v\n", result) } for i := range result { if result[i] != defaultCutResult[index][i] { t.Fatalf("expect %s, got %s", defaultCutResult[index][i], result[i]) } } result = seg.Cut(content, false) if len(noHMMCutResult[index]) != len(result) { t.Fatal(content) } for i := range result { if result[i] != noHMMCutResult[index][i] { t.Fatal(content) } } } } // https://github.com/fxsjy/jieba/issues/132 func TestBug132(t *testing.T) { sentence := "又跛又啞" cutResult := []Segment{ {"又", "d"}, {"跛", "a"}, {"又", "d"}, {"啞", "v"}, } result := seg.Cut(sentence, true) if len(cutResult) != len(result) { t.Fatal(result) } for i := range result { if result[i] != cutResult[i] { t.Fatal(result[i]) } } } // https://github.com/fxsjy/jieba/issues/137 func TestBug137(t *testing.T) { sentence := "前港督衛奕信在八八年十月宣布成立中央政策研究組" cutResult := []Segment{ {"前", "f"}, {"港督", "n"}, {"衛奕", "z"}, {"信", "n"}, {"在", "p"}, {"八八年", "m"}, {"十月", "t"}, {"宣布", "v"}, {"成立", "v"}, {"中央", "n"}, {"政策", "n"}, {"研究", "vn"}, {"組", "x"}, } result := seg.Cut(sentence, true) if len(cutResult) != len(result) { t.Fatal(result) } for i := range result { if result[i] != cutResult[i] { t.Fatal(result[i]) } } } func TestUserDict(t *testing.T) { seg.LoadUserDictionaryAt("../userdict.txt") defer func() { seg, _ = LoadDictionaryAt("../dict.txt") }() sentence := "李小福是创新办主任也是云计算方面的专家; 什么是八一双鹿例如我输入一个带“韩玉赏鉴”的标题,在自定义词库中也增加了此词为N类型" cutResult := []Segment{ {"李小福", "nr"}, {"是", "v"}, {"创新办", "i"}, {"主任", "b"}, {"也", "d"}, {"是", "v"}, {"云计算", "x"}, {"方面", "n"}, {"的", "uj"}, {"专家", "n"}, {";", "x"}, {" ", "x"}, {"什么", "r"}, {"是", "v"}, {"八一双鹿", "nz"}, {"例如", "v"}, {"我", "r"}, {"输入", "v"}, {"一个", "m"}, {"带", "v"}, {"“", "x"}, {"韩玉赏鉴", "nz"}, {"”", "x"}, {"的", "uj"}, {"标题", "n"}, {",", "x"}, {"在", "p"}, {"自定义词", "n"}, {"库中", "nrt"}, {"也", "d"}, {"增加", "v"}, {"了", "ul"}, {"此", "r"}, {"词", "n"}, {"为", "p"}, {"N", "eng"}, {"类型", "n"}} result := seg.Cut(sentence, true) if len(cutResult) != len(result) { t.Fatal(result) } for i := range result { if result[i] != cutResult[i] { t.Fatal(result[i]) } } } func BenchmarkCutNoHMM(b *testing.B) { sentence := "工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作" b.ResetTimer() for i := 0; i < b.N; i++ { seg.Cut(sentence, false) } } func BenchmarkCut(b *testing.B) { sentence := "工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作" b.ResetTimer() for i := 0; i < b.N; i++ { seg.Cut(sentence, true) } }