mirror of
https://github.com/fumiama/jieba.git
synced 2026-06-05 00:32:51 +08:00
419 lines
29 KiB
Go
Executable File
419 lines
29 KiB
Go
Executable File
package posseg
|
||
|
||
import (
|
||
"testing"
|
||
)
|
||
|
||
var (
|
||
seg, _ = LoadDictionaryAt("../dict.txt")
|
||
testContents = []string{
|
||
"这是一个伸手不见五指的黑夜。我叫孙悟空,我爱北京,我爱Python和C++。",
|
||
"我不喜欢日本和服。",
|
||
"雷猴回归人间。",
|
||
"工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作",
|
||
"我需要廉租房",
|
||
"永和服装饰品有限公司",
|
||
"我爱北京天安门",
|
||
"abc",
|
||
"隐马尔可夫",
|
||
"雷猴是个好网站",
|
||
"“Microsoft”一词由“MICROcomputer(微型计算机)”和“SOFTware(软件)”两部分组成",
|
||
"草泥马和欺实马是今年的流行词汇",
|
||
"伊藤洋华堂总府店",
|
||
"中国科学院计算技术研究所",
|
||
"罗密欧与朱丽叶",
|
||
"我购买了道具和服装",
|
||
"PS: 我觉得开源有一个好处,就是能够敦促自己不断改进,避免敞帚自珍",
|
||
"湖北省石首市",
|
||
"湖北省十堰市",
|
||
"总经理完成了这件事情",
|
||
"电脑修好了",
|
||
"做好了这件事情就一了百了了",
|
||
"人们审美的观点是不同的",
|
||
"我们买了一个美的空调",
|
||
"线程初始化时我们要注意",
|
||
"一个分子是由好多原子组织成的",
|
||
"祝你马到功成",
|
||
"他掉进了无底洞里",
|
||
"中国的首都是北京",
|
||
"孙君意",
|
||
"外交部发言人马朝旭",
|
||
"领导人会议和第四届东亚峰会",
|
||
"在过去的这五年",
|
||
"还需要很长的路要走",
|
||
"60周年首都阅兵",
|
||
"你好人们审美的观点是不同的",
|
||
"买水果然后来世博园",
|
||
"买水果然后去世博园",
|
||
"但是后来我才知道你是对的",
|
||
"存在即合理",
|
||
"的的的的的在的的的的就以和和和",
|
||
"I love你,不以为耻,反以为rong",
|
||
"因",
|
||
"",
|
||
"hello你好人们审美的观点是不同的",
|
||
"很好但主要是基于网页形式",
|
||
"hello你好人们审美的观点是不同的",
|
||
"为什么我不能拥有想要的生活",
|
||
"后来我才",
|
||
"此次来中国是为了",
|
||
"使用了它就可以解决一些问题",
|
||
",使用了它就可以解决一些问题",
|
||
"其实使用了它就可以解决一些问题",
|
||
"好人使用了它就可以解决一些问题",
|
||
"是因为和国家",
|
||
"老年搜索还支持",
|
||
"干脆就把那部蒙人的闲法给废了拉倒!RT @laoshipukong : 27日,全国人大常委会第三次审议侵权责任法草案,删除了有关医疗损害责任“举证倒置”的规定。在医患纠纷中本已处于弱势地位的消费者由此将陷入万劫不复的境地。 ",
|
||
"大",
|
||
"",
|
||
"他说的确实在理",
|
||
"长春市长春节讲话",
|
||
"结婚的和尚未结婚的",
|
||
"结合成分子时",
|
||
"旅游和服务是最好的",
|
||
"这件事情的确是我的错",
|
||
"供大家参考指正",
|
||
"哈尔滨政府公布塌桥原因",
|
||
"我在机场入口处",
|
||
"邢永臣摄影报道",
|
||
"BP神经网络如何训练才能在分类时增加区分度?",
|
||
"南京市长江大桥",
|
||
"应一些使用者的建议,也为了便于利用NiuTrans用于SMT研究",
|
||
"长春市长春药店",
|
||
"邓颖超生前最喜欢的衣服",
|
||
"胡锦涛是热爱世界和平的政治局常委",
|
||
"程序员祝海林和朱会震是在孙健的左面和右面, 范凯在最右面.再往左是李松洪",
|
||
"一次性交多少钱",
|
||
"两块五一套,三块八一斤,四块七一本,五块六一条",
|
||
"小和尚留了一个像大和尚一样的和尚头",
|
||
"我是中华人民共和国公民;我爸爸是共和党党员; 地铁和平门站",
|
||
"张晓梅去人民医院做了个B超然后去买了件T恤",
|
||
"AT&T是一件不错的公司,给你发offer了吗?",
|
||
"C++和c#是什么关系?11+122=133,是吗?PI=3.14159",
|
||
"你认识那个和主席握手的的哥吗?他开一辆黑色的士。",
|
||
"枪杆子中出政权"}
|
||
|
||
defaultCutResult = [][]Segment{{{"这", "r"}, {"是", "v"}, {"一个", "m"}, {"伸手不见五指", "i"}, {"的", "uj"}, {"黑夜", "n"}, {"。", "x"}, {"我", "r"}, {"叫", "v"}, {"孙悟空", "nr"}, {",", "x"}, {"我", "r"}, {"爱", "v"}, {"北京", "ns"}, {",", "x"}, {"我", "r"}, {"爱", "v"}, {"Python", "eng"}, {"和", "c"}, {"C++", "nz"}, {"。", "x"}},
|
||
{{"我", "r"}, {"不", "d"}, {"喜欢", "v"}, {"日本", "ns"}, {"和服", "nz"}, {"。", "x"}},
|
||
{{"雷猴", "n"}, {"回归", "v"}, {"人间", "n"}, {"。", "x"}},
|
||
{{"工信处", "n"}, {"女干事", "n"}, {"每月", "r"}, {"经过", "p"}, {"下属", "v"}, {"科室", "n"}, {"都", "d"}, {"要", "v"}, {"亲口", "n"}, {"交代", "n"}, {"24", "m"}, {"口", "n"}, {"交换机", "n"}, {"等", "u"}, {"技术性", "n"}, {"器件", "n"}, {"的", "uj"}, {"安装", "v"}, {"工作", "vn"}},
|
||
{{"我", "r"}, {"需要", "v"}, {"廉租房", "n"}},
|
||
{{"永和", "nz"}, {"服装", "vn"}, {"饰品", "n"}, {"有限公司", "n"}},
|
||
{{"我", "r"}, {"爱", "v"}, {"北京", "ns"}, {"天安门", "ns"}},
|
||
{{"abc", "eng"}},
|
||
{{"隐", "n"}, {"马尔可夫", "nr"}},
|
||
{{"雷猴", "n"}, {"是", "v"}, {"个", "q"}, {"好", "a"}, {"网站", "n"}},
|
||
{{"“", "x"}, {"Microsoft", "eng"}, {"”", "x"}, {"一", "m"}, {"词", "n"}, {"由", "p"}, {"“", "x"}, {"MICROcomputer", "eng"}, {"(", "x"}, {"微型", "b"}, {"计算机", "n"}, {")", "x"}, {"”", "x"}, {"和", "c"}, {"“", "x"}, {"SOFTware", "eng"}, {"(", "x"}, {"软件", "n"}, {")", "x"}, {"”", "x"}, {"两", "m"}, {"部分", "n"}, {"组成", "v"}},
|
||
{{"草泥马", "n"}, {"和", "c"}, {"欺实", "v"}, {"马", "n"}, {"是", "v"}, {"今年", "t"}, {"的", "uj"}, {"流行", "v"}, {"词汇", "n"}},
|
||
{{"伊藤", "nr"}, {"洋华堂", "n"}, {"总府", "n"}, {"店", "n"}},
|
||
{{"中国科学院计算技术研究所", "nt"}},
|
||
{{"罗密欧", "nr"}, {"与", "p"}, {"朱丽叶", "nr"}},
|
||
{{"我", "r"}, {"购买", "v"}, {"了", "ul"}, {"道具", "n"}, {"和", "c"}, {"服装", "vn"}},
|
||
{{"PS", "eng"}, {":", "x"}, {" ", "x"}, {"我", "r"}, {"觉得", "v"}, {"开源", "n"}, {"有", "v"}, {"一个", "m"}, {"好处", "d"}, {",", "x"}, {"就是", "d"}, {"能够", "v"}, {"敦促", "v"}, {"自己", "r"}, {"不断改进", "l"}, {",", "x"}, {"避免", "v"}, {"敞", "v"}, {"帚", "ng"}, {"自珍", "b"}},
|
||
{{"湖北省", "ns"}, {"石首市", "ns"}},
|
||
{{"湖北省", "ns"}, {"十堰市", "ns"}},
|
||
{{"总经理", "n"}, {"完成", "v"}, {"了", "ul"}, {"这件", "mq"}, {"事情", "n"}},
|
||
{{"电脑", "n"}, {"修好", "v"}, {"了", "ul"}},
|
||
{{"做好", "v"}, {"了", "ul"}, {"这件", "mq"}, {"事情", "n"}, {"就", "d"}, {"一了百了", "l"}, {"了", "ul"}},
|
||
{{"人们", "n"}, {"审美", "vn"}, {"的", "uj"}, {"观点", "n"}, {"是", "v"}, {"不同", "a"}, {"的", "uj"}},
|
||
{{"我们", "r"}, {"买", "v"}, {"了", "ul"}, {"一个", "m"}, {"美的", "nr"}, {"空调", "n"}},
|
||
{{"线程", "n"}, {"初始化", "l"}, {"时", "n"}, {"我们", "r"}, {"要", "v"}, {"注意", "v"}},
|
||
{{"一个", "m"}, {"分子", "n"}, {"是", "v"}, {"由", "p"}, {"好多", "m"}, {"原子", "n"}, {"组织", "v"}, {"成", "v"}, {"的", "uj"}},
|
||
{{"祝", "v"}, {"你", "r"}, {"马到功成", "i"}},
|
||
{{"他", "r"}, {"掉", "v"}, {"进", "v"}, {"了", "ul"}, {"无底洞", "ns"}, {"里", "f"}},
|
||
{{"中国", "ns"}, {"的", "uj"}, {"首都", "d"}, {"是", "v"}, {"北京", "ns"}},
|
||
{{"孙君意", "nr"}},
|
||
{{"外交部", "nt"}, {"发言人", "l"}, {"马朝旭", "nr"}},
|
||
{{"领导人", "n"}, {"会议", "n"}, {"和", "c"}, {"第四届", "m"}, {"东亚", "ns"}, {"峰会", "n"}},
|
||
{{"在", "p"}, {"过去", "t"}, {"的", "uj"}, {"这", "r"}, {"五年", "t"}},
|
||
{{"还", "d"}, {"需要", "v"}, {"很", "d"}, {"长", "a"}, {"的", "uj"}, {"路", "n"}, {"要", "v"}, {"走", "v"}},
|
||
{{"60", "m"}, {"周年", "t"}, {"首都", "d"}, {"阅兵", "v"}},
|
||
{{"你好", "l"}, {"人们", "n"}, {"审美", "vn"}, {"的", "uj"}, {"观点", "n"}, {"是", "v"}, {"不同", "a"}, {"的", "uj"}},
|
||
{{"买", "v"}, {"水果", "n"}, {"然后", "c"}, {"来", "v"}, {"世博园", "nr"}},
|
||
{{"买", "v"}, {"水果", "n"}, {"然后", "c"}, {"去", "v"}, {"世博园", "nr"}},
|
||
{{"但是", "c"}, {"后来", "t"}, {"我", "r"}, {"才", "d"}, {"知道", "v"}, {"你", "r"}, {"是", "v"}, {"对", "p"}, {"的", "uj"}},
|
||
{{"存在", "v"}, {"即", "v"}, {"合理", "vn"}},
|
||
{{"的的", "u"}, {"的的", "u"}, {"的", "uj"}, {"在的", "u"}, {"的的", "u"}, {"的", "uj"}, {"就", "d"}, {"以", "p"}, {"和和", "nz"}, {"和", "c"}},
|
||
{{"I", "x"}, {" ", "x"}, {"love", "eng"}, {"你", "r"}, {",", "x"}, {"不以为耻", "i"}, {",", "x"}, {"反", "zg"}, {"以为", "c"}, {"rong", "eng"}},
|
||
{{"因", "p"}},
|
||
{},
|
||
{{"hello", "eng"}, {"你好", "l"}, {"人们", "n"}, {"审美", "vn"}, {"的", "uj"}, {"观点", "n"}, {"是", "v"}, {"不同", "a"}, {"的", "uj"}},
|
||
{{"很好", "a"}, {"但", "c"}, {"主要", "b"}, {"是", "v"}, {"基于", "p"}, {"网页", "n"}, {"形式", "n"}},
|
||
{{"hello", "eng"}, {"你好", "l"}, {"人们", "n"}, {"审美", "vn"}, {"的", "uj"}, {"观点", "n"}, {"是", "v"}, {"不同", "a"}, {"的", "uj"}},
|
||
{{"为什么", "r"}, {"我", "r"}, {"不能", "v"}, {"拥有", "v"}, {"想要", "v"}, {"的", "uj"}, {"生活", "vn"}},
|
||
{{"后来", "t"}, {"我", "r"}, {"才", "d"}},
|
||
{{"此次", "r"}, {"来", "v"}, {"中国", "ns"}, {"是", "v"}, {"为了", "p"}},
|
||
{{"使用", "v"}, {"了", "ul"}, {"它", "r"}, {"就", "d"}, {"可以", "c"}, {"解决", "v"}, {"一些", "m"}, {"问题", "n"}},
|
||
{{",", "x"}, {"使用", "v"}, {"了", "ul"}, {"它", "r"}, {"就", "d"}, {"可以", "c"}, {"解决", "v"}, {"一些", "m"}, {"问题", "n"}},
|
||
{{"其实", "d"}, {"使用", "v"}, {"了", "ul"}, {"它", "r"}, {"就", "d"}, {"可以", "c"}, {"解决", "v"}, {"一些", "m"}, {"问题", "n"}},
|
||
{{"好人", "n"}, {"使用", "v"}, {"了", "ul"}, {"它", "r"}, {"就", "d"}, {"可以", "c"}, {"解决", "v"}, {"一些", "m"}, {"问题", "n"}},
|
||
{{"是因为", "c"}, {"和", "c"}, {"国家", "n"}},
|
||
{{"老年", "t"}, {"搜索", "v"}, {"还", "d"}, {"支持", "v"}},
|
||
{{"干脆", "d"}, {"就", "d"}, {"把", "p"}, {"那部", "r"}, {"蒙人", "n"}, {"的", "uj"}, {"闲法", "n"}, {"给", "p"}, {"废", "v"}, {"了", "ul"}, {"拉倒", "v"}, {"!", "x"}, {"RT", "eng"}, {" ", "x"}, {"@", "x"}, {"laoshipukong", "eng"}, {" ", "x"}, {":", "x"}, {" ", "x"}, {"27", "m"}, {"日", "m"}, {",", "x"}, {"全国人大常委会", "nt"}, {"第三次", "m"}, {"审议", "v"}, {"侵权", "v"}, {"责任法", "n"}, {"草案", "n"}, {",", "x"}, {"删除", "v"}, {"了", "ul"}, {"有关", "vn"}, {"医疗", "n"}, {"损害", "v"}, {"责任", "n"}, {"“", "x"}, {"举证", "v"}, {"倒置", "v"}, {"”", "x"}, {"的", "uj"}, {"规定", "n"}, {"。", "x"}, {"在", "p"}, {"医患", "n"}, {"纠纷", "n"}, {"中本", "ns"}, {"已", "d"}, {"处于", "v"}, {"弱势", "n"}, {"地位", "n"}, {"的", "uj"}, {"消费者", "n"}, {"由此", "c"}, {"将", "d"}, {"陷入", "v"}, {"万劫不复", "i"}, {"的", "uj"}, {"境地", "s"}, {"。", "x"}, {" ", "x"}},
|
||
{{"大", "a"}},
|
||
{},
|
||
{{"他", "r"}, {"说", "v"}, {"的", "uj"}, {"确实", "ad"}, {"在", "p"}, {"理", "n"}},
|
||
{{"长春", "ns"}, {"市长", "n"}, {"春节", "t"}, {"讲话", "n"}},
|
||
{{"结婚", "v"}, {"的", "uj"}, {"和", "c"}, {"尚未", "d"}, {"结婚", "v"}, {"的", "uj"}},
|
||
{{"结合", "v"}, {"成", "n"}, {"分子", "n"}, {"时", "n"}},
|
||
{{"旅游", "vn"}, {"和", "c"}, {"服务", "vn"}, {"是", "v"}, {"最好", "a"}, {"的", "uj"}},
|
||
{{"这件", "mq"}, {"事情", "n"}, {"的确", "d"}, {"是", "v"}, {"我", "r"}, {"的", "uj"}, {"错", "n"}},
|
||
{{"供", "v"}, {"大家", "n"}, {"参考", "v"}, {"指正", "v"}},
|
||
{{"哈尔滨", "ns"}, {"政府", "n"}, {"公布", "v"}, {"塌", "v"}, {"桥", "n"}, {"原因", "n"}},
|
||
{{"我", "r"}, {"在", "p"}, {"机场", "n"}, {"入口处", "i"}},
|
||
{{"邢永臣", "nr"}, {"摄影", "n"}, {"报道", "v"}},
|
||
{{"BP", "eng"}, {"神经网络", "n"}, {"如何", "r"}, {"训练", "vn"}, {"才能", "v"}, {"在", "p"}, {"分类", "n"}, {"时", "n"}, {"增加", "v"}, {"区分度", "n"}, {"?", "x"}},
|
||
{{"南京市", "ns"}, {"长江大桥", "ns"}},
|
||
{{"应", "v"}, {"一些", "m"}, {"使用者", "n"}, {"的", "uj"}, {"建议", "n"}, {",", "x"}, {"也", "d"}, {"为了", "p"}, {"便于", "v"}, {"利用", "n"}, {"NiuTrans", "eng"}, {"用于", "v"}, {"SMT", "eng"}, {"研究", "vn"}},
|
||
{{"长春市", "ns"}, {"长春", "ns"}, {"药店", "n"}},
|
||
{{"邓颖超", "nr"}, {"生前", "t"}, {"最", "d"}, {"喜欢", "v"}, {"的", "uj"}, {"衣服", "n"}},
|
||
{{"胡锦涛", "nr"}, {"是", "v"}, {"热爱", "a"}, {"世界", "n"}, {"和平", "nz"}, {"的", "uj"}, {"政治局", "n"}, {"常委", "j"}},
|
||
{{"程序员", "n"}, {"祝", "v"}, {"海林", "nz"}, {"和", "c"}, {"朱会震", "nr"}, {"是", "v"}, {"在", "p"}, {"孙健", "nr"}, {"的", "uj"}, {"左面", "f"}, {"和", "c"}, {"右面", "f"}, {",", "x"}, {" ", "x"}, {"范凯", "nr"}, {"在", "p"}, {"最", "a"}, {"右面", "f"}, {".", "m"}, {"再往", "d"}, {"左", "f"}, {"是", "v"}, {"李松洪", "nr"}},
|
||
{{"一次性", "d"}, {"交", "v"}, {"多少", "m"}, {"钱", "n"}},
|
||
{{"两块", "m"}, {"五", "m"}, {"一套", "m"}, {",", "x"}, {"三块", "m"}, {"八", "m"}, {"一斤", "m"}, {",", "x"}, {"四块", "m"}, {"七", "m"}, {"一本", "m"}, {",", "x"}, {"五块", "m"}, {"六", "m"}, {"一条", "m"}},
|
||
{{"小", "a"}, {"和尚", "nr"}, {"留", "v"}, {"了", "ul"}, {"一个", "m"}, {"像", "v"}, {"大", "a"}, {"和尚", "nr"}, {"一样", "r"}, {"的", "uj"}, {"和尚头", "nr"}},
|
||
{{"我", "r"}, {"是", "v"}, {"中华人民共和国", "ns"}, {"公民", "n"}, {";", "x"}, {"我", "r"}, {"爸爸", "n"}, {"是", "v"}, {"共和党", "nt"}, {"党员", "n"}, {";", "x"}, {" ", "x"}, {"地铁", "n"}, {"和平门", "ns"}, {"站", "v"}},
|
||
{{"张晓梅", "nr"}, {"去", "v"}, {"人民", "n"}, {"医院", "n"}, {"做", "v"}, {"了", "ul"}, {"个", "q"}, {"B超", "n"}, {"然后", "c"}, {"去", "v"}, {"买", "v"}, {"了", "ul"}, {"件", "q"}, {"T恤", "n"}},
|
||
{{"AT&T", "nz"}, {"是", "v"}, {"一件", "m"}, {"不错", "a"}, {"的", "uj"}, {"公司", "n"}, {",", "x"}, {"给", "p"}, {"你", "r"}, {"发", "v"}, {"offer", "eng"}, {"了", "ul"}, {"吗", "y"}, {"?", "x"}},
|
||
{{"C++", "nz"}, {"和", "c"}, {"c#", "nz"}, {"是", "v"}, {"什么", "r"}, {"关系", "n"}, {"?", "x"}, {"11", "m"}, {"+", "x"}, {"122", "m"}, {"=", "x"}, {"133", "m"}, {",", "x"}, {"是", "v"}, {"吗", "y"}, {"?", "x"}, {"PI", "eng"}, {"=", "x"}, {"3.14159", "m"}},
|
||
{{"你", "r"}, {"认识", "v"}, {"那个", "r"}, {"和", "c"}, {"主席", "n"}, {"握手", "v"}, {"的", "uj"}, {"的哥", "n"}, {"吗", "y"}, {"?", "x"}, {"他", "r"}, {"开", "v"}, {"一辆", "m"}, {"黑色", "n"}, {"的士", "n"}, {"。", "x"}},
|
||
{{"枪杆子", "n"}, {"中", "f"}, {"出", "v"}, {"政权", "n"}},
|
||
}
|
||
noHMMCutResult = [][]Segment{
|
||
{{"这", "r"}, {"是", "v"}, {"一个", "m"}, {"伸手不见五指", "i"}, {"的", "uj"}, {"黑夜", "n"}, {"。", "x"}, {"我", "r"}, {"叫", "v"}, {"孙悟空", "nr"}, {",", "x"}, {"我", "r"}, {"爱", "v"}, {"北京", "ns"}, {",", "x"}, {"我", "r"}, {"爱", "v"}, {"Python", "eng"}, {"和", "c"}, {"C++", "nz"}, {"。", "x"}},
|
||
{{"我", "r"}, {"不", "d"}, {"喜欢", "v"}, {"日本", "ns"}, {"和服", "nz"}, {"。", "x"}},
|
||
{{"雷猴", "n"}, {"回归", "v"}, {"人间", "n"}, {"。", "x"}},
|
||
{{"工信处", "n"}, {"女干事", "n"}, {"每月", "r"}, {"经过", "p"}, {"下属", "v"}, {"科室", "n"}, {"都", "d"}, {"要", "v"}, {"亲口", "n"}, {"交代", "n"}, {"24", "eng"}, {"口", "q"}, {"交换机", "n"}, {"等", "u"}, {"技术性", "n"}, {"器件", "n"}, {"的", "uj"}, {"安装", "v"}, {"工作", "vn"}},
|
||
{{"我", "r"}, {"需要", "v"}, {"廉租房", "n"}},
|
||
{{"永和", "nz"}, {"服装", "vn"}, {"饰品", "n"}, {"有限公司", "n"}},
|
||
{{"我", "r"}, {"爱", "v"}, {"北京", "ns"}, {"天安门", "ns"}},
|
||
{{"abc", "eng"}},
|
||
{{"隐", "n"}, {"马尔可夫", "nr"}},
|
||
{{"雷猴", "n"}, {"是", "v"}, {"个", "q"}, {"好", "a"}, {"网站", "n"}},
|
||
{{"“", "x"}, {"Microsoft", "eng"}, {"”", "x"}, {"一", "m"}, {"词", "n"}, {"由", "p"}, {"“", "x"}, {"MICROcomputer", "eng"}, {"(", "x"}, {"微型", "b"}, {"计算机", "n"}, {")", "x"}, {"”", "x"}, {"和", "c"}, {"“", "x"}, {"SOFTware", "eng"}, {"(", "x"}, {"软件", "n"}, {")", "x"}, {"”", "x"}, {"两", "m"}, {"部分", "n"}, {"组成", "v"}},
|
||
{{"草泥马", "n"}, {"和", "c"}, {"欺", "vn"}, {"实", "n"}, {"马", "n"}, {"是", "v"}, {"今年", "t"}, {"的", "uj"}, {"流行", "v"}, {"词汇", "n"}},
|
||
{{"伊", "ns"}, {"藤", "nr"}, {"洋华堂", "n"}, {"总府", "n"}, {"店", "n"}},
|
||
{{"中国科学院计算技术研究所", "nt"}},
|
||
{{"罗密欧", "nr"}, {"与", "p"}, {"朱丽叶", "nr"}},
|
||
{{"我", "r"}, {"购买", "v"}, {"了", "ul"}, {"道具", "n"}, {"和", "c"}, {"服装", "vn"}},
|
||
{{"PS", "eng"}, {":", "x"}, {" ", "x"}, {"我", "r"}, {"觉得", "v"}, {"开源", "n"}, {"有", "v"}, {"一个", "m"}, {"好处", "d"}, {",", "x"}, {"就是", "d"}, {"能够", "v"}, {"敦促", "v"}, {"自己", "r"}, {"不断改进", "l"}, {",", "x"}, {"避免", "v"}, {"敞", "v"}, {"帚", "ng"}, {"自珍", "b"}},
|
||
{{"湖北省", "ns"}, {"石首市", "ns"}},
|
||
{{"湖北省", "ns"}, {"十堰市", "ns"}},
|
||
{{"总经理", "n"}, {"完成", "v"}, {"了", "ul"}, {"这件", "mq"}, {"事情", "n"}},
|
||
{{"电脑", "n"}, {"修好", "v"}, {"了", "ul"}},
|
||
{{"做好", "v"}, {"了", "ul"}, {"这件", "mq"}, {"事情", "n"}, {"就", "d"}, {"一了百了", "l"}, {"了", "ul"}},
|
||
{{"人们", "n"}, {"审美", "vn"}, {"的", "uj"}, {"观点", "n"}, {"是", "v"}, {"不同", "a"}, {"的", "uj"}},
|
||
{{"我们", "r"}, {"买", "v"}, {"了", "ul"}, {"一个", "m"}, {"美的", "nr"}, {"空调", "n"}},
|
||
{{"线程", "n"}, {"初始化", "l"}, {"时", "n"}, {"我们", "r"}, {"要", "v"}, {"注意", "v"}},
|
||
{{"一个", "m"}, {"分子", "n"}, {"是", "v"}, {"由", "p"}, {"好多", "m"}, {"原子", "n"}, {"组织", "v"}, {"成", "n"}, {"的", "uj"}},
|
||
{{"祝", "v"}, {"你", "r"}, {"马到功成", "i"}},
|
||
{{"他", "r"}, {"掉", "zg"}, {"进", "v"}, {"了", "ul"}, {"无底洞", "ns"}, {"里", "f"}},
|
||
{{"中国", "ns"}, {"的", "uj"}, {"首都", "d"}, {"是", "v"}, {"北京", "ns"}},
|
||
{{"孙", "zg"}, {"君", "nz"}, {"意", "n"}},
|
||
{{"外交部", "nt"}, {"发言人", "l"}, {"马朝旭", "nr"}},
|
||
{{"领导人", "n"}, {"会议", "n"}, {"和", "c"}, {"第四届", "m"}, {"东亚", "ns"}, {"峰会", "n"}},
|
||
{{"在", "p"}, {"过去", "t"}, {"的", "uj"}, {"这", "r"}, {"五年", "t"}},
|
||
{{"还", "d"}, {"需要", "v"}, {"很", "zg"}, {"长", "a"}, {"的", "uj"}, {"路", "n"}, {"要", "v"}, {"走", "v"}},
|
||
{{"60", "eng"}, {"周年", "t"}, {"首都", "d"}, {"阅兵", "v"}},
|
||
{{"你好", "l"}, {"人们", "n"}, {"审美", "vn"}, {"的", "uj"}, {"观点", "n"}, {"是", "v"}, {"不同", "a"}, {"的", "uj"}},
|
||
{{"买", "v"}, {"水果", "n"}, {"然后", "c"}, {"来", "v"}, {"世博园", "nr"}},
|
||
{{"买", "v"}, {"水果", "n"}, {"然后", "c"}, {"去", "v"}, {"世博园", "nr"}},
|
||
{{"但是", "c"}, {"后来", "t"}, {"我", "r"}, {"才", "d"}, {"知道", "v"}, {"你", "r"}, {"是", "v"}, {"对", "p"}, {"的", "uj"}},
|
||
{{"存在", "v"}, {"即", "v"}, {"合理", "vn"}},
|
||
{{"的", "uj"}, {"的", "uj"}, {"的", "uj"}, {"的", "uj"}, {"的", "uj"}, {"在", "p"}, {"的", "uj"}, {"的", "uj"}, {"的", "uj"}, {"的", "uj"}, {"就", "d"}, {"以", "p"}, {"和", "c"}, {"和", "c"}, {"和", "c"}},
|
||
{{"I", "eng"}, {" ", "x"}, {"love", "eng"}, {"你", "r"}, {",", "x"}, {"不以为耻", "i"}, {",", "x"}, {"反", "zg"}, {"以为", "c"}, {"rong", "eng"}},
|
||
{{"因", "p"}},
|
||
{},
|
||
{{"hello", "eng"}, {"你好", "l"}, {"人们", "n"}, {"审美", "vn"}, {"的", "uj"}, {"观点", "n"}, {"是", "v"}, {"不同", "a"}, {"的", "uj"}},
|
||
{{"很", "zg"}, {"好", "a"}, {"但", "c"}, {"主要", "b"}, {"是", "v"}, {"基于", "p"}, {"网页", "n"}, {"形式", "n"}},
|
||
{{"hello", "eng"}, {"你好", "l"}, {"人们", "n"}, {"审美", "vn"}, {"的", "uj"}, {"观点", "n"}, {"是", "v"}, {"不同", "a"}, {"的", "uj"}},
|
||
{{"为什么", "r"}, {"我", "r"}, {"不能", "v"}, {"拥有", "v"}, {"想要", "v"}, {"的", "uj"}, {"生活", "vn"}},
|
||
{{"后来", "t"}, {"我", "r"}, {"才", "d"}},
|
||
{{"此次", "r"}, {"来", "v"}, {"中国", "ns"}, {"是", "v"}, {"为了", "p"}},
|
||
{{"使用", "v"}, {"了", "ul"}, {"它", "r"}, {"就", "d"}, {"可以", "c"}, {"解决", "v"}, {"一些", "m"}, {"问题", "n"}},
|
||
{{",", "x"}, {"使用", "v"}, {"了", "ul"}, {"它", "r"}, {"就", "d"}, {"可以", "c"}, {"解决", "v"}, {"一些", "m"}, {"问题", "n"}},
|
||
{{"其实", "d"}, {"使用", "v"}, {"了", "ul"}, {"它", "r"}, {"就", "d"}, {"可以", "c"}, {"解决", "v"}, {"一些", "m"}, {"问题", "n"}},
|
||
{{"好人", "n"}, {"使用", "v"}, {"了", "ul"}, {"它", "r"}, {"就", "d"}, {"可以", "c"}, {"解决", "v"}, {"一些", "m"}, {"问题", "n"}},
|
||
{{"是因为", "c"}, {"和", "c"}, {"国家", "n"}},
|
||
{{"老年", "t"}, {"搜索", "v"}, {"还", "d"}, {"支持", "v"}},
|
||
{{"干脆", "d"}, {"就", "d"}, {"把", "p"}, {"那", "r"}, {"部", "n"}, {"蒙", "v"}, {"人", "n"}, {"的", "uj"}, {"闲", "n"}, {"法", "j"}, {"给", "p"}, {"废", "v"}, {"了", "ul"}, {"拉倒", "v"}, {"!", "x"}, {"RT", "eng"}, {" ", "x"}, {"@", "x"}, {"laoshipukong", "eng"}, {" ", "x"}, {":", "x"}, {" ", "x"}, {"27", "eng"}, {"日", "m"}, {",", "x"}, {"全国人大常委会", "nt"}, {"第三次", "m"}, {"审议", "v"}, {"侵权", "v"}, {"责任法", "n"}, {"草案", "n"}, {",", "x"}, {"删除", "v"}, {"了", "ul"}, {"有关", "vn"}, {"医疗", "n"}, {"损害", "v"}, {"责任", "n"}, {"“", "x"}, {"举证", "v"}, {"倒置", "v"}, {"”", "x"}, {"的", "uj"}, {"规定", "n"}, {"。", "x"}, {"在", "p"}, {"医患", "n"}, {"纠纷", "n"}, {"中", "f"}, {"本", "r"}, {"已", "d"}, {"处于", "v"}, {"弱势", "n"}, {"地位", "n"}, {"的", "uj"}, {"消费者", "n"}, {"由此", "c"}, {"将", "d"}, {"陷入", "v"}, {"万劫不复", "i"}, {"的", "uj"}, {"境地", "s"}, {"。", "x"}, {" ", "x"}},
|
||
{{"大", "a"}},
|
||
{},
|
||
{{"他", "r"}, {"说", "v"}, {"的", "uj"}, {"确实", "ad"}, {"在", "p"}, {"理", "n"}},
|
||
{{"长春", "ns"}, {"市长", "n"}, {"春节", "t"}, {"讲话", "n"}},
|
||
{{"结婚", "v"}, {"的", "uj"}, {"和", "c"}, {"尚未", "d"}, {"结婚", "v"}, {"的", "uj"}},
|
||
{{"结合", "v"}, {"成", "n"}, {"分子", "n"}, {"时", "n"}},
|
||
{{"旅游", "vn"}, {"和", "c"}, {"服务", "vn"}, {"是", "v"}, {"最好", "a"}, {"的", "uj"}},
|
||
{{"这件", "mq"}, {"事情", "n"}, {"的确", "d"}, {"是", "v"}, {"我", "r"}, {"的", "uj"}, {"错", "v"}},
|
||
{{"供", "v"}, {"大家", "n"}, {"参考", "v"}, {"指正", "v"}},
|
||
{{"哈尔滨", "ns"}, {"政府", "n"}, {"公布", "v"}, {"塌", "v"}, {"桥", "n"}, {"原因", "n"}},
|
||
{{"我", "r"}, {"在", "p"}, {"机场", "n"}, {"入口处", "i"}},
|
||
{{"邢", "nr"}, {"永", "ns"}, {"臣", "n"}, {"摄影", "n"}, {"报道", "v"}},
|
||
{{"BP", "eng"}, {"神经网络", "n"}, {"如何", "r"}, {"训练", "vn"}, {"才能", "v"}, {"在", "p"}, {"分类", "n"}, {"时", "n"}, {"增加", "v"}, {"区分度", "n"}, {"?", "x"}},
|
||
{{"南京市", "ns"}, {"长江大桥", "ns"}},
|
||
{{"应", "v"}, {"一些", "m"}, {"使用者", "n"}, {"的", "uj"}, {"建议", "n"}, {",", "x"}, {"也", "d"}, {"为了", "p"}, {"便于", "v"}, {"利用", "n"}, {"NiuTrans", "eng"}, {"用于", "v"}, {"SMT", "eng"}, {"研究", "vn"}},
|
||
{{"长春市", "ns"}, {"长春", "ns"}, {"药店", "n"}},
|
||
{{"邓颖超", "nr"}, {"生前", "t"}, {"最", "d"}, {"喜欢", "v"}, {"的", "uj"}, {"衣服", "n"}},
|
||
{{"胡锦涛", "nr"}, {"是", "v"}, {"热爱", "a"}, {"世界", "n"}, {"和平", "nz"}, {"的", "uj"}, {"政治局", "n"}, {"常委", "j"}},
|
||
{{"程序员", "n"}, {"祝", "v"}, {"海林", "nz"}, {"和", "c"}, {"朱", "nr"}, {"会", "v"}, {"震", "v"}, {"是", "v"}, {"在", "p"}, {"孙", "zg"}, {"健", "a"}, {"的", "uj"}, {"左面", "f"}, {"和", "c"}, {"右面", "f"}, {",", "x"}, {" ", "x"}, {"范", "nr"}, {"凯", "nr"}, {"在", "p"}, {"最", "d"}, {"右面", "f"}, {".", "x"}, {"再", "d"}, {"往", "zg"}, {"左", "m"}, {"是", "v"}, {"李", "nr"}, {"松", "v"}, {"洪", "nr"}},
|
||
{{"一次性", "d"}, {"交", "v"}, {"多少", "m"}, {"钱", "n"}},
|
||
{{"两块", "m"}, {"五", "m"}, {"一套", "m"}, {",", "x"}, {"三块", "m"}, {"八", "m"}, {"一斤", "m"}, {",", "x"}, {"四块", "m"}, {"七", "m"}, {"一本", "m"}, {",", "x"}, {"五块", "m"}, {"六", "m"}, {"一条", "m"}},
|
||
{{"小", "a"}, {"和尚", "nr"}, {"留", "v"}, {"了", "ul"}, {"一个", "m"}, {"像", "v"}, {"大", "a"}, {"和尚", "nr"}, {"一样", "r"}, {"的", "uj"}, {"和尚头", "nr"}},
|
||
{{"我", "r"}, {"是", "v"}, {"中华人民共和国", "ns"}, {"公民", "n"}, {";", "x"}, {"我", "r"}, {"爸爸", "n"}, {"是", "v"}, {"共和党", "nt"}, {"党员", "n"}, {";", "x"}, {" ", "x"}, {"地铁", "n"}, {"和平门", "ns"}, {"站", "v"}},
|
||
{{"张晓梅", "nr"}, {"去", "v"}, {"人民", "n"}, {"医院", "n"}, {"做", "v"}, {"了", "ul"}, {"个", "q"}, {"B超", "n"}, {"然后", "c"}, {"去", "v"}, {"买", "v"}, {"了", "ul"}, {"件", "zg"}, {"T恤", "n"}},
|
||
{{"AT&T", "nz"}, {"是", "v"}, {"一件", "m"}, {"不错", "a"}, {"的", "uj"}, {"公司", "n"}, {",", "x"}, {"给", "p"}, {"你", "r"}, {"发", "v"}, {"offer", "eng"}, {"了", "ul"}, {"吗", "y"}, {"?", "x"}},
|
||
{{"C++", "nz"}, {"和", "c"}, {"c#", "nz"}, {"是", "v"}, {"什么", "r"}, {"关系", "n"}, {"?", "x"}, {"11", "eng"}, {"+", "x"}, {"122", "eng"}, {"=", "x"}, {"133", "eng"}, {",", "x"}, {"是", "v"}, {"吗", "y"}, {"?", "x"}, {"PI", "eng"}, {"=", "x"}, {"3", "eng"}, {".", "x"}, {"14159", "eng"}},
|
||
{{"你", "r"}, {"认识", "v"}, {"那个", "r"}, {"和", "c"}, {"主席", "n"}, {"握手", "v"}, {"的", "uj"}, {"的哥", "n"}, {"吗", "y"}, {"?", "x"}, {"他", "r"}, {"开", "v"}, {"一辆", "m"}, {"黑色", "n"}, {"的士", "n"}, {"。", "x"}},
|
||
{{"枪杆子", "n"}, {"中", "f"}, {"出", "v"}, {"政权", "n"}},
|
||
}
|
||
)
|
||
|
||
func TestCut(t *testing.T) {
|
||
for index, content := range testContents {
|
||
result := seg.Cut(content, true)
|
||
if len(defaultCutResult[index]) != len(result) {
|
||
t.Errorf("default cut for %s length should be %d not %d\n",
|
||
content, len(defaultCutResult[index]), len(result))
|
||
t.Errorf("expect: %v\n", defaultCutResult[index])
|
||
t.Fatalf("got: %v\n", result)
|
||
}
|
||
for i := range result {
|
||
if result[i] != defaultCutResult[index][i] {
|
||
t.Fatalf("expect %s, got %s", defaultCutResult[index][i], result[i])
|
||
}
|
||
}
|
||
result = seg.Cut(content, false)
|
||
if len(noHMMCutResult[index]) != len(result) {
|
||
t.Fatal(content)
|
||
}
|
||
for i := range result {
|
||
if result[i] != noHMMCutResult[index][i] {
|
||
t.Fatal(content)
|
||
}
|
||
}
|
||
|
||
}
|
||
}
|
||
|
||
// https://github.com/fxsjy/jieba/issues/132
|
||
func TestBug132(t *testing.T) {
|
||
sentence := "又跛又啞"
|
||
cutResult := []Segment{
|
||
{"又", "d"},
|
||
{"跛", "a"},
|
||
{"又", "d"},
|
||
{"啞", "v"},
|
||
}
|
||
result := seg.Cut(sentence, true)
|
||
if len(cutResult) != len(result) {
|
||
t.Fatal(result)
|
||
}
|
||
for i := range result {
|
||
if result[i] != cutResult[i] {
|
||
t.Fatal(result[i])
|
||
}
|
||
}
|
||
}
|
||
|
||
// https://github.com/fxsjy/jieba/issues/137
|
||
func TestBug137(t *testing.T) {
|
||
sentence := "前港督衛奕信在八八年十月宣布成立中央政策研究組"
|
||
cutResult := []Segment{
|
||
{"前", "f"},
|
||
{"港督", "n"},
|
||
{"衛奕", "z"},
|
||
{"信", "n"},
|
||
{"在", "p"},
|
||
{"八八年", "m"},
|
||
{"十月", "t"},
|
||
{"宣布", "v"},
|
||
{"成立", "v"},
|
||
{"中央", "n"},
|
||
{"政策", "n"},
|
||
{"研究", "vn"},
|
||
{"組", "x"},
|
||
}
|
||
result := seg.Cut(sentence, true)
|
||
if len(cutResult) != len(result) {
|
||
t.Fatal(result)
|
||
}
|
||
for i := range result {
|
||
if result[i] != cutResult[i] {
|
||
t.Fatal(result[i])
|
||
}
|
||
}
|
||
}
|
||
|
||
func TestUserDict(t *testing.T) {
|
||
seg.LoadUserDictionaryAt("../userdict.txt")
|
||
defer func() {
|
||
seg, _ = LoadDictionaryAt("../dict.txt")
|
||
}()
|
||
sentence := "李小福是创新办主任也是云计算方面的专家; 什么是八一双鹿例如我输入一个带“韩玉赏鉴”的标题,在自定义词库中也增加了此词为N类型"
|
||
|
||
cutResult := []Segment{
|
||
{"李小福", "nr"},
|
||
{"是", "v"},
|
||
{"创新办", "i"},
|
||
{"主任", "b"},
|
||
{"也", "d"},
|
||
{"是", "v"},
|
||
{"云计算", "x"},
|
||
{"方面", "n"},
|
||
{"的", "uj"},
|
||
{"专家", "n"},
|
||
{";", "x"},
|
||
{" ", "x"},
|
||
{"什么", "r"},
|
||
{"是", "v"},
|
||
{"八一双鹿", "nz"},
|
||
{"例如", "v"},
|
||
{"我", "r"},
|
||
{"输入", "v"},
|
||
{"一个", "m"},
|
||
{"带", "v"},
|
||
{"“", "x"},
|
||
{"韩玉赏鉴", "nz"},
|
||
{"”", "x"},
|
||
{"的", "uj"},
|
||
{"标题", "n"},
|
||
{",", "x"},
|
||
{"在", "p"},
|
||
{"自定义词", "n"},
|
||
{"库中", "nrt"},
|
||
{"也", "d"},
|
||
{"增加", "v"},
|
||
{"了", "ul"},
|
||
{"此", "r"},
|
||
{"词", "n"},
|
||
{"为", "p"},
|
||
{"N", "eng"},
|
||
{"类型", "n"}}
|
||
|
||
result := seg.Cut(sentence, true)
|
||
if len(cutResult) != len(result) {
|
||
t.Fatal(result)
|
||
}
|
||
for i := range result {
|
||
if result[i] != cutResult[i] {
|
||
t.Fatal(result[i])
|
||
}
|
||
}
|
||
}
|
||
|
||
func BenchmarkCutNoHMM(b *testing.B) {
|
||
sentence := "工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作"
|
||
b.ResetTimer()
|
||
for i := 0; i < b.N; i++ {
|
||
seg.Cut(sentence, false)
|
||
}
|
||
}
|
||
|
||
func BenchmarkCut(b *testing.B) {
|
||
sentence := "工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作"
|
||
b.ResetTimer()
|
||
for i := 0; i < b.N; i++ {
|
||
seg.Cut(sentence, true)
|
||
}
|
||
}
|