切词:
1 from pyhanlp import * 2 content = "现如今,机器学习和深度学习带动人工智能飞速的发展,并在图片处理、语音识别领域取得巨大成功。" 3 CoreStopWordDictionary = JClass("com.hankcs.hanlp.dictionary.stopword.CoreStopWordDictionary") 4 Get_value=HanLP.segment(content) 5 print(Get_value)
加词典:
1 from pyhanlp import * 2 content = "现如今,机器学习和深度学习带动人工智能飞速的发展,并在图片处理、语音识别领域取得巨大成功。" 3 CoreStopWordDictionary = JClass("com.hankcs.hanlp.dictionary.stopword.CoreStopWordDictionary") 4 Get_value=HanLP.segment(content) 5 print("加词典前:\n",Get_value) 6 # insert会覆盖字典中已经存在的词,add会跳过已经存在的词 7 CustomDictionary.add("图片处理", "nr 300") 8 CustomDictionary.insert("语音识别", "nz 1024") 9 CustomDictionary.add("巨大成功", "nz 1024 n 1") 10 11 Get_value=HanLP.segment(content) 12 print("加词典后:\n",Get_value) 13 for term in Get_value: 14 print(term) 15 print('{}\t{}'.format(term.word, term.nature))
关键字、摘要、短语
1 from pyhanlp import * 2 document = "水利部水资源司司长陈明忠9月29日在国务院新闻办举行的新闻发布会上透露," \ 3 "根据刚刚完成了水资源管理制度的考核,有部分省接近了红线的指标," \ 4 "有部分省超过红线的指标,对一些超过红线的地方,陈明忠表示,对一些取用水项目进行区域的限批," \ 5 "严格地进行水资源论证和取水许可的批准。"
关键字:
#关键字 print(HanLP.extractKeyword(document, 2))
摘要:
#摘要 print(HanLP.extractSummary(document, 4))
短语:
#短语 phrases = HanLP.extractPhrase(document,10) print(phrases)
依法依据分析
#依法依据分析 sentence = HanLP.parseDependency(document) for word in sentence.iterator(): # 通过dir()可以查看sentence的方法 print("%d %s/%s --(%s)--> %s(%s)" % (word.ID, word.LEMMA, word.POSTAG, word.DEPREL, word.HEAD.LEMMA, word.HEAD.ID))
停用词:
方法一:动态添加停用词:
1 # 停用词 2 3 # 在import pyhanlp之前编译自己的Java class,并放入pyhanlp/static中 4 import os 5 from pyhanlp import * 6 from pyhanlp.static import STATIC_ROOT, HANLP_JAR_PATH 7 8 java_code_path = os.path.join(STATIC_ROOT, 'MyFilter.java') 9 with open(java_code_path, 'w') as out: 10 java_code = """ 11 import com.hankcs.hanlp.dictionary.stopword.CoreStopWordDictionary; 12 import com.hankcs.hanlp.dictionary.stopword.Filter; 13 import com.hankcs.hanlp.seg.common.Term; 14 15 public class MyFilter implements Filter 16 { 17 public boolean shouldInclude(Term term) 18 { 19 if (term.nature.startsWith('m')) return true; // 数词保留 20 return !CoreStopWordDictionary.contains(term.word); // 停用词过滤 21 } 22 } 23 """ 24 out.write(java_code) 25 os.system('javac -cp {} {} -d {}'.format(HANLP_JAR_PATH, java_code_path, STATIC_ROOT)) 26 # 编译结束才可以启动hanlp 27 CoreStopWordDictionary = JClass("com.hankcs.hanlp.dictionary.stopword.CoreStopWordDictionary") 28 Filter = JClass("com.hankcs.hanlp.dictionary.stopword.Filter") 29 Term = JClass("com.hankcs.hanlp.seg.common.Term") 30 BasicTokenizer = JClass("com.hankcs.hanlp.tokenizer.BasicTokenizer") 31 NotionalTokenizer = JClass("com.hankcs.hanlp.tokenizer.NotionalTokenizer") 32 33 text = "小区居民有的反对喂养流浪猫,而有的居民却赞成喂养这些小宝贝" 34 # 可以动态修改停用词词典 35 CoreStopWordDictionary.add("居民") 36 print(NotionalTokenizer.segment(text)) 37 38 CoreStopWordDictionary.remove("居民") 39 print(HanLP.extractKeyword(text, 20)) 40 print(NotionalTokenizer.segment(text)) 41 42 # 可以对任意分词器的结果执行过滤 43 term_list = BasicTokenizer.segment(text) 44 print(term_list) 45 CoreStopWordDictionary.apply(term_list) 46 print(term_list) 47 48 # 还可以自定义过滤逻辑 49 MyFilter = JClass('MyFilter') 50 CoreStopWordDictionary.FILTER = MyFilter() 51 print(NotionalTokenizer.segment("数字123安全的保留")) # “的”位于stopwords.txt所以被过滤,数字得到保留动态添加停用词
方法二:修改stopswords.txt(本txt可以任意安放不需要按照其他教程中修改handle自带stopswords.txt)
stopwords.txt:
1 去年 2 nan 3 安全 4 食品 5 一个 6 中国 7 自己 8 可以 9 我们 10 他们 11 美国 12 没有 13 问题 14 这个 15 生产 16 进行 17 万元 18 现在 19 很多 20 不是 21 如果 22 这些 23 进行 24 这样 25 福喜 26 推进 27 建设 28 调查 29 什么 30 工作 31 2014 32 注册 33 公布 34 关注 35 ! 36 " 37 # 38 $ 39 % 40 & 41 ' 42 ( 43 ) 44 * 45 + 46 , 47 - 48 -- 49 . 50 .. 51 ... 52 ...... 53 ................... 54 ./ 55 .一 56 记者 57 数 58 年 59 月 60 日 61 时 62 分 63 秒 64 / 65 // 66 0 67 1 68 2 69 3 70 4 71 5 72 6 73 7 74 8 75 9 76 : 77 :// 78 :: 79 ; 80 < 81 = 82 > 83 >> 84 ? 85 @ 86 A 87 Lex 88 [ 89 \ 90 ] 91 【 92 】 93 ^ 94 _ 95 ` 96 exp 97 sub 98 sup 99 | 100 } 101 ~ 102 ~~~~ 103 · 104 × 105 ××× 106 Δ 107 Ψ 108 γ 109 μ 110 φ 111 φ. 112 В 113 — 114 —— 115 ——— 116 ‘ 117 ’ 118 ’‘ 119 “ 120 ” 121 ”, 122 … 123 …… 124 …………………………………………………③ 125 ′∈ 126 ′| 127 ℃ 128 Ⅲ 129 ↑ 130 → 131 ∈[ 132 ∪φ∈ 133 ≈ 134 ① 135 ② 136 ②c 137 ③ 138 ③] 139 ④ 140 ⑤ 141 ⑥ 142 ⑦ 143 ⑧ 144 ⑨ 145 ⑩ 146 ── 147 ■ 148 ▲ 149 150 、 151 。 152 〈 153 〉 154 《 155 》 156 》), 157 」 158 『 159 』 160 〔 161 〕 162 〕〔 163 ㈧ 164 一 165 一. 166 一一 167 一下 168 一些 169 一何 170 一切 171 一则 172 一则通过 173 一天 174 一定 175 一方面 176 一旦 177 一时 178 一来 179 一样 180 一次 181 一片 182 一番 183 一直 184 一致 185 一般 186 一起 187 一转眼 188 一边 189 一面 190 七 191 万一 192 三 193 三天两头 194 三番两次 195 三番五次 196 上 197 上下 198 上升 199 上去 200 上来 201 上述 202 上面 203 下 204 下列 205 下去 206 下来 207 下面 208 不 209 不一 210 不下 211 不久 212 不了 213 不亦乐乎 214 不仅 215 不仅...而且 216 不仅仅 217 不仅仅是 218 不会 219 不但 220 不但...而且 221 不光 222 不免 223 不再 224 不力 225 不单 226 不变 227 不只 228 不可 229 不可开交 230 不可抗拒 231 不同 232 不外 233 不外乎 234 不够 235 不大 236 不如 237 不妨 238 不定 239 不对 240 不少 241 不尽 242 不尽然 243 不巧 244 不已 245 不常 246 不得 247 不得不 248 不得了 249 不得已 250 不必 251 不怎么 252 不怕 253 不惟 254 不成 255 不拘 256 不择手段 257 不敢 258 不料 259 不断 260 不日 261 不时 262 不曾 263 不止 264 不止一次 265 不比 266 不消 267 不满 268 不然 269 不然的话 270 不特 271 不独 272 不由得 273 不知不觉 274 不管 275 不管怎样 276 不经意 277 不胜 278 不能 279 不能不 280 不至于 281 不若 282 不要 283 不论 284 不起 285 不足 286 不过 287 不迭 288 不问 289 不限 290 与 291 与其 292 与其说 293 与否 294 与此同时 295 专门 296 且 297 且不说 298 且说 299 两者 300 严格 301 严重 302 个 303 个人 304 个别 305 中小 306 中间 307 丰富 308 串行 309 临 310 临到 311 为 312 为主 313 为了 314 为什么 315 为什麽 316 为何 317 为止 318 为此 319 为着 320 主张 321 主要 322 举凡 323 举行 324 乃 325 乃至 326 乃至于 327 么 328 之 329 之一 330 之前 331 之后 332 之後 333 之所以 334 之类 335 乌乎 336 乎 337 乒 338 乘 339 乘势 340 乘机 341 乘胜 342 乘虚 343 乘隙 344 九 345 也 346 也好 347 也就是说 348 也是 349 也罢 350 了 351 了解 352 争取 353 二 354 二来 355 二话不说 356 二话没说 357 于 358 于是 359 于是乎 360 云云 361 云尔 362 互 363 互相 364 五 365 些 366 交口 367 亦 368 产生 369 亲口 370 亲手 371 亲眼 372 亲自 373 亲身 374 人 375 人人 376 人们 377 人家 378 人民 379 什么样 380 什麽 381 仅 382 仅仅 383 今 384 今后 385 今天 386 今年 387 今後 388 介于 389 仍 390 仍旧 391 仍然 392 从 393 从不 394 从严 395 从中 396 从事 397 从今以后 398 从优 399 从古到今 400 从古至今 401 从头 402 从宽 403 从小 404 从新 405 从无到有 406 从早到晚 407 从未 408 从来 409 从此 410 从此以后 411 从而 412 从轻 413 从速 414 从重 415 他 416 他人 417 他是 418 他的 419 代替 420 以 421 以上 422 以下 423 以为 424 以便 425 以免 426 以前 427 以及 428 以后 429 以外 430 以後 431 以故 432 以期 433 以来 434 以至 435 以至于 436 以致 437 们 438 任 439 任何 440 任凭 441 任务 442 企图 443 伙同 444 会 445 伟大 446 传 447 传说 448 传闻 449 似乎 450 似的 451 但 452 但凡 453 但愿 454 但是 455 何 456 何乐而不为 457 何以 458 何况 459 何处 460 何妨 461 何尝 462 何必 463 何时 464 何止 465 何苦 466 何须 467 余外 468 作为 469 你 470 你们 471 你是 472 你的 473 使 474 使得 475 使用 476 例如 477 依 478 依据 479 依照 480 依靠 481 便 482 便于 483 促进 484 保持 485 保管 486 保险 487 俺 488 俺们 489 倍加 490 倍感 491 倒不如 492 倒不如说 493 倒是 494 倘 495 倘使 496 倘或 497 倘然 498 倘若 499 借 500 借以 501 借此 502 假使 503 假如 504 假若 505 偏偏 506 做到 507 偶尔 508 偶而 509 傥然 510 像 511 儿 512 允许 513 元/吨 514 充其极 515 充其量 516 充分 517 先不先 518 先后 519 先後 520 先生 521 光 522 光是 523 全体 524 全力 525 全年 526 全然 527 全身心 528 全部 529 全都 530 全面 531 八 532 八成 533 公然 534 六 535 兮 536 共 537 共同 538 共总 539 关于 540 其 541 其一 542 其中 543 其二 544 其他 545 其余 546 其后 547 其它 548 其实 549 其次 550 具体 551 具体地说 552 具体来说 553 具体说来 554 具有 555 兼之 556 内 557 再 558 再其次 559 再则 560 再有 561 再次 562 再者 563 再者说 564 再说 565 冒 566 冲 567 决不 568 决定 569 决非 570 况且 571 准备 572 凑巧 573 凝神 574 几 575 几乎 576 几度 577 几时 578 几番 579 几经 580 凡 581 凡是 582 凭 583 凭借 584 出 585 出于 586 出去 587 出来 588 出现 589 分别 590 分头 591 分期 592 分期分批 593 切 594 切不可 595 切切 596 切勿 597 切莫 598 则 599 则甚 600 刚 601 刚好 602 刚巧 603 刚才 604 初 605 别 606 别人 607 别处 608 别是 609 别的 610 别管 611 别说 612 到 613 到了儿 614 到处 615 到头 616 到头来 617 到底 618 到目前为止 619 前后 620 前此 621 前者 622 前进 623 前面 624 加上 625 加之 626 加以 627 加入 628 加强 629 动不动 630 动辄 631 勃然 632 匆匆 633 十分 634 千 635 千万 636 千万千万 637 半 638 单 639 单单 640 单纯 641 即 642 即令 643 即使 644 即便 645 即刻 646 即如 647 即将 648 即或 649 即是说 650 即若 651 却 652 却不 653 历 654 原来 655 去 656 又 657 又及 658 及 659 及其 660 及时 661 及至 662 双方 663 反之 664 反之亦然 665 反之则 666 反倒 667 反倒是 668 反应 669 反手 670 反映 671 反而 672 反过来 673 反过来说 674 取得 675 取道 676 受到 677 变成 678 古来 679 另 680 另一个 681 另一方面 682 另外 683 另悉 684 另方面 685 另行 686 只 687 只当 688 只怕 689 只是 690 只有 691 只消 692 只要 693 只限 694 叫 695 叫做 696 召开 697 叮咚 698 叮当 699 可 700 可好 701 可是 702 可能 703 可见 704 各 705 各个 706 各人 707 各位 708 各地 709 各式 710 各种 711 各级 712 各自 713 合理 714 同 715 同一 716 同时 717 同样 718 后 719 后来 720 后者 721 后面 722 向 723 向使 724 向着 725 吓 726 吗 727 否则 728 吧 729 吧哒 730 吱 731 呀 732 呃 733 呆呆地 734 呐 735 呕 736 呗 737 呜 738 呜呼 739 呢 740 周围 741 呵 742 呵呵 743 呸 744 呼哧 745 呼啦 746 咋 747 和 748 咚 749 咦 750 咧 751 咱 752 咱们 753 咳 754 哇 755 哈 756 哈哈 757 哉 758 哎 759 哎呀 760 哎哟 761 哗 762 哗啦 763 哟 764 哦 765 哩 766 哪 767 哪个 768 哪些 769 哪儿 770 哪天 771 哪年 772 哪怕 773 哪样 774 哪边 775 哪里 776 哼 777 哼唷 778 唉 779 唯有 780 啊 781 啊呀 782 啊哈 783 啊哟 784 啐 785 啥 786 啦 787 啪达 788 啷当 789 喀 790 喂 791 喏 792 喔唷 793 喽 794 嗡 795 嗡嗡 796 嗬 797 嗯 798 嗳 799 嘎 800 嘎嘎 801 嘎登 802 嘘 803 嘛 804 嘻 805 嘿 806 嘿嘿 807 四 808 因 809 因为 810 因了 811 因此 812 因着 813 因而 814 固 815 固然 816 在 817 在下 818 在于 819 地 820 均 821 坚决 822 坚持 823 基于 824 基本 825 基本上 826 处在 827 处处 828 处理 829 复杂 830 多 831 多么 832 多亏 833 多多 834 多多少少 835 多多益善 836 多少 837 多年前 838 多年来 839 多数 840 多次 841 够瞧的 842 大 843 大不了 844 大举 845 大事 846 大体 847 大体上 848 大凡 849 大力 850 大多 851 大多数 852 大大 853 大家 854 大张旗鼓 855 大批 856 大抵 857 大概 858 大略 859 大约 860 大致 861 大都 862 大量 863 大面儿上 864 失去 865 奇 866 奈 867 奋勇 868 她 869 她们 870 她是 871 她的 872 好 873 好在 874 好的 875 好象 876 如 877 如上 878 如上所述 879 如下 880 如今 881 如何 882 如其 883 如前所述 884 如同 885 如常 886 如是 887 如期 888 如次 889 如此 890 如此等等 891 如若 892 始而 893 姑且 894 存在 895 存心 896 孰料 897 孰知 898 宁 899 宁可 900 宁愿 901 宁肯 902 它 903 它们 904 它们的 905 它是 906 它的 907 完全 908 完成 909 定 910 实现 911 实际 912 宣布 913 容易 914 密切 915 对 916 对于 917 对应 918 对待 919 对方 920 对比 921 将 922 将才 923 将要 924 将近 925 小 926 少数 927 尔 928 尔后 929 尔尔 930 尔等 931 尚且 932 尤其 933 就 934 就地 935 就是 936 就是了 937 就是说 938 就此 939 就算 940 就要 941 尽 942 尽可能 943 尽如人意 944 尽心尽力 945 尽心竭力 946 尽快 947 尽早 948 尽然 949 尽管 950 尽管如此 951 尽量 952 局外 953 居然 954 届时 955 属于 956 屡 957 屡屡 958 屡次 959 屡次三番 960 岂 961 岂但 962 岂止 963 岂非 964 川流不息 965 左右 966 巨大 967 巩固 968 差一点 969 差不多 970 己 971 已 972 已矣 973 已经 974 巴 975 巴巴 976 带 977 帮助 978 常 979 常常 980 常言说 981 常言说得好 982 常言道 983 平素 984 年复一年 985 并 986 并不 987 并不是 988 并且 989 并排 990 并无 991 并没 992 并没有 993 并肩 994 并非 995 广大 996 广泛 997 应当 998 应用 999 应该 1000 庶乎 1001 庶几 1002 开外 1003 开始 1004 开展 1005 引起 1006 弗 1007 弹指之间 1008 强烈 1009 强调 1010 归 1011 归根到底 1012 归根结底 1013 归齐 1014 当 1015 当下 1016 当中 1017 当儿 1018 当前 1019 当即 1020 当口儿 1021 当地 1022 当场 1023 当头 1024 当庭 1025 当时 1026 当然 1027 当真 1028 当着 1029 形成 1030 彻夜 1031 彻底 1032 彼 1033 彼时 1034 彼此 1035 往 1036 往往 1037 待 1038 待到 1039 很 1040 很少 1041 後来 1042 後面 1043 得 1044 得了 1045 得出 1046 得到 1047 得天独厚 1048 得起 1049 心里 1050 必 1051 必定 1052 必将 1053 必然 1054 必要 1055 必须 1056 快 1057 快要 1058 忽地 1059 忽然 1060 怎 1061 怎么 1062 怎么办 1063 怎么样 1064 怎奈 1065 怎样 1066 怎麽 1067 怕 1068 急匆匆 1069 怪 1070 怪不得 1071 总之 1072 总是 1073 总的来看 1074 总的来说 1075 总的说来 1076 总结 1077 总而言之 1078 恍然 1079 恐怕 1080 恰似 1081 恰好 1082 恰如 1083 恰巧 1084 恰恰 1085 恰恰相反 1086 恰逢 1087 您 1088 您们 1089 您是 1090 惟其 1091 惯常 1092 意思 1093 愤然 1094 愿意 1095 慢说 1096 成为 1097 成年 1098 成年累月 1099 成心 1100 我 1101 我是 1102 我的 1103 或 1104 或则 1105 或多或少 1106 或是 1107 或曰 1108 或者 1109 或许 1110 战斗 1111 截然 1112 截至 1113 所 1114 所以 1115 所在 1116 所幸 1117 所有 1118 所谓 1119 才 1120 才能 1121 扑通 1122 打 1123 打从 1124 打开天窗说亮话 1125 扩大 1126 把 1127 抑或 1128 抽冷子 1129 拦腰 1130 拿 1131 按 1132 按时 1133 按期 1134 按照 1135 按理 1136 按说 1137 挨个 1138 挨家挨户 1139 挨次 1140 挨着 1141 挨门挨户 1142 挨门逐户 1143 换句话说 1144 换言之 1145 据 1146 据实 1147 据悉 1148 据我所知 1149 据此 1150 据称 1151 据说 1152 掌握 1153 接下来 1154 接着 1155 接著 1156 接连不断 1157 放量 1158 故 1159 故意 1160 故此 1161 故而 1162 敞开儿 1163 敢 1164 敢于 1165 敢情 1166 数/ 1167 整个 1168 断然 1169 方 1170 方便 1171 方才 1172 方能 1173 方面 1174 旁人 1175 无 1176 无宁 1177 无法 1178 无论 1179 既 1180 既...又 1181 既往 1182 既是 1183 既然 1184 日复一日 1185 日渐 1186 日益 1187 日臻 1188 日见 1189 时候 1190 昂然 1191 明显 1192 明确 1193 是 1194 是不是 1195 是以 1196 是否 1197 是的 1198 显然 1199 显著 1200 普通 1201 普遍 1202 暗中 1203 暗地里 1204 暗自 1205 更 1206 更为 1207 更加 1208 更进一步 1209 曾 1210 曾经 1211 替 1212 替代 1213 最 1214 最后 1215 最大 1216 最好 1217 最後 1218 最近 1219 最高 1220 有 1221 有些 1222 有关 1223 有利 1224 有力 1225 有及 1226 有所 1227 有效 1228 有时 1229 有点 1230 有的 1231 有的是 1232 有着 1233 有著 1234 望 1235 朝 1236 朝着 1237 末##末 1238 本 1239 本人 1240 本地 1241 本着 1242 本身 1243 权时 1244 来 1245 来不及 1246 来得及 1247 来看 1248 来着 1249 来自 1250 来讲 1251 来说 1252 极 1253 极为 1254 极了 1255 极其 1256 极力 1257 极大 1258 极度 1259 极端 1260 构成 1261 果然 1262 果真 1263 某 1264 某个 1265 某些 1266 某某 1267 根据 1268 根本 1269 格外 1270 梆 1271 概 1272 次第 1273 欢迎 1274 欤 1275 正值 1276 正在 1277 正如 1278 正巧 1279 正常 1280 正是 1281 此 1282 此中 1283 此后 1284 此地 1285 此处 1286 此外 1287 此时 1288 此次 1289 此间 1290 殆 1291 毋宁 1292 每 1293 每个 1294 每天 1295 每年 1296 每当 1297 每时每刻 1298 每每 1299 每逢 1300 比 1301 比及 1302 比如 1303 比如说 1304 比方 1305 比照 1306 比起 1307 比较 1308 毕竟 1309 毫不 1310 毫无 1311 毫无例外 1312 毫无保留地 1313 汝 1314 沙沙 1315 没 1316 没奈何 1317 沿 1318 沿着 1319 注意 1320 活 1321 深入 1322 清楚 1323 满 1324 满足 1325 漫说 1326 焉 1327 然 1328 然则 1329 然后 1330 然後 1331 然而 1332 照 1333 照着 1334 牢牢 1335 特别是 1336 特殊 1337 特点 1338 犹且 1339 犹自 1340 独 1341 独自 1342 猛然 1343 猛然间 1344 率尔 1345 率然 1346 现代 1347 理应 1348 理当 1349 理该 1350 瑟瑟 1351 甚且 1352 甚么 1353 甚或 1354 甚而 1355 甚至 1356 甚至于 1357 用 1358 用来 1359 甫 1360 甭 1361 由 1362 由于 1363 由是 1364 由此 1365 由此可见 1366 略 1367 略为 1368 略加 1369 略微 1370 白 1371 白白 1372 的 1373 的确 1374 的话 1375 皆可 1376 目前 1377 直到 1378 直接 1379 相似 1380 相信 1381 相反 1382 相同 1383 相对 1384 相对而言 1385 相应 1386 相当 1387 相等 1388 省得 1389 看 1390 看上去 1391 看出 1392 看到 1393 看来 1394 看样子 1395 看看 1396 看见 1397 看起来 1398 真是 1399 真正 1400 眨眼 1401 着 1402 着呢 1403 矣 1404 矣乎 1405 矣哉 1406 知道 1407 砰 1408 确定 1409 碰巧 1410 * 1411 离 1412 种 1413 积极 1414 移动 1415 究竟 1416 穷年累月 1417 突出 1418 突然 1419 窃 1420 立 1421 立刻 1422 立即 1423 立地 1424 立时 1425 立马 1426 竟 1427 竟然 1428 竟而 1429 第 1430 第二 1431 等 1432 等到 1433 等等 1434 策略地 1435 简直 1436 简而言之 1437 简言之 1438 管 1439 类如 1440 粗 1441 精光 1442 紧接着 1443 累年 1444 累次 1445 纯 1446 纯粹 1447 纵 1448 纵令 1449 纵使 1450 纵然 1451 练习 1452 组成 1453 经 1454 经常 1455 经过 1456 结合 1457 结果 1458 给 1459 绝 1460 绝不 1461 绝对 1462 绝非 1463 绝顶 1464 继之 1465 继后 1466 继续 1467 继而 1468 维持 1469 综上所述 1470 缕缕 1471 罢了 1472 老 1473 老大 1474 老是 1475 老老实实 1476 考虑 1477 者 1478 而 1479 而且 1480 而况 1481 而又 1482 而后 1483 而外 1484 而已 1485 而是 1486 而言 1487 而论 1488 联系 1489 联袂 1490 背地里 1491 背靠背 1492 能 1493 能否 1494 能够 1495 腾 1496 自 1497 自个儿 1498 自从 1499 自各儿 1500 自后 1501 自家 1502 自打 1503 自身 1504 臭 1505 至 1506 至于 1507 至今 1508 至若 1509 致 1510 般的 1511 良好 1512 若 1513 若夫 1514 若是 1515 若果 1516 若非 1517 范围 1518 莫 1519 莫不 1520 莫不然 1521 莫如 1522 莫若 1523 莫非 1524 获得 1525 藉以 1526 虽 1527 虽则 1528 虽然 1529 虽说 1530 蛮 1531 行为 1532 行动 1533 表明 1534 表示 1535 被 1536 要 1537 要不 1538 要不是 1539 要不然 1540 要么 1541 要是 1542 要求 1543 见 1544 规定 1545 觉得 1546 譬喻 1547 譬如 1548 认为 1549 认真 1550 认识 1551 让 1552 许多 1553 论 1554 论说 1555 设使 1556 设或 1557 设若 1558 诚如 1559 诚然 1560 话说 1561 该 1562 该当 1563 说明 1564 说来 1565 说说 1566 请勿 1567 诸 1568 诸位 1569 诸如 1570 谁 1571 谁人 1572 谁料 1573 谁知 1574 谨 1575 豁然 1576 贼死 1577 赖以 1578 赶 1579 赶快 1580 赶早不赶晚 1581 起 1582 起先 1583 起初 1584 起头 1585 起来 1586 起见 1587 起首 1588 趁 1589 趁便 1590 趁势 1591 趁早 1592 趁机 1593 趁热 1594 趁着 1595 越是 1596 距 1597 跟 1598 路经 1599 转动 1600 转变 1601 转贴 1602 轰然 1603 较 1604 较为 1605 较之 1606 较比 1607 边 1608 达到 1609 达旦 1610 迄 1611 迅速 1612 过 1613 过于 1614 过去 1615 过来 1616 运用 1617 近 1618 近几年来 1619 近年来 1620 近来 1621 还 1622 还是 1623 还有 1624 还要 1625 这 1626 这一来 1627 这么 1628 这么些 1629 这么样 1630 这么点儿 1631 这会儿 1632 这儿 1633 这就是说 1634 这时 1635 这次 1636 这点 1637 这种 1638 这般 1639 这边 1640 这里 1641 这麽 1642 进入 1643 进去 1644 进来 1645 进步 1646 进而 1647 连 1648 连同 1649 连声 1650 连日 1651 连日来 1652 连袂 1653 连连 1654 迟早 1655 迫于 1656 适应 1657 适当 1658 适用 1659 逐步 1660 逐渐 1661 通常 1662 通过 1663 造成 1664 逢 1665 遇到 1666 遭到 1667 遵循 1668 遵照 1669 避免 1670 那 1671 那个 1672 那么 1673 那么些 1674 那么样 1675 那些 1676 那会儿 1677 那儿 1678 那时 1679 那末 1680 那样 1681 那般 1682 那边 1683 那里 1684 那麽 1685 部分 1686 都 1687 鄙人 1688 采取 1689 里面 1690 重大 1691 重新 1692 重要 1693 鉴于 1694 针对 1695 长期以来 1696 长此下去 1697 长线 1698 长话短说 1699 间或 1700 防止 1701 阿 1702 附近 1703 陈年 1704 限制 1705 陡然 1706 除 1707 除了 1708 除却 1709 除去 1710 除外 1711 除开 1712 除此 1713 除此之外 1714 除此以外 1715 除此而外 1716 除非 1717 随 1718 随后 1719 随时 1720 随着 1721 随著 1722 隔夜 1723 隔日 1724 难得 1725 难怪 1726 难说 1727 难道 1728 难道说 1729 集中 1730 零 1731 需要 1732 非但 1733 非常 1734 非徒 1735 非得 1736 非特 1737 非独 1738 靠 1739 顶多 1740 顷 1741 顷刻 1742 顷刻之间 1743 顷刻间 1744 顺 1745 顺着 1746 顿时 1747 颇 1748 风雨无阻 1749 饱 1750 首先 1751 马上 1752 高低 1753 高兴 1754 默然 1755 默默地 1756 齐 1757 ︿ 1758 ! 1759 # 1760 $ 1761 % 1762 & 1763 ' 1764 ( 1765 ) 1766 )÷(1- 1767 )、 1768 * 1769 + 1770 +ξ 1771 ++ 1772 , 1773 ,也 1774 - 1775 -β 1776 -- 1777 -[*]- 1778 . 1779 / 1780 0 1781 0:2 1782 1 1783 1. 1784 12% 1785 2 1786 2.3% 1787 3 1788 4 1789 5 1790 5:0 1791 6 1792 7 1793 8 1794 9 1795 : 1796 ; 1797 < 1798 <± 1799 <Δ 1800 <λ 1801 <φ 1802 << 1803 = 1804 =″ 1805 =☆ 1806 =( 1807 =- 1808 =[ 1809 ={ 1810 > 1811 >λ 1812 ? 1813 @ 1814 A 1815 LI 1816 R.L. 1817 ZXFITL 1818 1819 [*] 1820 [- 1821 [] 1822 ] 1823 ]∧′=[ 1824 ][ 1825 _ 1826 a] 1827 b] 1828 c] 1829 e] 1830 f] 1831 ng昉 1832 { 1833 {- 1834 | 1835 } 1836 }> 1837 ~ 1838 ~± 1839 ~+ 1840 ¥ 1841 secondly 1842 all 1843 whose 1844 under 1845 sorry 1846 four 1847 we'll 1848 somewhere 1849 likely 1850 even 1851 above 1852 ever 1853 never 1854 ZZ 1855 hers 1856 i'd 1857 howbeit 1858 i'm 1859 theres 1860 changes 1861 anyhow 1862 would 1863 therefore 1864 is 1865 hereby 1866 must 1867 me 1868 my 1869 indicated 1870 indicates 1871 keep 1872 far 1873 after 1874 hereupon 1875 keeps 1876 every 1877 over 1878 before 1879 better 1880 then 1881 them 1882 they 1883 reasonably 1884 each 1885 went 1886 mean 1887 we'd 1888 rd 1889 re 1890 got 1891 forth 1892 you're 1893 little 1894 whereupon 1895 uses 1896 already 1897 another 1898 took 1899 second 1900 seen 1901 seem 1902 relatively 1903 thoroughly 1904 latter 1905 that 1906 thorough 1907 nobody 1908 definitely 1909 came 1910 saying 1911 specify 1912 do 1913 next 1914 despite 1915 unfortunately 1916 twice 1917 best 1918 said 1919 away 1920 there's 1921 unto 1922 hopefully 1923 seven 1924 we 1925 ltd 1926 here 1927 against 1928 com 1929 ZT 1930 aren't 1931 been 1932 much 1933 concerning 1934 wish 1935 say 1936 near 1937 unlikely 1938 cant 1939 in 1940 ie 1941 if 1942 containing 1943 beside 1944 several 1945 kept 1946 whereby 1947 whoever 1948 the 1949 yours 1950 just 1951 yes 1952 yet 1953 had 1954 has 1955 t's 1956 possible 1957 apart 1958 right 1959 old 1960 somehow 1961 for 1962 everything 1963 asking 1964 who 1965 of 1966 theirs 1967 plus 1968 formerly 1969 down 1970 c's 1971 accordingly 1972 way 1973 was 1974 becoming 1975 tell 1976 sometime 1977 no 1978 whereas 1979 nd 1980 welcome 1981 let's 1982 certainly 1983 a's 1984 did 1985 it'll 1986 says 1987 appear 1988 alone 1989 wherever 1990 example 1991 usually 1992 nowhere 1993 hither 1994 regardless 1995 everybody 1996 thru 1997 everywhere 1998 can 1999 following 2000 want 2001 didn't 2002 may 2003 such 2004 whenever 2005 maybe 2006 ones 2007 so 2008 seeing 2009 indeed 2010 course 2011 still 2012 thank 2013 he's 2014 selves 2015 ours 2016 outside 2017 non 2018 within 2019 thereby 2020 not 2021 now 2022 nor 2023 entirely 2024 eg 2025 ex 2026 et 2027 hadn't 2028 furthermore 2029 looking 2030 seriously 2031 shouldn't 2032 she 2033 quite 2034 besides 2035 think 2036 first 2037 ignored 2038 awfully 2039 given 2040 anyone 2041 indicate 2042 gives 2043 mostly 2044 than 2045 here's 2046 were 2047 and 2048 appreciate 2049 himself 2050 saw 2051 any 2052 downwards 2053 take 2054 sure 2055 especially 2056 later 2057 that's 2058 fifth 2059 don't 2060 aside 2061 only 2062 going 2063 get 2064 truly 2065 cannot 2066 nearly 2067 regarding 2068 us 2069 where 2070 up 2071 namely 2072 anyways 2073 wonder 2074 behind 2075 between 2076 it 2077 across 2078 come 2079 many 2080 whereafter 2081 according 2082 comes 2083 afterwards 2084 couldn't 2085 moreover 2086 considering 2087 sensible 2088 hardly 2089 wants 2090 former 2091 those 2092 these 2093 [ 2094 somebody 2095 different 2096 etc 2097 insofar 2098 same 2099 without 2100 can't 2101 very 2102 you've 2103 among 2104 being 2105 we've 2106 seems 2107 around 2108 using 2109 specified 2110 on 2111 ok 2112 oh 2113 whence 2114 it's 2115 or 2116 everyone 2117 your 2118 her 2119 there 2120 amongst 2121 trying 2122 with 2123 they're 2124 wasn't 2125 gone 2126 certain 2127 am 2128 an 2129 as 2130 at 2131 again 2132 serious 2133 hello 2134 since 2135 consider 2136 causes 2137 to 2138 th 2139 myself 2140 i'll 2141 zero 2142 further 2143 what 2144 brief 2145 seemed 2146 c'mon 2147 allows 2148 followed 2149 ask 2150 viz 2151 contains 2152 two 2153 taken 2154 more 2155 knows 2156 ain't 2157 particular 2158 known 2159 none 2160 nine 2161 needs 2162 rather 2163 [ 2164 okay 2165 tried 2166 tries 2167 onto 2168 perhaps 2169 specifying 2170 ] 2171 help 2172 soon 2173 through 2174 its 2175 seeming 2176 inward 2177 actually 2178 might 2179 haven't 2180 someone 2181 hereafter 2182 always 2183 isn't 2184 beyond 2185 really 2186 they'll 2187 enough 2188 thereafter 2189 done 2190 together 2191 least 2192 too 2193 immediate 2194 believe 2195 gotten 2196 toward 2197 self 2198 also 2199 towards 2200 most 2201 nothing 2202 they'd 2203 sometimes 2204 lest 2205 particularly 2206 somewhat 2207 his 2208 goes 2209 meanwhile 2210 during 2211 him 2212 greetings 2213 see 2214 are 2215 currently 2216 please 2217 various 2218 probably 2219 available 2220 both 2221 last 2222 wouldn't 2223 became 2224 whole 2225 liked 2226 whatever 2227 except 2228 throughout 2229 along 2230 described 2231 though 2232 whom 2233 beforehand 2234 what's 2235 new 2236 else 2237 look 2238 while 2239 herein 2240 itself 2241 wherein 2242 used 2243 anybody 2244 obviously 2245 thats 2246 from 2247 useful 2248 merely 2249 follows 2250 often 2251 some 2252 ourselves 2253 shall 2254 per 2255 tends 2256 either 2257 be 2258 by 2259 anything 2260 consequently 2261 into 2262 appropriate 2263 we're 2264 elsewhere 2265 hasn't 2266 un 2267 noone 2268 associated 2269 thanks 2270 having 2271 once 2272 edu 2273 go 2274 sent 2275 provides 2276 yourselves 2277 they've 2278 try 2279 this 2280 you'd 2281 yourself 2282 zz 2283 zt 2284 respectively 2285 let 2286 others 2287 until 2288 weren't 2289 use 2290 few 2291 themselves 2292 becomes 2293 anywhere 2294 something 2295 six 2296 allow 2297 won't 2298 thence 2299 willing 2300 instead 2301 whither 2302 doing 2303 how 2304 cause 2305 thereupon 2306 que 2307 via 2308 could 2309 hence 2310 third 2311 doesn't 2312 their 2313 exactly 2314 regards 2315 herself 2316 have 2317 need 2318 clearly 2319 i've 2320 able 2321 which 2322 unless 2323 where's 2324 eight 2325 why 2326 you'll 2327 normally 2328 anyway 2329 one 2330 should 2331 mainly 2332 overall 2333 qv 2334 contain 2335 looks 2336 neither 2337 however 2338 otherwise 2339 co 2340 it'd 2341 corresponding 2342 thanx 2343 novel 2344 value 2345 will 2346 almost 2347 thus 2348 vs 2349 when 2350 gets 2351 upon 2352 off 2353 nevertheless 2354 well 2355 less 2356 presumably 2357 ought 2358 who's 2359 five 2360 know 2361 you 2362 name 2363 necessary 2364 like 2365 become 2366 therein 2367 because 2368 happens 2369 does 2370 although 2371 about 2372 getting 2373 own 2374 three 2375 inasmuch 2376 inner 2377 but 2378 hi 2379 he 2380 whether 2381 placed 2382 below 2383 our 2384 上去-- 2385 inc 2386 lately 2387 other 2388 latterly 2389 out 2390 是什么 2391 什么时候 2392 是什么意思 2393 什么意思 2394 多少钱 2395 有没有 2396 更有趣 2397 更有甚者 2398 更有效 2399 更有意义 2400 更远的 2401 更重要的是 2402 正确 2403 错误 2404 第二把 2405 第二波 2406 第二大节 2407 第二单元 2408 第二关 2409 第二行 2410 第二集 2411 第二讲 2412 第二款 2413 第二类 2414 第二盘 2415 第二任 2416 第二声 2417 第二十 2418 第二首 2419 第二项 2420 第三遍 2421 第三册 2422 第三层 2423 第三产业 2424 第三大 2425 第三单元 2426 第三行 2427 第三回 2428 第三集 2429 第三件 2430 第三句 2431 第三卷 2432 第三课 2433 第三类 2434 第三篇 2435 第三期 2436 第三日 2437 第三声 2438 地三鲜 2439 第三项 2440 第三站 2441 第三张 2442 第十八 2443 第十次 2444 第十二 2445 的士高 2446 第十集 2447 第十届 2448 第十九 2449 第十六 2450 第十名 2451 第十三 2452 第十四 2453 第十天 2454 第十一 2455 第十一个 2456 第四版 2457 第四册 2458 第四场 2459 第四代 2460 第四单元 2461 第四集 2462 第四届 2463 第四年 2464 第四期 2465 第四声 2466 第四套 2467 第四位 2468 第四张 2469 第四者 2470 第四种 2471 第五部 2472 第五大道 2473 第五单元 2474 第五集 2475 第五卷 2476 第五课 2477 第五年 2478 第五期 2479 第五位 2480 第五元素 2481 第五组 2482 召唤 2483 最后一班 2484 最后一遍 2485 最后一关 2486 最后一集 2487 最后一科 2488 最后一颗子弹 2489 最后一派 2490 最后一题 2491 最后一眼 2492 最后一页 2493 10 2494 11 2495 12 2496 35 2497 25 2498 2016 2499 2015 2500 又为什么 2501 有问题吗 2502 有问题么 2503 又喜欢 2504 有喜欢 2505 又小 2506 又笑 2507 有笑 2508 有效地 2509 有一百 2510 又一遍 2511 有一部 2512 又一城 2513 又一村 2514 有一道 2515 有意的 2516 有一堆 2517 有一对 2518 有一方 2519 有一根 2520 有一会了 2521 有一批 2522 有一片 2523 有一期 2524 有一起 2525 有一群 2526 又又 2527 由由 2528 财新网 2529 上午 2530 下午 2531 NULL 2532 新华社 2533 消息 2534 13 2535 14 2536 15 2537 16 2538 17 2539 18 2540 19 2541 20 2542 21 2543 22 2544 23 2545 24 2546 26 2547 27 2548 28 2549 29 2550 30 2551 31 2552 32 2553 33 2554 34 2555 36 2556 37 2557 38 2558 39 2559 40 2560 41 2561 42 2562 43 2563 44 2564 45 2565 46 2566 47 2567 48 2568 49 2569 50 2570 51 2571 52 2572 53 2573 54 2574 55 2575 56 2576 57 2577 58 2578 59 2579 60 2580 61 2581 62 2582 63 2583 64 2584 65 2585 66 2586 67 2587 68 2588 69 2589 70 2590 71 2591 72 2592 73 2593 74 2594 75 2595 76 2596 77 2597 78 2598 79 2599 80 2600 81 2601 82 2602 83 2603 84 2604 85 2605 86 2606 87 2607 88 2608 89 2609 90 2610 91 2611 92 2612 93 2613 94 2614 95 2615 96 2616 97 2617 98 2618 99 2619 100 2620 01 2621 02 2622 03 2623 04 2624 05 2625 06 2626 07 2627 08 2628 09 2629 若果 2630 p 2631 男子 2632 女子 2633 ?2015 2634 2017 2635 2018 2636 2019 2637 2020 2638 2021 2639 2022 2640 2023 2641 嗳.数 2642 .日 2643 [①①] 2644 [①②] 2645 [①③] 2646 [①④] 2647 [①⑤] 2648 [①⑥] 2649 [①⑦] 2650 [①⑧] 2651 [①⑨] 2652 [①A] 2653 [①B] 2654 [①C] 2655 [①D] 2656 [①E] 2657 [①] 2658 [①a] 2659 [①c] 2660 [①d] 2661 [①e] 2662 [①f] 2663 [①g] 2664 [①h] 2665 [①i] 2666 [①o] 2667 [② 2668 [②①] 2669 [②②] 2670 [②③] 2671 [②④ 2672 [②⑤] 2673 [②⑥] 2674 [②⑦] 2675 [②⑧] 2676 [②⑩] 2677 [②B] 2678 [②G] 2679 [②] 2680 [②a] 2681 [②b] 2682 [②c] 2683 [②d] 2684 [②e] 2685 [②f] 2686 [②g] 2687 [②h] 2688 [②i] 2689 [②j] 2690 [③①] 2691 [③⑩] 2692 [③F] 2693 [③] 2694 [③a] 2695 [③b] 2696 [③c] 2697 [③d] 2698 [③e] 2699 [③g] 2700 [③h] 2701 [④] 2702 [④a] 2703 [④b] 2704 [④c] 2705 [④d] 2706 [④e] 2707 [⑤] 2708 [⑤]] 2709 [⑤a] 2710 [⑤b] 2711 [⑤d] 2712 [⑤e] 2713 [⑤f] 2714 [⑥] 2715 [⑦] 2716 [⑧] 2717 [⑨] 2718 [⑩] 2719 ¥℃ 2720 . 2721 -- 2722 ,也 2723 [②B] 2724 1. 2725 -- 2726 ’‘ 2727 ××× 2728 0:2 2729 [②c] 2730 ∈[ 2731 ]∧′=[ 2732 .日 2733 5:0 2734 [⑨] 2735 ? 2736 × 2737 exp 2738 Lex 2739 ≈ 2740 ㈧ 2741 ?——— 2742 。。。 2743 约 2744 下一页 2745 上一页 2746 。。。。。。 2747 ?? 2748 ? 2749 2010txt
1 import os 2 from pyhanlp.static import STATIC_ROOT, HANLP_JAR_PATH 3 from pyhanlp import * 4 def load_from_file(path): 5 """ 6 从词典文件加载DoubleArrayTrie 7 :param path: 词典路径 8 :return: 双数组trie树 9 """ 10 map = JClass('java.util.TreeMap')() # 创建TreeMap实例 11 with open(path) as src: 12 for word in src: 13 word = word.strip() # 去掉Python读入的\n 14 map[word] = word 15 return JClass('com.hankcs.hanlp.collection.trie.DoubleArrayTrie')(map) 16 17 ## 去掉停用词 18 def remove_stopwords_termlist(termlist, trie): 19 return [term.word for term in termlist if not trie.containsKey(term.word)] 20 21 22 trie = load_from_file('stopwords.txt') 23 termlist = HanLP.segment("江西鄱阳湖干枯了,中国最大的淡水湖变成了大草原") 24 print('去掉停用词前:', termlist) 25 26 print('去掉停用词后:', remove_stopwords_termlist(termlist, trie))停用词代码
聚类:
1 from pyhanlp import * 2 3 ClusterAnalyzer = JClass('com.hankcs.hanlp.mining.cluster.ClusterAnalyzer') 4 5 if __name__ == '__main__': 6 analyzer = ClusterAnalyzer() 7 analyzer.addDocument("赵一", "流行, 流行, 流行, 流行, 流行, 流行, 流行, 流行, 流行, 流行, 蓝调, 蓝调, 蓝调, 蓝调, 蓝调, 蓝调, 摇滚, 摇滚, 摇滚, 摇滚") 8 analyzer.addDocument("钱二", "爵士, 爵士, 爵士, 爵士, 爵士, 爵士, 爵士, 爵士, 舞曲, 舞曲, 舞曲, 舞曲, 舞曲, 舞曲, 舞曲, 舞曲, 舞曲") 9 analyzer.addDocument("张三", "古典, 古典, 古典, 古典, 民谣, 民谣, 民谣, 民谣") 10 analyzer.addDocument("李四", "爵士, 爵士, 爵士, 爵士, 爵士, 爵士, 爵士, 爵士, 爵士, 金属, 金属, 舞曲, 舞曲, 舞曲, 舞曲, 舞曲, 舞曲") 11 analyzer.addDocument("王五", "流行, 流行, 流行, 流行, 摇滚, 摇滚, 摇滚, 嘻哈, 嘻哈, 嘻哈") 12 analyzer.addDocument("马六", "古典, 古典, 古典, 古典, 古典, 古典, 古典, 古典, 摇滚") 13 14 print(analyzer.repeatedBisection(1)) # 重复二分聚类 15 print(analyzer.repeatedBisection(1.0)) # 自动判断聚类数量k