-
Notifications
You must be signed in to change notification settings - Fork 0
/
txt2tok.py
executable file
·82 lines (67 loc) · 2.42 KB
/
txt2tok.py
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
#! /usr/bin/python3
import sys
import os
import errno
import traceback
import pickle
import io
from eml2token import eml2str,tokenize,eprint
try:
wordmap=pickle.load(open("model/model.wordmap-py3", "rb"))
unicode=str # python3-ban nincs unicode()
except:
wordmap=pickle.load(open("model/model.wordmap-py2", "rb"))
###########################################################################################################
################################################### DEDUP #################################################
###########################################################################################################
wmem=bytearray(65536*65536) # 16GB ram!!!
maxhash=8*len(wmem)-1
# hl=mozgo ablak merete amit hashel. nn=maximum egyezesek szama
def dedup(tokens,hl,nn):
# fuzzy search
ok=0
n=len(tokens)-(hl-1)
for i in range(n):
w=" ".join(tokens[i:i+hl])
wh=hash(w)
wh^=(wh>>40)
wh&=maxhash
# print(wh)
# try:
if wmem[wh>>3] & (1<<(wh&7)):
ok+=1
if ok>nn:
return 0
# break
# except:
# print(type(wh))
if ok<=nn:
# if ok:
# o=" ".join(tokens)
# print(o)
for i in range(n):
w=" ".join(tokens[i:i+hl])
#wh=hash(w) & maxhash
wh=hash(w)
wh^=(wh>>40)
wh&=maxhash
wmem[wh>>3]|=(1<<(wh&7))
return 1
# print(o.encode("utf-8"))
# print str(label)+" "+" ".join(tokens)
return 0
###########################################################################################################
###########################################################################################################
###########################################################################################################
input_stream=io.open(sys.argv[1],"rt",encoding="utf-8",errors="ignore")
output_stream=io.open(sys.argv[1]+".TOK","wt",encoding="utf-8")
for line in input_stream:
# t=" ".join(line.replace('"',' ').split())
vtok,tok=tokenize(line,wordmap)
if len(vtok)<5 or len(tok)<20:
continue
ok=dedup(tok,7,(len(tok)-10)*4/5)
# print("%4d /%4d -> %d"%(len(vtok),len(tok),ok))
if ok:
output_stream.write(unicode(" ".join(tok)+"\n"))
output_stream.close()