Skip to content

Commit

Permalink
Added Albanian (SQ_AL) language
Browse files Browse the repository at this point in the history
  • Loading branch information
tsptoni committed Dec 7, 2017
1 parent 1dcd2ae commit 3bb1234
Show file tree
Hide file tree
Showing 4 changed files with 24 additions and 2 deletions.
2 changes: 1 addition & 1 deletion setup.py
Original file line number Diff line number Diff line change
Expand Up @@ -12,7 +12,7 @@
'scipy',
'networkx',
],
version = '0.0.11',
version = '0.0.12',
description = 'A text summarization and keyword extraction package',
author = 'Federico Barrios, Federico Lopez, Antonio Sanchez Pineda',
author_email = '[email protected]',
Expand Down
18 changes: 18 additions & 0 deletions textrank3/preprocessing/languages/stopwords-sq.json
Original file line number Diff line number Diff line change
@@ -0,0 +1,18 @@
[
"e", "te", "i", "me", "qe", "ne", "nje", "a", "per", "sh", "nga", "ka", "u", "eshte",
"dhe", "shih", "nuk", "m", "dicka", "ose", "si", "shume", "etj", "se", "pa", "sipas", "s", "t", "dikujt", "dike",
"mire", "vet", "bej", "ai", "vend", "prej", "ja", "duke", "tjeter", "kur", "ia", "ku", "ta", "keq", "dy", "ben",
"bere", "behet", "dickaje", "edhe", "madhe", "la", "sa", "gjate", "zakonisht", "pas", "veta", "mbi", "disa", "iu",
"mos", "c", "para", "dikush", "gje", "be", "pak", "tek", "fare", "beri", "po", "bie", "k", "do", "gjithe", "vete",
"mund", "kam", "le", "jo", "beje", "tij", "kane", "ishte", "jane", "vjen", "ate", "kete", "neper", "cdo", "na",
"marre", "merr", "mori", "rri", "deri", "b", "kishte", "mban", "perpara", "tyre", "marr", "gjitha", "as", "vetem",
"nen", "here", "tjera", "tjeret", "drejt", "qenet", "ndonje", "nese", "jap", "merret", "rreth", "lloj", "dot", "saj",
"nder", "ndersa", "cila", "veten", "ma", "ndaj", "mes", "ajo", "cilen", "por", "ndermjet", "prapa", "mi", "tere", "jam",
"ashtu", "kesaj", "tille", "behem", "cilat", "kjo", "menjehere", "ca", "je", "aq", "aty", "prane", "ato", "pasur",
"qene", "cilin", "teper", "njera", "tej", "krejt", "kush", "bejne", "ti", "bene", "midis", "cili", "ende", "keto",
"kemi", "sic", "kryer", "cilit", "atij", "gjithnje", "andej", "siper", "sikur", "ketej", "ciles", "ky",
"papritur", "ua", "kryesisht", "gjithcka", "pasi", "kryhet", "mjaft", "ketij", "perbashket", "ata", "atje",
"vazhdimisht", "kurre", "tone", "keshtu", "une", "sapo", "rralle", "vetes", "ishin", "afert", "tjetren", "ketu",
"cfare", "to", "anes", "jemi", "asaj", "secila", "kundrejt", "ketyre", "pse", "tilla", "mua", "nepermjet",
"cilet", "ndryshe", "kishin", "ju", "tani", "atyre", "dic", "yne", "kudo", "sone", "sepse", "cilave", "kem", "ty"
]
5 changes: 4 additions & 1 deletion textrank3/preprocessing/snowball.py
Original file line number Diff line number Diff line change
Expand Up @@ -72,7 +72,7 @@ class SnowballStemmer():

languages = ("danish", "dutch", "english", "finnish", "french", "german",
"hungarian", "italian", "norwegian", "porter", "portuguese",
"romanian", "russian", "spanish", "swedish")
"romanian", "russian", "spanish", "swedish", "albanian")

def __init__(self, language):
if language not in self.languages:
Expand Down Expand Up @@ -1017,6 +1017,9 @@ def stem(self, word):
return word


class AlbanianStemmer(EnglishStemmer):
pass


class FinnishStemmer(_StandardStemmer):

Expand Down
1 change: 1 addition & 0 deletions textrank3/preprocessing/stopwords.py
Original file line number Diff line number Diff line change
Expand Up @@ -220,6 +220,7 @@ def plain_stopwords(json_filename):
"hungarian": 'stopwords-hu.json',
"romanian": 'stopwords-ro.json',
"swedish": 'stopwords-sv.json',
"albanian": 'stopwords-sq.json',
}


Expand Down

0 comments on commit 3bb1234

Please sign in to comment.