Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

개발자님 HPC 서버환경에서 사용하다 에러가 생겨 문의드립니다. #7

Open
DrCrimeScience opened this issue Mar 12, 2021 · 2 comments

Comments

@DrCrimeScience
Copy link

DrCrimeScience commented Mar 12, 2021

Error in .jcall(obj, "[Ljava/lang/String;", "rTextParserFromRtoR", .jarray(contentVector), :
method rTextParserFromRtoR with signature ([ILjava/lang/String;Ljava/lang/String;Ljava/lang/String;Ljava/lang/String;)[Ljava/lang/String; not found
Calls: r_parser_r -> .jcall
Execution halted
tar: Removing leading `/' from member names

대학 HPC 서버에서 작업(램 1000Gb)을 하고 있습니다. 텍스트 데이터는 평균 10단어 정도의 글이 300만건 정도 됩니다.

자체 dictionary를 파싱 때 사용하고 있는데, 다른 이슈의 답변과 같이 "UTF-8"로 텍스트 파일을 다시 바꾸어 몇번 다시 실행을 해봐도, 에러가 나는 상황입니다.

단, 차이는 개발자님 깃허브에 다운 받은 NLP4kec_1.4.0.tar를 사용하고 있는데, 서버의 R은 3.6.0 버전입니다.
(테스트로 한문장을 r_parser_r로 하면, 성공적으로 파싱이 되는 상황입니다.)

KoNLP, Rmecab Ko 등 다양한 패키지를 써봤지만, 효율과 여러 측면에서 NLP4kec가 여전히 최고인 것 같습니다. 늘 감사드립니다.

P.S. 혹시 패키지 구버전 (R 3.6.0 호환)을 다운로드 할 수 있는 방법이 있으면 부탁드립니다^^

@DrCrimeScience
Copy link
Author

문제를 해결했습니다^^.

일단 R 3.6.0에서도 현재의 NLP4kec_1.4.0.tar 패키지가 잘 돌아갑니다. 경고 메시지는 뜨지만, 이리저리 확인해 보니 아주 훌륭하게 작동을 합니다.

두번째로 개인 맥에서 UTF-8로 저장한 txt 사전 파일을 HPC 서버에서 바로 적용할 때는 위와 같은 에러가 났었습니다. 그런데, 서버 상에서 txt 파일을 열어서 몇가지 단어를 더 추가하고 저장한 후에 r_parser_r을 시행하니 정상적으로 작동하였습니다.

정말 고맙습니다.

@DrCrimeScience
Copy link
Author

최종적으로 새로운 파일로 다시 서버에서 파싱을 하다가 똑 같은 에러가 발생했습니다.
온갖 고민 끝에 보니... 아주 간단한 문제 였습니다.

서버 상에서 read.csv 명령어를 할 때, stringsAsFactors = FALSE 를 입력하지 않았더니, 기존에 죄다 팩터로 인식한것이 문제였습니다.(랩탑에서는 Rstudio가 알아서 csv 파일 불러올때 처리를 해줘서 간과했던 부분입니다)

패키지는.... 완벽합니다^^.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant