Skip to content

모든 한국어 비속어/욕설 판별기에 대한 성능 테스트입니다.

Notifications You must be signed in to change notification settings

KR-korcen/verification

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

19 Commits
 
 

Repository files navigation

모든 비속어/욕설 판별기의 대한 성능을 비교합니다. Compare the performance of all profanity/cursive discriminator.

데이터

모델

PYHTON

  • korcen: 키워드 기반 비속어 판단 모듈
  • korcen-ml: korcen으로 분류한 데이터를 학습한 딥러닝 기반 비속어 판별 모델
  • badword_check: 입력한 글(한글)이 욕설인지 아닌지를 딥러닝을 통해 판별하는 모델
  • CurseDetector: 한글 유사도와 한글 발음 유사도를 이용한 욕설/비속어/금지어 필터링

C

JAVA

JAVASCRIPT

  • Cenkor: 손쉬운 비속어 검열(korcen 데이터셋 이용)

etc....

성능 검증

데이터와 결과가 일치한 개수 / 전체 데이터 개수

korean-malicious-comments-dataset Curse-detection-data kmhas_korean_hate_speech Korean Extremist Website Womad Hate Speech Data LGBT-targeted HateSpeech Comments Dataset (Korean) korean-hate-chat-data 평균 처리 속도
korcen 0.7121 0.8415 0.6800 0.6305 0.4479 9ms
korcen-ml(kogpt2) 0.7545 0.7824 0.7055 0.6875 45ms
korcen-ml(llama2) 0.8322 0.8420 0.7837 0.7120 0.7477 38ms
badword_check 0.5829 0.6761 0.6410 0.4738 43ms
CurseDetector 0.5679 0.5785 267ms
Cenkor 0.8317 0.6275 0.2ms

테스트 환경

i7-11800H @ 2.30GHz 32GB 3200MHZ RTX 3060 Laptop

About

모든 한국어 비속어/욕설 판별기에 대한 성능 테스트입니다.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages