ทวิตเตอร์ปล่อย Language Model จากข้อความทวีต 7 พันล้านข้อความ กว่า 100 ภาษา (มีภาษาไทยด้วย!!!)

ทวิตเตอร์ปล่อย Language Model จากข้อความทวีต 7 พันล้านข้อความ กว่า 100 ภาษา (มีภาษาไทยด้วย!!!)

เมื่อไม่กี่วันก่อน โมเดล Language Model ของทวิตเตอร์ได้เผยแพร่เอกสารลง arxiv และโมเดลขึ้น huggingface ในงานที่ชื่อว่า “TwHIN-BERT: A Socially-Enriched Pre-trained Language Model for Multilingual Tweet Representations” โดยใช้ข้อมูลข้อความทวีต 7 พันล้านข้อความ กว่า 100 ภาษา (มีภาษาไทยด้วย!!!)



TwHIN-BERT แตกต่างจาก BERT ทั่วไป มาพร้อมกับ เป้าหมายทางสังคมของการมีส่วนร่วมทางสังคมที่หลากหลายภายใน Twitter Heterogeneous Information Network (TwHIN)

สามารถใช้งานเหมือนโมเดล BERT รวมถึง social recommendation เช่น ทำนายผู้ใช้งานที่จะมีส่วนร่วมกับทวีต เป็นต้น

ตอนนี้มีโมเดล TwHIN-BERT อยู่ 2 ตัวดังนี้
- TwHIN-BERT-base (280M พารามิเตอร์) https://huggingface.co/Twitter/twhin-bert-base
- TwHIN-BERT-large (550M พารามิเตอร์) https://huggingface.co/Twitter/twhin-bert-large

Paper: https://arxiv.org/abs/2209.07562
GitHub: https://github.com/xinyangz/TwHIN-BERT

ความคิดเห็น

โพสต์ยอดนิยมจากบล็อกนี้

ความแตกต่างระหว่าง regression กับ classification

Natural Language Processing คืออะไร ทำไมถึงสำคัญ