ทวิตเตอร์ปล่อย Language Model จากข้อความทวีต 7 พันล้านข้อความ กว่า 100 ภาษา (มีภาษาไทยด้วย!!!)
เมื่อไม่กี่วันก่อน โมเดล Language Model ของทวิตเตอร์ได้เผยแพร่เอกสารลง arxiv และโมเดลขึ้น huggingface ในงานที่ชื่อว่า “TwHIN-BERT: A Socially-Enriched Pre-trained Language Model for Multilingual Tweet Representations” โดยใช้ข้อมูลข้อความทวีต 7 พันล้านข้อความ กว่า 100 ภาษา (มีภาษาไทยด้วย!!!)
TwHIN-BERT แตกต่างจาก BERT ทั่วไป มาพร้อมกับ เป้าหมายทางสังคมของการมีส่วนร่วมทางสังคมที่หลากหลายภายใน Twitter Heterogeneous Information Network (TwHIN)
สามารถใช้งานเหมือนโมเดล BERT รวมถึง social recommendation เช่น ทำนายผู้ใช้งานที่จะมีส่วนร่วมกับทวีต เป็นต้น
ตอนนี้มีโมเดล TwHIN-BERT อยู่ 2 ตัวดังนี้
- TwHIN-BERT-base (280M พารามิเตอร์) https://huggingface.co/Twitter/twhin-bert-base
- TwHIN-BERT-large (550M พารามิเตอร์) https://huggingface.co/Twitter/twhin-bert-large
Paper: https://arxiv.org/abs/2209.07562
GitHub: https://github.com/xinyangz/TwHIN-BERT
ความคิดเห็น
แสดงความคิดเห็น