Ana içeriğe atla

LEARN, CONNECT, BUILD

Microsoft Reactor

Microsoft Reactor'a katılın ve geliştiricilerle canlı etkileşim kurun

Yapay zeka ve en son teknolojileri kullanmaya başlamaya hazır mısınız? Microsoft Reactor geliştiricilerin, girişimcilerin ve startup''ların yapay zeka teknolojisi ve daha fazlasını geliştirmesine yardımcı olmak için etkinlikler, eğitimler ve topluluk kaynakları sağlar. Bize katılın!

LEARN, CONNECT, BUILD

Microsoft Reactor

Microsoft Reactor'a katılın ve geliştiricilerle canlı etkileşim kurun

Yapay zeka ve en son teknolojileri kullanmaya başlamaya hazır mısınız? Microsoft Reactor geliştiricilerin, girişimcilerin ve startup''ların yapay zeka teknolojisi ve daha fazlasını geliştirmesine yardımcı olmak için etkinlikler, eğitimler ve topluluk kaynakları sağlar. Bize katılın!

Geri dön

Improving Large Language Model by Systematically Improving its Data

26 Şubat, 2024 | 12:00 ÖS - 1:00 ÖS (UTC) Eşgüdümlü Evrensel Saat

  • Biçimlendir:
  • alt##LivestreamCanlı akış

Konu: Veri Bilimi & Machine Learning

Dil: İngilizce

Labeled data powers AI/ML in the enterprise, but real-world datasets have been found to contain between 7-50% annotation errors. Imperfectly labelled text data hampers ML models' training (and evaluation) across tasks like intent recognition, entity recognition, and sequence generation. Although pretrained LLMs are equipped with a lot of world knowledge, their performance is adversely affected by noisy training data (as noted by OpenAI).

In this talk, we illustrate data-centric techniques to mitigate the effect of label noise without changing any code related to model architecture, hyperparameters, or training. These data quality improvement techniques should thus remain applicable even for future advanced LLMs like GPT-10.

Konuşmacılar

İlgili Olaylar

Aşağıdaki olaylar da ilginizi çekebilir. Ziyaret etmeye emin olun Reactor giriş sayfası tüm kullanılabilir olayları görmek için.

Bu sayfanın bazı bölümleri makine veya AI tarafından çevrilebilir.