Summary

Бұл құжат үлкен тілдік модельдер (LLM) туралы дәріс. Дәріс LLM туралы негізгі түсініктерді, олардың қалай жасалатынын және NLP-де (табиғи тіл өңдеу) қолданылуын қарастырады.

Full Transcript

**Дәріс 4-5.** **Үлкен тіл үлгілері (LLM). Үлкен тілдік модельдермен таныстыру.** Үлкен тілдік үлгілер (LLM - Large Language Model) - бұл жаңа мазмұнды түсіну, жалпылау, құру және болжау үшін терең оқыту әдістері мен үлкен деректер массивтерін қолданатын жасанды интеллект алгоритмінің бір түрі. «Г...

**Дәріс 4-5.** **Үлкен тіл үлгілері (LLM). Үлкен тілдік модельдермен таныстыру.** Үлкен тілдік үлгілер (LLM - Large Language Model) - бұл жаңа мазмұнды түсіну, жалпылау, құру және болжау үшін терең оқыту әдістері мен үлкен деректер массивтерін қолданатын жасанды интеллект алгоритмінің бір түрі. «Генеративті ЖИ» термині LLM-мен де тығыз байланысты, олар негізінен мәтіндік мазмұнды жасау үшін арнайы жасалған генеративті ЖИ түрі болып табылады. Мыңдаған жылдар бойы адамдар сөйлесу үшін ауызекі тілдерді дамытып келеді. Тіл адами және технологиялық коммуникацияның барлық түрлерінің негізінде жатыр; онда идеялар мен тұжырымдамаларды жеткізуге қажетті сөздер, семантика және грамматика бар. Жасанды интеллект әлемінде тілдік модель қарым-қатынас пен жаңа тұжырымдамаларды құруға негіз бола отырып, ұқсас мақсатқа қызмет етеді. Жасанды интеллекттің алғашқы тілдік модельдері жасанды интеллект дамуының алғашқы күндерінен басталады. Элизаның тілдік моделі 1966 жылы MIT-те (Massachusetts Institute of Technology) енгізілді және жасанды интеллекттің тілдік моделінің алғашқы мысалдарының бірі болып табылады. ChatGPT: Hype or the Next Big Thing? Everything you should know - ADM+S Centre Сурет 1. Элизаның тілдік моделі Барлық тілдік модельдер алдымен мәліметтер жиынтығында оқытылады, содан кейін оқытылған мәліметтер негізінде жаңа мазмұн жасамас бұрын қатынастарды анықтау үшін әртүрлі әдістерді қолданады. Тілдік модельдер әдетте табиғи тілді өңдеу қосымшаларында (NLP - Natural Language Processing) қолданылады, мұнда пайдаланушы нәтиже алу үшін табиғи тілде сұраныс енгізеді. Табиғи тілді өңдеу (NLP) мәтіндік және сөйлеу деректерін толық және тиімді талдау үшін өте маңызды. Осылайша, күнделікті әңгімелерге тән диалектілердегі, жаргондардағы және грамматикалық бұзылулардағы айырмашылықтарды жеңуге болады. LLM - бұл ЖИ-тегі тілдік модель тұжырымдамасының эволюциясы, ол оқыту және логикалық қорытынды жасау үшін қолданылатын деректерді айтарлықтай кеңейтеді. Бұл өз кезегінде ЖИ моделінің мүмкіндіктерін едәуір кеңейтуді қамтамасыз етеді. Оқу үшін деректер жиынтығының қаншалықты үлкен болуы керектігі туралы жалпы қабылданған өлшем болмаса да, LLM әдетте кем дегенде миллиард немесе одан да көп параметрлерге ие. Параметрлер - бұл жаңа мазмұнды шығару үшін пайдалануға болатын оқыту жүргізілген модельдегі айнымалыларға арналған машиналық оқыту термині. Қазіргі заманғы LLM 2017 жылы пайда болды және трансформаторлар деп аталатын нейрондық желілер болып табылатын трансформаторлық модельдерді қолданады. Көптеген параметрлер мен трансформаторлық модельдердің арқасында LLM дәл жауаптарды тез түсініп, жасай алды, бұл жасанды интеллект технологиясын көптеген салаларда кеңінен қолдануға мүмкіндік берді. LLM негізгі модельдер деп аталатын бұл термин Стэнфордтың адамға бағытталған жасанды интеллект институты 2021 жылы енгізген. Негізгі модель соншалықты ауқымды және тиімді, ол одан әрі оңтайландыру және нақты пайдалану жағдайлары үшін негіз болады. Адамның қарым-қатынасын жоғары дәрежеде түсінбейтін және қолдана алмайтын жүйелерді құру қиын міндет болып табылады. Бұл деректердің үлкен көлемін өңдей алатын, тілдік заңдылықтарды тани алатын және контекстке сәйкес келетін және (ең дұрысы) тірі ана тілінде сөйлейтіндерден ерекшеленбейтін жауаптарды жасай алатын модельдерді құруды қамтиды. Кез-келген LLM-дің негізінде лингвистикалық білімнің осы деңгейіне жету үшін үйлесімді жұмыс істейтін бірнеше негізгі компоненттер жатыр, олардың әрқайсысы пайдаланушылардың қажеттіліктеріне сәйкес тілді өңдеуде, үйренуде және генерациялауда шешуші рөл атқарады. **Мәтінді құру және қорытындылау үшін LLM пайдалану.** Ең танымал LLM пайдаланудың бірі - оларды генеративті ЖИ ретінде қолдану, егер олар анықтама немесе сұрақ алса, олар жауап ретінде мәтін жасай алады. Мысалы, жалпыға қол жетімді LLM ChatGPT пайдаланушы енгізген деректерге жауап ретінде эссе, өлең және басқа мәтіндік формаларды жасай алады. LLM-ді оқыту үшін кез-келген үлкен және күрделі мәліметтер жиынтығын, соның ішінде бағдарламалау тілдерін қолдануға болады. Кейбір LLM бағдарламашыларға код жазуға көмектесе алады. Олар сұраныс бойынша функцияларды жаза алады немесе бастапқы кодтары бар бағдарламаны жазуды аяқтай алады. LLM-ді де қолдануға болады: - - - - - Нақты LLM мысалдарына ChatGPT (Openai), Bard (Google), Llama (Meta) және Bing Chat (Microsoft) жатады. GitHub-тың Copilot-тағы бір мысал, бірақ табиғи адам тілінің орнына кодтау үшін. Үлкен тілдік модельдердің дамуы (үлкен тілдік модель, LLM) табиғи тілді өңдеу саласындағы парадигманың өзгеруіне әкелді (Natural Language Processing, NLP). Интернеттен алынған мәтіннің үлкен көлемінде оқытылған LLM контекстік оқыту тетіктерін қолдана отырып, жаңа тапсырмаларды орындауды игере алады. Бұл дегеніміз, NLP мамандары мұндай модельдерді белгілі бір мәселелерді шешуге «үйрету» кезінде олардың параметрлерін жаңартпайды. Оның орнына мамандар үлгілердің қалаған әрекетін көрсететін және нұсқауларды немесе бірнеше дайын мысалдарды қамтитын LLM-ге нұсқау жазады. Бұл өндірістер модельдерге кіріс контексті ретінде беріледі (сондықтан оны «контексттік оқыту» деп атайды), ал модельдер ұқсас сұрақтарға жауап беру үшін өндірістерден алынған ақпаратты пайдаланады. ![](media/image1.png) Сурет 2. LLM қалай жұмыс жасайды LLM бірнеше құрамдастарды қамтитын күрделі тәсілді пайдаланады. Негізгі деңгейде LLM-лер әдетте петабайттарды құрайтын деректердің үлкен көлеміне (кейде корпус деп аталады) үйренуі керек. Оқыту әдетте бақылаусыз оқыту тәсілінен басталатын бірнеше кезеңде болуы мүмкін. Бұл тәсілде модель құрылымдалмаған деректер мен таңбаланбаған деректерге үйретіледі. Таңбаланбаған деректерден үйренудің артықшылығы мынада: жиі қол жетімді деректер әлдеқайда көп. Бұл кезеңде модель әртүрлі сөздер мен ұғымдар арасындағы байланыстарды қорытындылай бастайды. Кейбір LLM үшін келесі қадам - ​​өзін-өзі бақылайтын оқыту түрі арқылы оқыту және дәл баптау. Дәл осы жерде модельге әртүрлі ұғымдарды дәлірек анықтауға көмектесу үшін деректердің кейбір таңбалануы орын алады. Содан кейін LLM трансформаторлық нейрондық желі процесінен өту арқылы терең оқытуды жүзеге асырады. Трансформатор моделінің архитектурасы LLM-ге өзіне-өзі назар аудару механизмі арқылы сөздер мен ұғымдар арасындағы байланыстар мен қатынастарды түсінуге және тануға мүмкіндік береді. **Генеративті жасанды интеллект құралдары.** LLM үшін көптеген практикалық қосымшалар бар. *Копирайтинг* GPT-3 және GPT-3 және ChatGPT, Claude, Llama 2, Cohere Command және Jurassiccan көшірме жаза алады. AI21 Wordspice стилі мен дауысын жақсарту үшін түпнұсқа ұсыныстарға өзгерістер енгізуді ұсынады. *Білім қорындағы жауаптар* Көбінесе ғылымды қажет ететін табиғи тілді өңдеу (KI-NLP) деп аталатын бұл әдіс цифрлық мұрағаттардағы анықтамалық ақпараттардағы нақты сұрақтарға жауап бере алатын LLM-ге қатысты. Мысал ретінде AI21 Studio ойын алаңының жалпы сұрақтарға жауап беру қабілетін келтіруге болады. *Мәтіннің жіктелуі* Кластерлеуді қолдана отырып, LLM мәндері немесе мағынасы ұқсас мәтінді жіктей алады. Қолдану жағдайларына клиенттердің көңіл-күйін өлшеу, мәтіндер арасындағы байланысты анықтау және құжаттарды іздеу кіреді. *Кодты құру* LLM табиғи тілдегі сұраныстарға негізделген кодты құруды жақсы біледі. Amazon Q Developer кодты Python, JavaScript, Ruby және басқа да бірнеше программалау тілдерінде жаза алады. Басқа программалау қосымшаларына SQL сұрауларын жасау, пәрмен жолы пәрмендерін жазу және веб-сайт дизайны кіреді. *Мәтін құру* Кодты құру сияқты, мәтінді құру кезінде толық емес сөйлемдерді аяқтауға, өнімнің құжаттамасын жазуға немесе Alexa Create сияқты кішкентай балалар әңгімесін жазуға болады. **OpenAI/GPT 3** History and Development of GPT \| Shinetech Software GPT-3, OpenAI генеративті алдын ала дайындалған трансформаторы, 2020 жылдың маусымында іске қосылды, 175 миллиард параметрі бар сол кездегі AI тіл үлгілерінің дамуындағы серпіліс болды, бұл оның дебютінде қол жетімді ең күрделі үлгілердің біріне айналды. GPT сериясының үшінші буыны табиғи тілді өңдеу мүмкіндіктерін бұрын-соңды болмаған деңгейге дейін кеңейтіп, мәтіндерді -- эсселер мен кодтардан бастап поэзияға дейін -- \[кейде\] адам өнімінен асып түсуге мүмкіндік берді. GPT-3-тен кейін OpenAI GPT-3.5-ті үздіксіз жақсартулар, өнімділікті жақсарту және қателерді азайту бөлігі ретінде енгізді. GPT-4, OpenAI генеративті алдын ала дайындалған трансформатор сериясының төртінші итерациясы 2023 жылдың наурызында шығарылды. Серия GPT-3 алдыңғы қатарлы жұмысына негізделе отырып, жасанды интеллекттің тіл үлгілері саласындағы елеулі секірісті білдіреді. GPT-4 модельдің адамға ұқсас мәтінді түсіну және жасау қабілетін одан әрі жақсартады, дәлдікте, контекстті түсінуде және нақты нұсқауларды өңдеу қабілетінде айтарлықтай жақсартуларды көрсетеді. **Google/Gemini** ![What is Google Gemini and How to Use It?](media/image4.png) Google компаниясының ЖИ инновациялық саяхаты миллиардтаған адамдардың цифрлық ақпаратпен өзара әрекеттесу тәсілін күрт жақсартқан маңызды кезеңдерімен ерекшеленеді. Google компаниясының адам тілін түсінуде төңкеріс жасаған алғашқы трансформаторлық моделі BERT пайда болғаннан бастап, көп тілді түсінуге және бейне мазмұнды талдауға қабілетті неғұрлым қуатты нейрондық желі MUM дамуына дейін. Бұл жетістіктер Google-дың бастапқыда Bard деп аталатын және LaMDA арқылы жұмыс істейтін сөйлесу ЖИ қызметінің негізін қалады. Google және Alphabet бас директоры Сундар Пичай 2023 жылдың ақпанында жариялаған Бард интернеттен алынған ауқымды білімді Google-дың үлкен тіл үлгілерінің күшімен біріктіруге арналған. Дегенмен, оның 2023 жылдың наурызында алғашқы шығарылымы елеулі кемшіліктерді анықтады, бұл Google-ды Bard-ты ЖИ-тің неғұрлым күрделі үлгісіне жаңартуға шақырды. Неғұрлым жетілдірілген жүйені жасау қажеттілігін мойындай отырып, Google 2023 жылдың мамырында Google I/O-да PaLM 2-ні енгізді, бұл Gemini-дің басталуын белгіледі. Бардтың 2024 жылдың ақпанында Gemini-ге ребрендинг жасауы Google-дың алдыңғы қатарлы LLM технологиясын пайдалануына айтарлықтай өзгеріс әкелді. Бұл атауды өзгерту чатботты бұрынғы сындардан алшақтату және оны Gemini моделінің жетістіктеріне сәйкес келтіру үшін стратегиялық қадамды көрсетті. Бардты Geminiге айналдыру жай ғана косметикалық емес, ол 2023 жылдың желтоқсанында Gemini-нің ең қуатты нұсқасын шығарумен аяқталатын тиімдірек, жоғары өнімді ЖИ моделіне көшу болды. Google компаниясының Gemini жасанды интеллект технологиясы эволюциясындағы монументалды қадам болып табылады. Google-дың жасанды интеллект саласындағы озық технологияларды енгізу жөніндегі кең миссиясының бөлігі ретінде Gemini бүгінгі күнге дейін ең күрделі және жан-жақты үлкен тіл үлгісі (LLM) болып табылады. **Табиғи тілді өңдеу (NLP) құралдары.** Табиғи тілді өңдеу -- екі саланы біріктіретін ғылым саласы: гуманитарлық лингвистика және инновациялық жасанды интеллект технологиялары. NLP міндеті - компьютердің адам сөйлеуінің мағынасын түсінуіне жағдай жасау. Жалпы мағынада NLP технологияларының міндеттері деңгейлерге бөлінеді: Сигнал деңгейінде нейрондық желілік жүйелер ауызша және жазбаша сөйлеуді танып, синтездей алады -- әңгімелерді автоматты түрде жазу, транскрипция, сөйлеу аналитикасы. - - - - - - NLP бизнесте, ғылымда және басқа салаларда әртүрлі мәселелерді шешу үшін қолданылады. Олардың ішінде: - - - - - - Natural Language Processing (NLP) құралдары -- компьютерлерге адам тілін талдауға, түсінуге және жасауға мүмкіндік беретін бағдарламалар мен кітапханалар. Олар мәтінді өңдеу, автоматтандыру, деректерді талдау және жасанды интеллект саласындағы мәселелерді шешу үшін кеңінен қолданылады. *NLTK (табиғи тіл құралдары жинағы)* \- Python тілінде табиғи тілді өңдеуге арналған ең танымал және негізгі құралдардың бірі. \- Токенизация, түбірлеу, талдау, грамматикалық талдау функцияларының кең ауқымын қамтамасыз етеді, сонымен қатар әртүрлі лингвистикалық деректерді қамтиды. \- Шағын жобаларды оқыту және прототиптеу үшін қолданылады. \- Қолдану үлгісі: мәтінді талдау, жіктеу, ақпаратты алу *spaCy* \- Бірнеше тілде мәтінді өңдеуге қолдау көрсететін NLP кітапханасы. \- Ол жоғары өнімділікке және пайдаланудың қарапайымдылығына ие, бұл оны коммерциялық шешімдер үшін танымал етеді. \- Талдау, нысанды шығару және семантикалық талдау сияқты әртүрлі тапсырмалар үшін алдын ала дайындалған үлгілерді қамтиды. \- Қолданба мысалы: Атаулы нысанды тану (NER), сөз бөлігін тегтеу, тәуелді талдау. *Gensim* \- Мәтіндер арасындағы мағыналық ұқсастықты талдау және модельдеуге арналған кітапхана. \- Мәтіннің үлкен көлемімен жұмыс істеуді қолдайды және көбінесе тақырыпты модельдеу, мағынаны талдау және мәтінді кластерлеу үшін қолданылады. \- Қолдану үлгісі: тақырыпты модельдеу (Topic Modeling), Word2Vec моделін құру. *Стэнфорд NLP* \- Стэнфорд университеті әзірлеген табиғи тілді өңдеу құралдарының жиынтығы. \- Морфологиялық талдау, синтаксистік талдау, сөз бөлігін белгілеу және тәуелділікті талдау сияқты әртүрлі NLP тапсырмаларын қолдайды. \- Бірнеше тілге арналған үлгілерді ұсынады, бұл оны көптілді жобалар үшін пайдалы етеді. \- Қолдану үлгісі: сөйлемдерді пысықтау, сөйлем мүшелерін талдау, тәуелдіктерді талдау. *OpenNLP* \- Сөйлеу бөлігін белгілеу, сөйлемдерді талдау, таңбалау және мәтінді жіктеу сияқты негізгі NLP тапсырмаларын орындауға арналған Java құралдар жинағы. \- Дайын үлгілерді қамтиды және жаңаларын үйретуге мүмкіндік береді. \- Қолдану мысалы: токенизация, сөйлемнің жіктелуі, NER. *CoreNLP* \- Мәтінді талдау үшін қосымша мүмкіндіктері бар Stanford NLP бағдарламасының кеңейтілген нұсқасы. \- Бірнеше тілдерді қолдайды және серверлік нақты уақыттағы мәтінді өңдеу құралы ретінде жұмыс істей алады. \- Қолдану үлгісі: синтаксистік және семантикалық қатынастарды ескере отырып, нақты табиғи тілді өңдеу. *Hugging Face Transformers* \- BERT, GPT, T5 және т.б. сияқты трансформатор үлгілерімен жұмыс істеуге арналған платформа және кітапхана. \- Әртүрлі тапсырмалар үшін алдын ала дайындалған үлгілерді қолдайды: жіктеу, мәтін құру, аудару және т.б. \- Қолданбалы мысал: мәтінді генерациялау, мәтінді классификациялау, машиналық аударма. *TextBlob* \- Негізгі NLP тапсырмаларын орындау үшін жеңілдетілген синтаксисі бар NLTK және Pattern негізінде жасалған кітапхана. \- Жылдам прототиптеу және сезімді талдау, сөз бөлігін талдау, аударма сияқты тапсырмалар үшін қолайлы. \- Қолдану үлгісі: көңіл-күйді талдау, түйінді сөздерді шығару. *FastText* \- Сөздер мен мәтіндерді көрсетуге арналған жылдам және дәл үлгілерді жасауға арналған Facebook AI құралы. \- Сөздердің жұрнақтары мен префикстері туралы ақпаратты пайдалана отырып, мәтінді жіктеуді және кірістірулерді генерациялауды қолдайды. \- Қолдану үлгісі: мәтінді классификациялау, сөздерді кірістіру. *Polyglot* \- Жалпы NLP тапсырмаларын орындау үшін көп тілді қолдауы бар кітапхана. \- Токенизацияға, тілді анықтауға, аталған нысанды шығаруға және сезімді талдауға арналған мүмкіндіктерді қамтиды. \- Қолдану үлгісі: көптілді мәтінді өңдеу, тілді анықтау, NER. NLP құралдарымен шешілетін мәселелер: \- Токенизация: мәтінді жеке сөздерге немесе сөйлемдерге бөлу. \- Лемматизация және түбірлеу: Сөздерді негізгі түріне келтіру. \- Сөйлем мүшелерін белгілеу: Әрбір сөздің сөйлемдегі грамматикалық қызметін анықтау. \- Сезімдерді талдау: Мәтіннің эмоционалдық бояуын анықтау. \- Named Entity Recognition (NER): Мәтіннен нысандарды (адамдарды, орындарды, ұйымдарды) оқшаулау. \- Мәтінді аудару: бір тілден екінші тілге автоматты аудару. \- Мәтінді құру: Енгізілген деректер негізінде мәтінді жасаңыз.

Use Quizgecko on...
Browser
Browser