Seri AI: Mengetahui Model Bahasa Besar

A.I

Kita hidup di zaman ketika mesin mulai bisa membaca, menulis, menerjemahkan, merangkum bahkan berdebat, hanya ada satu teknologi yang menjadi landasannya: kecerdasan buatan. Rangkaian artikel ini hadir untuk membedah teknologi ini lapis demi lapis, mulai dari bagaimana komputer belajar memahami bahasa manusia, hingga apa yang sebenarnya terjadi saat Anda mengetik pertanyaan di ChatGPT atau Claude, hingga mengapa model-model tersebut bisa terlihat begitu “pintar”. Dalam rangkaian artikel ini kita akan mempelajari dasar-dasarnya, cara menggunakan AI, menerapkan AI secara lokal, dan bahkan melatih model LLM.

Kecerdasan Buatan (AI) Bidang ilmu komputer yang bertujuan untuk menciptakan sistem yang mampu mensimulasikan kecerdasan manusia dalam pembelajaran, penalaran, pemecahan masalah, pemahaman bahasa. Sederhananya, AI adalah upaya kita untuk membuat mesin “berpikir”.

Pemrosesan Bahasa Alami (NLP) Cabang AI yang memungkinkan komputer memahami, menafsirkan, dan mereproduksi bahasa manusia. NLP menjembatani kesenjangan antara metode komunikasi manusia (bahasa alami) melalui pemrosesan data mesin.

🧠 Pembelajaran Mesin

AI yang belajar dari data tanpa diprogram secara eksplisit. Semakin banyak data, semakin pintar sistemnya.

👁 Visi komputer

Kemampuan mesin untuk “melihat” dan menafsirkan gambar atau video, seperti sistem pengenalan wajah.

💬 Pemrosesan bahasa alami

Cabang AI yang berfokus pada interaksi antara komputer dan bahasa manusia – tertulis dan lisan.

🤖 Pembelajaran mendalam

Subbidang ML menggunakan jaringan saraf berlapis dalam untuk mengenali pola kompleks.

Kapan pun Anda menggunakan Google Terjemahan, mengetik di mesin pencari, atau berbicara dengan asisten virtual seperti Siri, NLP bekerja di belakang layar.

Tugas umum NLP meliputi: analisis sentimen (positif/negatif), klasifikasi teks, terjemahan otomatis, peringkasan dokumen, ekstraksi informasi, dan pembuatan teks seperti ChatGPT atau Claude.

Contoh AI Populer

Dalam beberapa tahun terakhir, ekosistem AI telah berkembang pesat. Berikut beberapa model dan sistem AI yang terkenal dan banyak digunakan saat ini:

🤖

obrolangpt
OpenAI · GPT-4o

🔷

Claude
Antropologi · Soneta 4

✨

Gemini
Google DeepMind

🦌

Llama
Meta AI · Sumber Terbuka

🐋

dipsik
Dipsi · Cina

⚡

Grok
xAI · Elon Musk

Selain model bahasa, ada AI terkenal lainnya: Lembah Dan Tengah perjalanan Untuk pembuatan gambar, Sora Dan landasan pacu Untuk pembuatan video, Lipat alfa dari DeepMind untuk prediksi struktur protein, dan Kopilot GitHub Untuk pembantu pengkodean.

Model AI percakapan yang disebutkan di atas semuanya adalah LLM (model bahasa besar). Hal inilah yang akan kita bahas lebih mendalam pada bagian selanjutnya.

Apa itu teks ke vektor?

Komputer tidak memahami kata-kata secara langsung, mereka hanya memahami angka. Jadi bagaimana komputer bisa “memahami” teks? Jawabannya adalah melalui proses mengubah teks menjadi vektor yang disebut dengan Penyematan teks atau penyematan kata.

Vektor adalah representasi matematis dari suatu kata atau kalimat dalam ruang berdimensi tinggi, dimana kata-kata yang mempunyai arti yang sama terletak berdekatan satu sama lain.

Bayangkan peta koordinat 2D, tetapi dalam ratusan atau ribuan dimensi. Kata “raja” dan “ratu” berdekatan karena mempunyai arti yang mirip. Kata “apel” dan “oranye” juga mirip. Hubungan antar kata bahkan dapat dihitung secara matematis:

Contoh hubungan vektor kata

vektor("Raja") − vektor("Pria") + vektor("Wanita") ≈ vektor("Ratu")

Inilah keajaiban penyematan kata – makna disimpan dalam angka!

Teknik populer termasuk membuat penyematan kata Kata2Vec (Google, 2013), sarung tangan (Stanford), dan merupakan yang terakhir Penyematan berbasis transformator yang digunakan di LL.M. Semakin canggih modelnya, semakin kaya dan akurat representasi vektornya.

Pencarian kesamaan

Menemukan dokumen yang paling relevan dengan kueri pengguna berdasarkan kedekatan vektor. Mesin pencari dan RAG digunakan.

Basis data vektor

Database khusus untuk penyimpanan cepat dan pencarian vektor. Contoh: Biji Pinus, Weaviate, Chroma, Qdrant.

Apa itu LLM?

Model Bahasa Besar (LLM) Model AI yang dilatih dengan data teks dalam jumlah besar untuk memahami dan menghasilkan bahasa manusia. Kata “besar” mengacu pada dua hal: ukuran data pelatihan dan jumlah parameter dalam model.

LLM modern hampir semuanya dibangun berdasarkan arsitektur Transformatoryang diperkenalkan Google dalam makalah “Attention is all you need” (2017). Kunci inovasi adalah mekanisme Fokus pada diri sendiriyaitu kemampuan model dalam mempertimbangkan konteks keseluruhan teks sekaligus, bukan berurutan berdasarkan kata.

Cara kerja LLM sederhana: LLM menerima teks masukan → mengubahnya menjadi token → memprosesnya melalui ratusan lapisan transformasi

Proses pelatihan LLM terdiri dari dua tahap utama: pra-pelatihan (belajar dari kumpulan data yang sangat besar tanpa pengawasan) dan Penyempurnaan (disesuaikan untuk tugas tertentu, sering kali menggunakan RLHF — pembelajaran penguatan dari umpan balik manusia) untuk membuat model lebih aman dan berguna.

pra-pelatihan

Model ini belajar dari triliunan token teks dari Internet, buku, kode, dan sumber lainnya. Sangat mahal – bisa mencapai miliaran dolar.

Penyempurnaan

Model diadaptasi untuk mengikuti instruksi, bersikap sopan, dan menghindari konten berbahaya

RLHF

Manusia memberikan umpan balik mengenai respons model untuk melatih model agar lebih sesuai dengan preferensi manusia.

tebakan

Saat model terlatih digunakan untuk menjawab pertanyaan baru. Ini terjadi setiap kali Anda mengobrol.

Apa token di LLM?

LLM tidak memproses teks huruf demi huruf atau kata demi kata. Satuan terkecil yang diproses oleh LLM disebut Token. Token dapat berupa keseluruhan kata, sebagian kata, tanda baca, atau bahkan spasi.

Contoh tokenisasi kalimat

Kalimat: “Kecerdasan buatan mengubah dunia!”

per Cer Dasan nyonya atan Meng mengubah dunia !

9 token untuk kalimat di atas (dapat bervariasi tergantung tokenizer yang digunakan)

Sebagai contoh: 1 token ≈ 0,75 kata Jadi dalam bahasa Inggris 100 token ≈ 75 kata. Bahasa Indonesia dan non-Latin memerlukan lebih banyak token per kata karena tokenizer dioptimalkan untuk bahasa Inggris.

Jendela konteks

Jumlah maksimum token yang dapat diproses model sekaligus. Claude memiliki 200 ribu token, GPT-4 memiliki 128 ribu token.

Biaya API

LLM dikenakan biaya per token — baik input (pertanyaan) maupun output (jawaban). Semakin panjang teksnya, semakin mahal harganya.

Ingin menghitung token? mencoba platform.openai.com/tokenizer atau tiktokenizer.vercel.app. Tempelkan teks Anda dan lihat bagaimana model memotongnya menjadi token!

Apa saja parameter di LLM?

Jika token adalah “makanan” yang diambil LLM, maka parameter Dia memiliki “kecerdasan”. Parameternya adalah bobot numerik (angka) yang disimpan dalam model jaringan saraf, yang merupakan hasil proses pelatihan selama berbulan-bulan menggunakan ribuan GPU.

Setiap parameter menyimpan beberapa “pengetahuan” tentang bahasa, data dunia, logika atau pola. Saat model menjawab pertanyaan Anda, jutaan hingga miliaran parameter berinteraksi secara matematis untuk menghasilkan respons yang benar.

Perbandingan ukuran model populer

Lama 3.2 (kecil)

Lama 3.1 (Sedang)

Dipsi R1

GPT-4 (Sekitar)

B = miliar (miliar) · T = triliun (triliun) parameter

Namun, lebih banyak parameter tidak selalu berarti lebih baik. Namun, model yang lebih kecil dapat mengungguli model yang lebih besar yang dilatih dengan data berkualitas tinggi dan teknik penyesuaian yang canggih. Prinsip inilah yang melatarbelakangi keberhasilan model efisien tersebut Mistral 7b atau Biaya-3 Dari Microsoft.

Model dengan 7 miliar parameter memerlukan sekitar VRAM GPU 14 GB Model berjalan 70B memerlukan ~140 GB Inilah sebabnya mengapa LLM besar hanya dapat dijalankan di cloud dan tidak di laptop biasa.

Sekian artikel kali ini, semoga bermanfaat dan selamat coding!

PakarPBN

A Private Blog Network (PBN) is a collection of websites that are controlled by a single individual or organization and used primarily to build backlinks to a “money site” in order to influence its ranking in search engines such as Google. The core idea behind a PBN is based on the importance of backlinks in Google’s ranking algorithm. Since Google views backlinks as signals of authority and trust, some website owners attempt to artificially create these signals through a controlled network of sites.

In a typical PBN setup, the owner acquires expired or aged domains that already have existing authority, backlinks, and history. These domains are rebuilt with new content and hosted separately, often using different IP addresses, hosting providers, themes, and ownership details to make them appear unrelated. Within the content published on these sites, links are strategically placed that point to the main website the owner wants to rank higher. By doing this, the owner attempts to pass link equity (also known as “link juice”) from the PBN sites to the target website.

The purpose of a PBN is to give the impression that the target website is naturally earning links from multiple independent sources. If done effectively, this can temporarily improve keyword rankings, increase organic visibility, and drive more traffic from search results.

Jasa Backlink

Download Anime Batch