AI Generatif Chatgpt telah menciptakan kegilaan. Sejak rilis model bahasa besar (llm) openai pada akhir november. Ada spekulasi yang merajalela tentang bagaimana ai generatif — yang salah satunya adalah chatgpt — dapat mengubah semua yang kita ketahui tentang pengetahuan. Penelitian. Dan pembuatan konten. Atau membentuk kembali tenaga kerja dan keterampilan yang dibutuhkan karyawan untuk berkembang. Atau bahkan menjungkirbalikkan seluruh industri!
Satu area menonjol sebagai hadiah utama dari perlombaan ai generatif: pencarian. Ai generatif memiliki potensi untuk secara drastis mengubah apa yang diharapkan pengguna dari pencarian.
Google. Pemenang lama pencarian online. Tampaknya tiba-tiba memiliki penantang di microsoft. Yang baru-baru ini menginvestasikan $10 miliar pada pengembang chatgpt. Openai. Dan mengumumkan rencana untuk memasukkan alat tersebut ke dalam serangkaian produk microsoft. Termasuk mesin pencarinya. Bing . Sementara itu. Google merilis alat ai-nya sendiri. Bard. Dan raksasa teknologi china baidu bersiap meluncurkan pesaing chatgpt . Jutaan dolar juga dicurahkan ke startup ai generatif.
Namun terlepas dari hype seputar chatgpt — dan ai generatif secara keseluruhan — ada tantangan praktis. Teknis. Dan hukum utama yang harus diatasi sebelum alat ini dapat mencapai skala. Ketahanan. Dan keandalan mesin telusur mapan seperti google.

Berita kemarin AI Generatif
AI Generatif Mesin pencari memasuki arus utama pada awal 1990-an. Tetapi pendekatan inti mereka tetap tidak berubah sejak saat itu: mengurutkan peringkat situs web yang diindeks dengan cara yang paling relevan bagi pengguna. Era pencarian 1.0 mengharuskan pengguna memasukkan kata kunci atau kombinasi kata kunci untuk menanyakan mesin. Search 2.0 hadir di akhir tahun 2000-an dengan pengenalan pencarian semantik. Yang memungkinkan pengguna mengetik frasa alami seolah-olah sedang berinteraksi dengan manusia.
Google mendominasi pencarian sejak peluncurannya berkat tiga faktor utama: antarmuka penggunanya yang sederhana dan rapi; algoritme pagerank revolusioner . Yang memberikan hasil yang relevan; dan kemampuan google untuk menskalakan secara mulus dengan volume yang meledak. Google penelusuran telah menjadi alat yang sempurna untuk mengatasi kasus penggunaan yang terdefinisi dengan baik: menemukan situs web yang memiliki informasi yang anda cari.
Tapi sepertinya ada use case baru yang sedang naik daun sekarang. Seperti yang juga diakui google dalam pengumuman bard . Pengguna kini mencari lebih dari sekadar daftar situs web yang relevan dengan kueri — mereka menginginkan “wawasan dan pemahaman yang lebih dalam”.
Dan itulah yang dilakukan search 3.0 — memberikan jawaban. Bukan situs web. Sementara google adalah kolega yang mengarahkan kami ke sebuah buku di perpustakaan yang dapat menjawab pertanyaan kami. Chatgpt adalah kolega yang telah membaca setiap buku di perpustakaan dan dapat menjawab pertanyaan kami. Secara teori. Sih.
Apakah ini akan berubah dalam waktu dekat? Itu menimbulkan masalah besar kedua: untuk saat ini.
Terus melatih ulang llm seiring dengan perkembangan informasi di internet sangatlah sulit.
Tantangan yang paling jelas adalah banyaknya kekuatan pemrosesan yang dibutuhkan untuk terus melatih llm. Dan biaya finansial yang terkait dengan sumber daya ini. Google menanggung biaya pencarian dengan menjual iklan. Memungkinkannya menyediakan layanan gratis. Biaya energi yang lebih tinggi dari llm membuatnya lebih sulit untuk dilakukan. Terutama jika tujuannya adalah untuk memproses kueri pada kecepatan yang dilakukan google. Yang diperkirakan mencapai puluhan ribu per detik (atau beberapa miliar per hari). Salah satu solusi potensial mungkin untuk melatih model lebih jarang dan untuk menghindari penerapannya pada kueri penelusuran yang mencakup topik yang berkembang pesat.
Tetapi bahkan jika perusahaan berhasil mengatasi tantangan teknis dan keuangan ini. Masih ada masalah tentang informasi aktual yang akan diberikannya: apa sebenarnya alat seperti chatgpt yang akan dipelajari dan dari siapa?
Pertimbangkan sumbernya
Chatbots seperti chatgpt seperti cermin yang dipegang oleh masyarakat — mereka memantulkan kembali apa yang mereka lihat. Jika anda melepaskan mereka untuk dilatih tentang data tanpa filter dari internet. Mereka dapat mengeluarkan kata-kata kasar. (ingat apa yang terjadi dengan tay ?) itu sebabnya llm dilatih pada kumpulan data yang dipilih dengan cermat yang dianggap sesuai oleh pengembang.
Tetapi tingkat kurasi ini tidak memastikan bahwa semua konten dalam kumpulan data online yang begitu besar benar secara faktual dan bebas dari bias. Bahkan. Sebuah studi oleh emily bender. Timnit gebru. Angelina mcmillan-major. Dan margaret mitchell (dikreditkan sebagai “shmargaret shmitchell” ) menemukan bahwa “kumpulan data besar berdasarkan teks dari internet merepresentasikan sudut pandang hegemonik secara berlebihan dan menyandikan bias yang berpotensi merusak populasi yang terpinggirkan. .” sebagai contoh. Salah satu sumber utama untuk data pelatihan chatgpt adalah reddit. Dan penulis mengutip studi pew research yang menunjukkan 67% pengguna reddit di amerika serikat adalah pria dan 64% berusia antara 18 dan 29 tahun.
Bias juga merupakan masalah dengan mesin telusur tradisional. Karena dapat mengarahkan pengguna ke situs web yang berisi konten bias. Rasis. Salah. Atau tidak pantas. Tetapi karena google hanyalah panduan yang mengarahkan pengguna ke sumber. Tanggung jawab atas konten mereka berkurang. Disajikan dengan konten dan informasi kontekstual (misalnya. Bias politik sumber yang diketahui). Pengguna menerapkan penilaian mereka untuk membedakan fakta dari fiksi. Opini dari kebenaran objektif. Dan memutuskan informasi apa yang ingin mereka gunakan. Langkah berbasis penilaian ini dihapus dengan chatgpt. Yang membuatnya bertanggung jawab langsung atas hasil bias dan rasis yang mungkin diberikannya.
Ini menimbulkan masalah transparansi
Pengguna tidak tahu sumber apa yang ada di balik jawaban dengan alat seperti chatgpt. Dan ai tidak akan memberikannya saat ditanya. Ini menciptakan situasi berbahaya di mana mesin bias dapat dianggap oleh pengguna sebagai alat objektif yang harus benar. Openai sedang berupaya mengatasi tantangan ini dengan webgpt . Versi alat ai yang dilatih untuk mengutip sumbernya. Tetapi keefektifannya masih harus dilihat.
Keburaman seputar sumber dapat menyebabkan masalah lain: studi akademik dan bukti anekdotal telah menunjukkan bahwa aplikasi ai generatif dapat menjiplak konten dari data pelatihan mereka — dengan kata lain. Karya orang lain. Yang tidak menyetujui karya berhak cipta mereka disertakan dalam data pelatihan. Tidak mendapatkan kompensasi atas penggunaan pekerjaan. Dan tidak menerima kredit apapun. (the new yorker baru-baru ini menggambarkan ini sebagai “tiga c” dalam sebuah artikel yang membahas gugatan class action terhadap perusahaan ai generatif midjourney. Stable diffusion. Dan dream up.) gugatan terhadap microsoft. Openai. Github. Dan lainnya juga bermunculan. Dan ini tampaknya menjadi awal dari gelombang baru pertarungan hukum dan etika.
Plagiarisme adalah salah satu masalah. Tetapi ada kalanya llm hanya mengada-ada. Dalam kesalahan yang sangat umum. Bard google. Misalnya. Menyampaikan informasi yang salah secara faktual tentang teleskop james webb selama demo . Demikian pula. Ketika chatgpt ditanya tentang makalah penelitian ekonomi yang paling banyak dikutip. Itu kembali dengan kutipan penelitian yang sepenuhnya dibuat-buat .
Karena masalah ini. Chatgpt dan llm generik harus mengatasi tantangan besar agar dapat digunakan dalam upaya serius apa pun untuk menemukan informasi atau menghasilkan konten. Terutama dalam aplikasi akademik dan korporat di mana kesalahan langkah terkecil pun dapat menimbulkan implikasi karier yang menghancurkan.
Menuju vertikal
Llm kemungkinan akan meningkatkan aspek-aspek tertentu dari mesin telusur tradisional. Tetapi saat ini tampaknya tidak mampu mencopot penelusuran google. Namun. Mereka dapat memainkan peran yang lebih mengganggu dan revolusioner dalam mengubah jenis pencarian lainnya.
Apa yang lebih mungkin terjadi di era pencarian 3.0 adalah munculnya llm yang sengaja dan sengaja dilatih dan sengaja dilatih untuk pencarian vertikal. Yang merupakan mesin pencari khusus subjek khusus.
Pencarian vertikal adalah kasus penggunaan yang kuat untuk llm karena beberapa alasan. Pertama. Mereka berfokus pada bidang tertentu dan menggunakan kasus — pengetahuan yang sempit namun mendalam. Itu membuatnya lebih mudah untuk melatih llm pada kumpulan data yang sangat dikurasi. Yang dapat dilengkapi dengan dokumentasi komprehensif yang menjelaskan sumber dan detail teknis tentang model tersebut. Ini juga memudahkan kumpulan data ini untuk diatur oleh undang-undang. Peraturan. Dan regulasi hak cipta. Kekayaan intelektual. Dan privasi yang sesuai. Model bahasa yang lebih kecil dan lebih bertarget juga berarti biaya komputasi yang lebih rendah. Membuatnya lebih mudah untuk dilatih ulang lebih sering. Akhirnya. Llm ini akan tunduk pada pengujian dan audit reguler oleh para ahli pihak ketiga. Serupa dengan bagaimana model analitik yang digunakan dalam lembaga keuangan yang diatur tunduk pada persyaratan pengujian yang ketat.
Di bidang di mana pengetahuan ahli yang berakar pada fakta dan data historis merupakan bagian penting dari pekerjaan. Llm vertikal dapat menyediakan alat produktivitas generasi baru yang meningkatkan manusia dengan cara yang sama sekali baru. Bayangkan sebuah versi chatgpt yang dilatih pada jurnal medis dan buku teks yang ditinjau dan diterbitkan oleh rekan sejawat dan disematkan ke microsoft office sebagai asisten peneliti untuk profesional medis. Atau versi yang dilatih berdasarkan data keuangan dan artikel selama beberapa dekade dari database dan jurnal keuangan teratas yang digunakan analis perbankan untuk penelitian. Contoh lainnya adalah melatih llm untuk menulis atau men-debug kode dan menjawab pertanyaan dari pengembang.
Bisnis dan pengusaha dapat mengajukan lima pertanyaan saat mengevaluasi apakah ada kasus penggunaan yang kuat untuk menerapkan llm ke aplikasi pencarian vertikal:
- Apakah tugas atau proses secara tradisional memerlukan penelitian ekstensif atau keahlian subjek yang mendalam?
2. Apakah hasil tugas menyatukan informasi. Wawasan. Atau pengetahuan yang memungkinkan pengguna mengambil tindakan atau membuat keputusan?
3. Apakah tersedia data teknis atau faktual historis yang memadai untuk melatih ai agar menjadi ahli dalam area pencarian vertikal?
4. Apakah llm dapat dilatih dengan informasi baru pada frekuensi yang sesuai sehingga memberikan informasi terkini?
5. Apakah legal dan etis bagi ai untuk belajar dari. Mereplikasi. Dan mengabadikan pandangan. Asumsi. Dan informasi yang disertakan dalam data pelatihan?
Menjawab pertanyaan di atas dengan percaya diri akan membutuhkan lensa multidisiplin yang menyatukan perspektif bisnis. Teknis. Hukum. Keuangan. Dan etika. Namun jika jawabannya adalah “ya” untuk kelima pertanyaan tersebut. Kemungkinan ada kasus penggunaan yang kuat untuk llm vertikal. slot7774d
Membiarkan debu mengendap
Teknologi di balik chatgpt sangat mengesankan. Tetapi tidak eksklusif. Dan akan segera dapat ditiru dan dikomoditisasi dengan mudah. Seiring waktu. Kegemaran publik terhadap respons menyenangkan yang dihasilkan oleh chatgpt akan memudar sementara realitas praktis dan keterbatasan teknologi akan mulai terlihat. Akibatnya. Investor dan pengguna harus memperhatikan perusahaan yang berfokus pada penanganan masalah teknis. Tantangan hukum. Dan etika yang dibahas di atas. Karena itu adalah bagian depan di mana diferensiasi produk akan terjadi. Dan pertempuran ai pada akhirnya akan dimenangkan