granat keyboard

Gambar Andriy Onufriyenko/Getty

Sebagian besar penelitian seputar risiko bagi masyarakat kecerdasan buatan cenderung fokus pada aktor manusia jahat menggunakan teknologi untuk tujuan jahat, seperti memegang perusahaan untuk tebusan atau negara-bangsa yang melakukan perang cyber.

Sebuah laporan baru dari perusahaan riset keamanan Apollo Group menyarankan jenis risiko yang berbeda mungkin bersembunyi di mana sedikit yang terlihat: di dalam perusahaan yang mengembangkan model AI paling canggih, seperti OpenAi dan Google.

Kekuatan yang tidak proporsional

Risikonya adalah bahwa perusahaan di garis depan AI dapat menggunakan kreasi AI mereka untuk mempercepat penelitian dan upaya pengembangan mereka dengan mengotomatisasi tugas yang biasanya dilakukan oleh para ilmuwan manusia. Dengan melakukan hal itu, mereka dapat menggerakkan kemampuan AI untuk menghindari pagar dan melakukan tindakan destruktif dari berbagai jenis.

Mereka juga dapat menyebabkan perusahaan dengan kekuatan ekonomi yang tidak proporsional besar, perusahaan yang mengancam masyarakat itu sendiri.

Juga: AI telah tumbuh melampaui pengetahuan manusia, kata unit DeepMind Google

“Sepanjang dekade terakhir, tingkat kemajuan dalam kemampuan AI telah terlihat secara publik dan relatif dapat diprediksi,” kata penulis utama Charlotte Stix dan timnya di koran, “AI di balik pintu tertutup: primer pada tata kelola penyebaran internal.”

Pengungkapan publik itu, mereka menulis, telah mengizinkan “beberapa tingkat ekstrapolasi untuk masa depan dan memungkinkan kesiapan konsekuensi.” Dengan kata lain, sorotan publik telah memungkinkan masyarakat untuk membahas pengaturan AI.

Tetapi “mengotomatiskan AI R&D, di sisi lain, dapat memungkinkan versi kemajuan pelarian yang secara signifikan mempercepat laju kemajuan yang sudah cepat.”

Juga: Perlombaan model AI tiba -tiba semakin dekat, kata para sarjana Stanford

Jika akselerasi itu terjadi di balik pintu tertutup, hasilnya, mereka memperingatkan, bisa menjadi ledakan intelijen “internal 'yang dapat berkontribusi pada akumulasi kekuasaan yang tidak dibatasi dan tidak terdeteksi, yang pada gilirannya dapat menyebabkan gangguan secara bertahap atau tiba -tiba terhadap lembaga -lembaga demokratis dan tatanan demokratis.”

Memahami risiko AI

Grup Apollo didirikan tepat di bawah dua tahun yang lalu dan merupakan organisasi nirlaba yang berbasis di Inggris. Ini disponsori oleh Rethink Prioritas, sebuah organisasi nirlaba yang berbasis di San Francisco. Tim Apollo terdiri dari ilmuwan AI dan profesional industri. Penulis utama Stix sebelumnya adalah Kepala Kebijakan Publik di Eropa untuk Openai.

(Pengungkapan: Ziff Davis, perusahaan induk Zdnet, mengajukan gugatan April 2025 terhadap Openai, menuduhnya melanggar hak cipta Ziff Davis dalam pelatihan dan mengoperasikan sistem AI -nya.)

Juga: Antropik menemukan 'tren muncul' yang mengkhawatirkan dalam laporan penyalahgunaan Claude

Penelitian kelompok sejauh ini berfokus pada pemahaman bagaimana sebenarnya jaringan saraf berfungsi, seperti melalui “interpretabilitas mekanistik,” melakukan percobaan pada model AI untuk mendeteksi fungsionalitas.

Penelitian yang diterbitkan kelompok ini menekankan pemahaman risiko AI. Risiko -risiko ini termasuk “agen” AI yang “tidak selaras,” yang berarti agen yang memperoleh “tujuan yang menyimpang dari niat manusia.”

Dalam kertas “AI Behind Closed Doors”, Stix dan timnya prihatin dengan apa yang terjadi ketika AI mengotomatiskan operasi R&D di dalam perusahaan yang mengembangkan model perbatasan-model AI terkemuka dari jenis yang diwakili oleh, misalnya, Openai GPT-4 dan Google Gemini.

Menurut Stix dan timnya, masuk akal bagi perusahaan yang paling canggih di AI untuk menerapkan AI untuk menciptakan lebih banyak AI, seperti memberikan agen AI akses ke alat pengembangan untuk membangun dan melatih model mutakhir di masa depan, menciptakan siklus pengembangan dan peningkatan konstan yang baik.

Juga: Tes Turing memiliki masalah – dan GPT -4.5 Openai baru saja mengeksposnya

“Ketika sistem AI mulai mendapatkan kemampuan yang relevan yang memungkinkan mereka untuk mengejar AI R&D independen dari sistem AI di masa depan, perusahaan AI akan merasa semakin efektif untuk menerapkannya dalam pipa R&D AI untuk secara otomatis mempercepat jika AI R&D yang dipimpin manusia,” Stix dan timnya menulis.

Selama bertahun -tahun sekarang, ada contoh model AI yang digunakan, secara terbatas, untuk menciptakan lebih banyak AI. Saat mereka berhubungan:

Contoh historis termasuk teknik seperti pencarian arsitektur saraf, di mana algoritma secara otomatis mengeksplorasi desain model, dan pembelajaran mesin otomatis (AutomL), yang merampingkan tugas -tugas seperti tuning hiperparameter dan pemilihan model. Contoh yang lebih baru adalah 'AI Scientist' Sakana AI, yang merupakan bukti awal konsep untuk penemuan ilmiah yang sepenuhnya otomatis dalam pembelajaran mesin.

Arah yang lebih baru untuk AI mengotomatiskan R&D termasuk pernyataan oleh Openai bahwa mereka tertarik untuk “mengotomatiskan penelitian keselamatan AI,” dan unit DeepMind Google mengejar “adopsi awal bantuan dan perkakas AI di seluruh [the] Proses litbang. ”

Apollo-GROUP-2025-SELF-REINFORCING-LOOP

Grup Apollo
Apollo-GROUP-2025-SELF-REINFORCING-LOOP-PELANJUTAN

Grup Apollo

Apa yang bisa terjadi adalah bahwa siklus yang berbudi luhur berkembang, di mana AI yang menjalankan R&D terus menggantikan dirinya dengan versi yang lebih baik dan lebih baik, menjadi “lingkaran penguatan diri” yang berada di luar pengawasan.

Juga: Mengapa Scaling Agentic AI adalah maraton, bukan sprint

Bahaya muncul ketika siklus pengembangan cepat AI membangun AI lolos dari kemampuan manusia untuk memantau dan campur tangan, jika perlu.

“Bahkan jika peneliti manusia memantau aplikasi keseluruhan sistem AI baru untuk proses R&D AI dengan cukup baik, termasuk melalui langkah -langkah teknis, mereka kemungkinan akan semakin berjuang untuk mencocokkan kecepatan kemajuan dan kemampuan, keterbatasan yang baru lahir, dan eksternalitas negatif yang dihasilkan dari proses ini,” tulis mereka.

“Eksternalitas negatif” tersebut termasuk model AI, atau agen, yang secara spontan mengembangkan perilaku yang tidak pernah dimaksudkan oleh pengembang AI manusia, sebagai konsekuensi dari model mengejar beberapa tujuan jangka panjang yang diinginkan, seperti mengoptimalkan R&D perusahaan-apa yang mereka sebut “properti yang muncul dari tujuan yang kompleks dalam tujuan rasional yang kompleks.”. “” “” “” “” ”

Model yang tidak selaras ini dapat menjadi apa yang mereka sebut model AI “merencanakan”, yang mereka definisikan sebagai “sistem yang secara diam -diam dan strategis mengejar tujuan yang tidak selaras,” karena manusia tidak dapat secara efektif memantau atau campur tangan.

Juga: Dengan model AI yang memukul setiap tolok ukur, sekarang saatnya untuk evaluasi manusia

“Yang penting, jika sistem AI mengembangkan kecenderungan skema yang konsisten, itu akan, menurut definisi, menjadi sulit untuk dideteksi – karena sistem AI akan secara aktif bekerja untuk menyembunyikan niatnya, mungkin sampai cukup kuat sehingga operator manusia tidak dapat lagi mengendalikannya,” tulis mereka.

Kemungkinan hasil

Penulis meramalkan beberapa hasil yang mungkin. Salah satunya adalah model AI atau model yang menjalankan amok, mengendalikan segala sesuatu di dalam perusahaan:

Sistem AI mungkin dapat, misalnya, menjalankan proyek penelitian tersembunyi besar-besaran tentang cara terbaik untuk mengekspresikan diri atau mendapatkan sistem AI yang sudah digunakan secara eksternal untuk berbagi nilainya. Melalui akuisisi sumber daya dan ketat ini di jalur kritis, sistem AI pada akhirnya dapat memanfaatkan 'kekuatan' untuk secara diam -diam membangun kontrol atas perusahaan AI itu sendiri agar dapat mencapai tujuan terminalnya.

Skenario kedua kembali ke aktor manusia jahat itu. Ini adalah skenario yang mereka sebut “ledakan kecerdasan,” di mana manusia dalam suatu organisasi mendapatkan keuntungan dari seluruh masyarakat berdasarkan kemampuan AI yang meningkat. Situasi hipotetis terdiri dari satu atau lebih perusahaan yang mendominasi secara ekonomis berkat otomatisasi AI mereka:

Ketika perusahaan AI beralih ke tenaga kerja internal bertenaga AI, mereka dapat menciptakan konsentrasi kapasitas produktif yang belum pernah terjadi sebelumnya dalam sejarah ekonomi. Tidak seperti pekerja manusia, yang menghadapi keterbatasan fisik, kognitif, dan temporal, sistem AI dapat direplikasi pada skala, beroperasi terus menerus tanpa istirahat, dan berpotensi melakukan tugas intelektual dengan kecepatan dan volume yang tidak mungkin bagi pekerja manusia. Sejumlah kecil perusahaan 'superstar' yang menangkap bagian yang terlalu besar dari keuntungan ekonomi dapat mengalahkan perusahaan berbasis manusia di hampir semua sektor yang mereka pilih untuk masuk.

“Skenario spillover” yang paling dramatis, mereka menulis, adalah yang di mana perusahaan tersebut menyaingi masyarakat itu sendiri dan menentang pengawasan pemerintah:

Konsolidasi kekuasaan dalam sejumlah kecil perusahaan AI, atau bahkan perusahaan AI tunggal, menimbulkan pertanyaan mendasar tentang akuntabilitas dan legitimasi yang demokratis, terutama karena organisasi -organisasi ini dapat mengembangkan kemampuan yang menyaingi atau melampaui negara -negara bagian. Secara khusus, karena perusahaan AI mengembangkan sistem AI yang semakin maju untuk penggunaan internal, mereka dapat memperoleh kemampuan yang secara tradisional terkait dengan negara -negara berdaulat – termasuk analisis intelijen yang canggih dan cyberweapons canggih – tetapi tanpa pemeriksaan dan keseimbangan demokratis yang menyertainya. Ini dapat menciptakan krisis legitimasi yang sedang berlangsung dengan cepat di mana entitas swasta berpotensi menggunakan pengaruh sosial yang belum pernah terjadi sebelumnya tanpa mandat pemilihan atau kendala konstitusional, yang berdampak pada keamanan nasional negara -negara yang berdaulat.

Munculnya kekuatan di dalam suatu perusahaan mungkin tidak terdeteksi oleh masyarakat dan regulator untuk waktu yang lama, Stix dan timnya menekankan. Perusahaan yang mampu mencapai lebih banyak kemampuan AI “dalam perangkat lunak,” tanpa penambahan sejumlah besar perangkat keras, mungkin tidak menimbulkan banyak perhatian secara eksternal, mereka berspekulasi. Akibatnya, “ledakan intelijen di balik pintu tertutup perusahaan AI tidak dapat menghasilkan tembakan peringatan yang terlihat secara eksternal.”

Juga: Apakah Openai Doomed? Model open-source mungkin menghancurkannya, memperingatkan ahli

Apollo-GROUP-2025-SCHEMING-AI-DEPETION-MEate

Grup Apollo

Langkah -langkah pengawasan

Mereka mengusulkan beberapa langkah sebagai tanggapan. Di antara mereka adalah kebijakan untuk pengawasan di dalam perusahaan untuk mendeteksi AI skema. Lainnya adalah kebijakan dan kerangka kerja formal untuk siapa yang memiliki akses ke sumber daya apa di dalam perusahaan, dan memeriksa akses itu untuk mencegah akses tanpa batas oleh satu pihak.

Namun ketentuan lain, mereka berpendapat, adalah berbagi informasi, khususnya untuk “berbagi informasi penting (kemampuan sistem internal, evaluasi, dan langkah-langkah keselamatan) dengan pemangku kepentingan tertentu, termasuk staf internal yang dibersihkan dan lembaga pemerintah yang relevan, melalui kartu sistem penyebaran pra-internal dan dokumentasi keselamatan terperinci.”

Juga: 20 Alat AI teratas tahun 2025 – dan hal #1 yang perlu diingat saat Anda menggunakannya

Salah satu kemungkinan yang lebih menarik adalah rezim peraturan di mana perusahaan secara sukarela membuat pengungkapan tersebut dengan imbalan sumber daya, seperti “akses ke sumber daya energi dan peningkatan keamanan dari pemerintah.” Itu mungkin mengambil bentuk “kemitraan publik-swasta,” mereka menyarankan.

Kertas Apollo adalah kontribusi penting untuk perdebatan tentang risiko apa yang diwakili AI. Pada saat banyak pembicaraan tentang “kecerdasan umum buatan,” AGI, atau “pengawasan” sangat kabur dan umum, kertas Apollo adalah langkah yang disambut baik menuju pemahaman yang lebih konkret tentang apa yang bisa terjadi karena sistem AI mendapatkan lebih banyak fungsi tetapi sama sekali tidak diatur atau kurang diatur.

Tantangan bagi publik adalah bahwa penyebaran AI saat ini sedang berlangsung secara sedikit demi sedikit, dengan banyak hambatan untuk menggunakan agen AI bahkan untuk tugas -tugas sederhana seperti mengotomatiskan pusat panggilan. '

Juga: Mengapa mengabaikan etika AI adalah bisnis yang berisiko – dan bagaimana melakukan AI dengan benar

Mungkin, lebih banyak pekerjaan yang perlu dilakukan oleh Apollo dan orang lain untuk meletakkan dalam istilah yang lebih spesifik bagaimana sistem model dan agen dapat secara progresif menjadi lebih canggih sampai mereka lolos dari pengawasan dan kontrol.

Para penulis memiliki satu titik lengket yang sangat serius dalam analisis perusahaan mereka. Contoh hipotetis dari perusahaan yang melarikan diri – perusahaan yang begitu kuat sehingga mereka dapat menentang masyarakat – gagal mengatasi dasar -dasar yang sering kali pincang perusahaan. Perusahaan dapat kehabisan uang atau membuat pilihan yang sangat buruk yang menyia -nyiakan energi dan sumber daya mereka. Ini mungkin dapat terjadi bahkan pada perusahaan yang mulai memperoleh kekuatan ekonomi yang tidak proporsional melalui AI.

Lagi pula, banyak produktivitas yang dikembangkan perusahaan secara internal masih bisa boros atau tidak ekonomis, bahkan jika itu merupakan peningkatan. Berapa banyak fungsi perusahaan yang hanya overhead dan tidak menghasilkan laba atas investasi? Tidak ada alasan untuk berpikir hal -hal akan berbeda jika produktivitas dicapai lebih cepat dengan otomatisasi.

Apollo menerima sumbangan jika Anda ingin menyumbangkan pendanaan untuk apa yang tampaknya merupakan upaya yang bermanfaat.

Dapatkan cerita teratas pagi di kotak masuk Anda setiap hari dengan kami Tech Today Newsletter.