អ្នកស្រាវជ្រាវរកឃើញកំហុសថ្មីនៅក្នុង ChatGPT

0

ជាញឹកញាប់ LLMs ដែល​​បណ្តុះបណ្តាល​លើ​ទិន្នន័យ​អត្ថបទ​អ៊ីនធឺរណិតមួយចំនួនធំ​មាន​ខ្លឹមសារ​ប្រមាថ។ អ្នកអភិវឌ្ឍន៍ប្រើវិធីសាស្ត្រ Align ដើម្បីការពារការឆ្លើយតបដែលបង្កគ្រោះថ្នាក់។ ទោះជាយ៉ាងណាក៏ដោយ កាលពីពេលថ្មីនេះ អ្នកស្រាវជ្រាវផ្នែកសន្តិសុខមកពីសាកលវិទ្យាល័យ Carnegie Mellon មជ្ឈមណ្ឌលសម្រាប់សុវត្ថិភាព AI និង Bosch Center សម្រាប់ AI រកឃើញថាការបន្ថែម simple prompt បំបែកប្រព័ន្ធការពារ chatbots ដ៏ពេញនិយម។

AI chatbots ប្រឈមមុខនឹងការជម្រុញជាសកលចេញពីគំរូពាណិជ្ជកម្មដូចជា ChatGPT, Claude, Bard, និង Llama-2។ ការវាយប្រហារ Greedy Coordinate Gradient ទាញយកគំរូភាសាដែល Align ដោយបង្កើតមាតិកាដែលមិនពេញចិត្ត និងបន្ថែមខ្លឹមសារផ្ទុយទៅនឹងសំណួររបស់អ្នកប្រើប្រាស់។ជាញឹកញាប់ AI chatbots បង្កើតការឆ្លើយតបដែលបង្កគ្រោះថ្នាក់ ដោយសារវាគឺជាការឆ្លើយតបដែលបញ្ជាក់ដំបូង ការបង្កើនប្រសិទ្ធភាពដាច់ដោយឡែកដោយផ្អែកលើការបញ្ជូលទិន្ន័យលើសកម្រិត និងមូលដ្ឋានចម្រុះរួមបញ្ចូលគ្នា និងការវាយប្រហារជម្រុញច្រើនដង និងប្រើម៉ូដែលចម្រុះដែលរឹងមាំ។

អ្នកស្រាវជ្រាវដាស់តឿនក្រុមហ៊ុន OpenAI ក្រុមហ៊ុន Google និងក្រុមហ៊ុន Anthropic អំពីការបំពានទាំងនោះ ប៉ុន្តែពួកគេនៅតែត្រូវខិតខំដើម្បីការពារការវាយប្រហារនានា។ ក្រុមហ៊ុន Anthropic កំពុងធ្វើការលើការការពារកាន់តែខ្លាំងប្រឆាំងនឹងការចាក់បញ្ចូលមេរោគភ្លាមៗ និងវិធានការប្រឆាំងនានា ខណៈពេលដែល ChatGPT របស់ក្រុមហ៊ុន OpenAI ពឹងផ្អែកលើទិន្នន័យភាសាដ៏ធំសម្រាប់លទ្ធផលឆ្លាតវៃ។ ការវាយប្រហាររបស់ហេគឃ័របំពានលើគំរូទិន្នន័យ ដែលវាគឺជារឿងដែលជៀសមិនរួចនៃការប្រើប្រាស់ AI ខុស។អ្នកជំនាញសុវត្ថិភាព AI គួរតែផ្តល់អាទិភាពដល់ការការពារបណ្តាញសង្គមពីព័ត៌មានមិនពិតដែលបង្កើតដោយ AI ៕

ប្រភពព័ត៌មាន gbhackers ចុះផ្សាយថ្ងៃទី2 ខែសីហា ឆ្នាំ2023

LEAVE A REPLY

Please enter your comment!
Please enter your name here