វិធីការពារ Content និង Traffic របស់គេហទំព័រអ្នកមិនឱ្យ ChatGPT លួចបាន

September 4, 2023

ជាមួយនឹងសមត្ថភាពពិសេសរបស់ ChatGPT និង Large Language Models (LLMs) ហេគឃ័រមិនចាំបាច់ត្រូវការជំនាញសរសេរកូដកម្រិតខ្ពស់ទៀតទេ។ ពួកគេអាចឆបោក និងវាយប្រហារលើអាជីវកម្ម និងអតិថិជន ដោយគ្រាន់តែប្រើ bots-as-a-service, residential proxies, CAPTCHA farms, និង Tools ងាយៗជាច្រើនទៀត។

មិនត្រឹមតែបច្ចេកទេស ChatGPT ទេដែលអាចវាយប្រហារលើអាជីវកម្មនោះ នៅមាន OpenAI, LLMs ដទៃទៀត ត្រូវបានលើកឡើងពីបញ្ហា models on scraped data ពីការឆ្លង (cross) អុីនធឺណិត។ LLMs កំពុងតែជះឥទ្ធិពលអវិជ្ជមានដល់ចរាចរណ៍វេប (web traffic) របស់អាជីវកម្ម ដែលអាចបង្កជាបញ្ហាដល់អាជីវកម្ម។ នៅក្នុងចំណោមមេគ្រោះថ្នាក់ធំៗរួមមាន LLMs, ChatGPT, និង ChatGPT Plugins ទៅលើអាជីវកម្មអនឡាញ នឹងអាចបង្កហានិភ័យចំនួន៣ ដូចជា៖

១. Content theft (បោះផ្សាយទិន្នន័យដោយមិនសុំការអនុញ្ញាតពីប្រភពដើម) អាចធ្វើឱ្យប៉ះពាល់ដល់អាជ្ញាធរ, SEO ranking, និងការយល់ឃើញពីតម្លៃនៃ original content របស់អ្នក។

២. Reduced traffic ទៅកាន់វេបសាយ ឬ app របស់អ្នកបណ្តាលឱ្យមានបញ្ហា ខណៈពេលអ្នកប្រើទទួលបានចម្លើយដោយផ្ទាល់តាមរយៈ ChatGPT និង plugins នោះ អ្នកប្រើមិនចូលមើលទំព័ររបស់អ្នកទៀតទេ។

៣. Data breaches ឬការចែកចាយទិន្នន័យសំខាន់ៗទៅកាន់ពិភពលោក កំពុងតែក្លាយជារឿងដ៏រសើប។ មិនមែនទិន្នន័យ “public-facing” ទាំងអស់ត្រូវបានបម្រុងទុកដើម្បីចែកចាយឡើងវិញ ឬចែករំលែកនៅខាងក្រៅ original context នោះទេ ប៉ុន្តែការគំរាមកំហែងមិនដឹងពីភាពខុសគ្នាទេ។ ជាលទ្ធផលអាចរួមទាំងការបាត់បង់ឱកាសប្រកួតប្រជែង និងប៉ះពាល់ដល់កេរ្តិ៍ឈ្មោះម៉ាករបស់អ្នកថែមទៀត។

អាស្រ័យលើគម្រូអាជីវកម្មរបស់អ្នក ក្រុមហ៊ុនអ្នកគួរតែពិចារណាលើការបណ្តុះបណ្តាលបុគ្គលិកអំពី LLMs។

អ្វីដែលប៉ះពាល់ដល់ក្រុមហ៊ុនបំផុតនោះគឺ៖

១. E-Commerce: ការពណ៌នាអំពីផលិតផល និងតម្លៃអាចជាការបែងចែកសំខាន់

២. Streaming, Media, and Publishing: ផ្តល់ឱ្យអតិថិជននូវលក្ខណៈពិសេសតែមួយគត់ (unique), ការច្នៃប្រឌិត creative និងការកំសាន្ត (entertaining content)ជាដើម។

៣. Classified Ads: ការផ្សាយពាណិជ្ជកម្ម Pay per click (PPC) អាចរងផលប៉ះពាល់ដោយសារបញ្ហាកាត់បន្ថយល្បឿន website traffic (ក៏ដូចជាបញ្ហាផ្សេងទៀតដូចជាបញ្ឆោតឱ្យចុច (click fraud) ឬ បន្លំគេហទំព័រ (skewed site)។

តើ ChatGPT ទទួលបាន Training Data ដោយរបៀបណា៖ បើយោងតាមអ្នកស្រាវជ្រាវចេញផ្សាយរបស់ OpenAI បានឱ្យដឹងថា ChatGPT3 ត្រូវបានបង្ហាត់បង្រៀននៅលើ datasets មួយចំនួនដូចជា៖ Common Crawl, WebText2, Books1 and Books2 និង Wikipedia។ Training data មួយភាគធំបានមកពី Common Crawl ដែលផ្តល់នូវដំណើរការ Web Information តាមរយៈ Open Repository របស់ Web Crawl Data។ Common Crawl crawler bot ឬ CCBot បង្កើន Apache Nutch ដើម្បីឱ្យ Developer អាចបង្កើត tools សម្រាប់សម្អាតបានច្រើន។ ជំនាន់ CCBot បច្ចុប្បន្នអាចដំណើរការ និងទទួលបានទិន្នន័យ (crawl) ពី Amazon AWS និងកំណត់អត្តសញ្ញាណរបស់ខ្លួនតាមរយៈភ្នាក់ងារអ្នកប្រើប្រាស់របស់ “CCBot/2.0”។ ប៉ុន្តែ អាជីវកម្មដែលចង់អនុញ្ញាត CCBot ចូលដំណើរការនោះ មិនគួរពឹងផ្អែកតែលើភ្នាក់ងារអ្នកប្រើប្រាស់ឱ្យកំណត់អត្តសញ្ញាណតែមួយនោះទេ ដោយសារមាន bots អាក្រក់ជាច្រើនបានបន្លំជាភ្នាក់ងារអ្នកប្រើប្រាស់ដើម្បីបំភាន់ថាជា bots ល្អ និងគេចចេញពីការហាមឃាត់។ ដើម្បីអនុញ្ញាត CCBot នៅលើគេហទំព័ររបស់អ្នក សូមប្រើការកំណត់លក្ខណៈជាក់លាក់ដូចជា IP ranges ឬ Reverse DNS ជាមុនសិន។ ដើម្បីរារាំង ChatGPT អ្នកគួរតែបិទចរាចរណ៍ (block traffic) គេហទំព័ររបស់អ្នកពី CCBot។

មានវិធីសាស្រ្ត៣ សម្រាប់បិទ ឬរាំងខ្ទប់ CCBot៖

១. Robots.txt: CCBot រំពឹងលើ robots.txt files អ្នកអាចបិទវាជាមួយនឹងកូដខាងក្រោមនេះ

២. Blocking CCBot User Agent: អ្នកអាចបិទ Bot ដែលអ្នកមិនត្រូវការដោយសុវត្ថិភាព តាមរយៈភ្នាក់ងារអ្នកប្រើប្រាស់។ សូមចំណាំថា៖ ការអនុញ្ញាត Bot Traffic ឆ្លងកាត់ភ្នាក់ងារអ្នកប្រើប្រាស់អាចមានគ្រោះថ្នាក់ ដោយសារតែវាងាយត្រូវបានកេងចំណេញដោយហេគឃ័រ។

៣. Bot Management Software: ទោះបីជាប្រើកម្មវិធីការពារ ChatGPT ឬគេហទំព័រអាក្រក់ក្តី មធ្យោបាយល្អបំផុតគឺការពារ Bots មិនឱ្យទាញយក ឬប្រើទិន្នន័យពីគេហទំព័ររបស់អ្នក។ កម្មវិធី (app) និង APIs មានជំនាញការពារ Bot ដែលប្រើ Machine Learning និងឃ្លាំមើលការគំរាមកំហែង។

ដំណើរការនៃការប្រើ Bot ដើម្បីដំណើរការ និងទាញយកទិន្នន័យពីគេហទំព័រ (Scrapers) អាចជាដំណោះស្រាយ។ LLMs ប្រើ Scraper Bots ដើម្បីប្រមូល training data។ ខណៈពេលបិទ CCBot ប្រហែលជាប៉ះពាល់ការបិទ ChatGPT Scrapers នៅពេលនេះ ដោយសារតែអត់មានបានផ្តល់ព័ត៌មានទៅដល់ LLM Scrapers។ ចំពោះករណីពេលក្រោយទៀត ប្រសិនបើគេហទំព័រភាគច្រើនបិទ OpenAI មិនឱ្យដំណើរការ Content របស់ពួកគេនោះ Developer អាចនឹងមិនរំពឹងលើ Robot.txt និងអាចបញ្ឈប់ការប្រកាសអត្តសញ្ញាណ Crawler របស់ពួកគេនៅក្នុងភ្នាក់ងារអ្នកប្រើប្រាស់។ លទ្ធភាពផ្សេងទៀត គឺ OpenAI អាចប្រើដៃគូរបស់វាគឺ Microsoft ឱ្យដំណើរការ Scraper Data របស់ Microsoft Bing ដែលធ្វើឱ្យស្ថានភាពកាន់តែពិបាកសម្រាប់ម្ចាស់គេហទំព័រ។ អត្តសញ្ញាណ Bot របស់ Bing ដូច Bingbot បានរារាំងពួកគេ អាចកើតជាបញ្ហាលើគេហទំព័ររបស់អ្នកពី indexed នៅលើ Bing Search Engine ដែលប៉ះពាល់ដល់អ្នកចូលមើលមួយចំនួន។ អ្នកអាចប្រឈមនឹងបញ្ហាដោយសារការរាំងខ្ទប់ LLM Bard (competitor to ChatGPT) របស់ Google។ កម្មវិធី Google គឺមិនច្បាស់អំពីប្រភព និងការប្រមូលរបស់ public data used ដើម្បីប្រាប់ទៅកាន់កម្មវិធី Bard នោះទេ ប៉ុន្តែវាអាចថាកម្មវិធី Bard នឹងត្រូវបានបង្រៀនតាមរយៈការប្រមូលទិន្នន័យពី Googlebot Scrapers។ ដូចគ្នានឹង Bingbot ដែរ ការបិទ Googlebot អាចនឹងមិនត្រឹមត្រូវទេ ហើយអាចប៉ះពាល់ដល់របៀបដែលគេហទំព័ររបស់អ្នកទទួលបាន Indexed និងរបៀបដែល Google Search Engine ដឹកនាំចរាចរទៅកាន់គេហទំព័ររបស់អ្នក។ ជាលទ្ធផល ភាគរយអ្នកចូលមើលអាចនឹងធ្លាក់ចុះ។

ការប្រើប្រាស់ Plugins ដើម្បីដំណើរការ Live Data: ដែនកំណត់នៃ Models របស់ ChatGPT គឺការប្រើប្រាស់ Live Data។ តាំងពីវាត្រូវបានបង្រៀននៅលើ dataset ដែលឈប់ដំណើរការនៅឆ្នាំ២០២១មក វាមិនអាចផ្តល់ព័ត៌មានទាន់ហេតុការណ៍ (up-to-date) នោះទេ។ នោះហើយដែលនាំឱ្យ plugins អាចឈានជើងចូលបាន។ Plugins ត្រូវបានប្រើដើម្បីភ្ជាប់ LLMs ដូចគ្នានឹងការភ្ជាប់ ChatGPT ទៅកាន់ external tools និងអនុញ្ញាតឱ្យ LLMs ដំណើរការ external Data អនឡាញ ដែលរួមមានទាំងទិន្នន័យឯកជន និងព័ត៌មានទាន់ហេតុការណ៍។ Plugins ក៏អនុញ្ញាតឱ្យអ្នកប្រើប្រាស់កក់តាមអនឡាញ (ឧ. កក់ជើងហោះហើរ ឬកម្មង់ទំនិញជាដើម) តាមរយៈ API calls។ អាជីវកម្មខ្លះកំពុងតែអភិវឌ្ឍ Plugins របស់ខ្លួនដើម្បីផ្តល់នូវវិធីសាស្រ្តថ្មីសម្រាប់អ្នកប្រើភ្ជាប់ទៅកាន់ content/services របស់ពួកគេតាមរយៈ ChatGPT។ ប៉ុន្តែ អាស្រ័យលើអាជីវកម្មរបស់អ្នក ដែលគួរតែអនុញ្ញាឱ្យអ្នកប្រើប្រាស់ចូលប្រើគេហទំព័ររបស់អ្នកតាមរយៈ third-party ChatGPT Plugins ឬអត់ អាចនឹងមានការផ្សាយពាណិជ្ជកម្មខ្លះដោយអ្នកប្រើប្រាស់របស់អ្នក ក៏ដូចជាល្បឿនគេហទំព័ររបស់អ្នកអាចមានដំណើរការយឺត។ អ្នកក៏ប្រហែលជាកត់សម្គាល់ឃើញថា អ្នកប្រើប្រាស់ភាគតិចណាស់ដែលមានបំណងចង់បង់ប្រាក់សម្រាប់ Premium Features ខណៈពេលដែល features របស់អ្នកមួយចំនួនអាចត្រូវបានចម្លងតាមរយៈ Third-party ChatGPT Plugins។ ឧទាហរណ៍៖ អតិថិជនគេហទំព័រមិនផ្លូវការចូលប្រើគេហទំព័ររបស់អ្នកអាចផ្តល់នូវ Premium Features តាមរយៈ UI របស់ពួកគេ។

របៀបកំណត់អត្តសញ្ញាណ ChatGPT Plugin Requests: ឯកសារ OpenAI បានបង្ហាញថា ការស្នើសុំរបស់ភ្នាក់ងារប្រើប្រាស់ជាក់លាក់ HTTP header (“ChatGPT-User”) មកពី ChatGPT Plugins។ ប៉ុន្តែឯកសារមិនបានបញ្ជាក់ថា ភ្នាក់ងារអ្នកប្រើប្រាស់ត្រូវបានបង្ហាញគឺជាភ្នាក់ងារអ្នកប្រើប្រាស់តែមួយគត់ដែលអាចត្រូវបានប្រើដោយ Plugins នៅពេលដាក់សំណើ HTTP នោះទេ។ ដូច្នេះ នៅពេល ChatGPT Plugins ទំនាក់ទំនងជាមួយ Third-party នោះ APIs អាចធ្វើសំណើ HTTP ផ្សេងៗចេញពីរចនាសម្ព័ន្ធផ្ទាល់ខ្លួនរបស់ពួកគេ។ ដ្យាក្រាមខាងក្រោមបង្ហាញពីដំណើការ នៅពេលដែល “”Live Sport Plugin” ត្រូវបានប្រើជាមួយ ChatGPT ដើម្បីធ្វើបច្ចុប្បន្នភាពអំពីព្រឹត្តិការណ៍កីឡា។

១. ChatGPT ជំរុញដំណើការកម្មវិធី Live Sport Plugin ដោយធ្វើសំណើទៅកាន់ API endpoints អាស្រ័យលើប៉ារ៉ាមែត្រពីប្រអប់បញ្ចូលរបស់អ្នកប្រើប្រាស់។

២. Plugin ធ្វើការស្នើសុំ HTTP ដើម្បីចូលដំណើរការ និងទាញយកព័ត៌មានពីគេហទំព័រកីឡា ដើម្បីទទួលបានព័ត៌មានចុងក្រោយអំពីព្រឹត្តិការណ៍។

៣. ព័ត៌មានត្រូវបានបោះត្រលប់ទៅកាន់អ្នកប្រើប្រាស់ចុងក្រោយតាមរយៈ ChatGPT

Plugin អាចធ្វើសំណើទៅ Sport API ដោយមិនចាំបាច់ចូលដំណើរការ និងទាញព័ត៌មានពីគេហទំព័រកីឡានោះទេ។ ការពិត នៅពេលសំណើចាប់ផ្តើមធ្វើចេញពី Server hosting Plugin គ្មានការរឹតបន្តឹងលើភ្នាក់ងារអ្នកប្រើប្រាស់ទេ។

របៀបបិទ ChatGPT Plugin Requests: នៅក្នុងដំណើរការស្រដៀងគ្នានេះ ដើម្បីបិទ ChatGPT’s web scrapers អ្នកអាចបិទសំណើពី Plugins ដែលប្រកាសអំពីវត្តមានរបស់ពួកគេជាមួយនឹង “ChatGPT-User” substring ដោយភ្នាក់ងារអ្នកប្រើប្រាស់។ ប៉ុន្តែការបិទភ្នាក់ងារអ្នកប្រើប្រាស់ ក៏អាចជាការបិទ ChatGPT Users ជាមួយនឹងការបើក “browsing” mode ដែរ។ ជាងនេះទៀត ខុសពីអ្វីដែលបានបង្ហាញនៅក្នុងឯកសារ OpenAI ការស្នើសុំបិទពី “ChatGPT-User” មិនធានាថា ChatGPT និង Plugins របស់វាមិនអាចទៅដល់ដៃភ្នាក់ងារអ្នកប្រើប្រាស់ផ្សេងនោះទេ។ ការពិតទៅ ChatGPT Plugins អាចធ្វើសំណើដោយផ្ទាល់ពីម៉ាសុីនមេដែលបានបង្ហោះ APIs របស់ពួកគេ តាមរយៈភ្នាក់ងារអ្នកប្រើប្រាស់ជាច្រើននាក់ និងក៏អាចប្រើ automated browsers ផងដែរ។ ការរកឃើញ Plugins ដែលមិនប្រកាសអត្តសញ្ញាណរបស់ពួកគេនៅក្នុងភ្នាក់ងារអ្នកប្រើប្រាស់តម្រូវឱ្យមានបច្ចេកទេសស្វែងរក Bot កម្រិតខ្ពស់។

ការកំណត់ជំហានបន្ទាប់៖ ការទទួលបាននូវ High-quality datasets របស់ content ដែលបង្កើតឡើងដោយមនុស្សនៅតែមានសារៈសំខាន់ចំពោះ LLMs។ នៅក្នុងរយៈពេលវែង ក្រុមហ៊ុនដូចជា OpenAI (ទទួលបានជំនួយពីក្រុមហ៊ុន Microsoft) និងក្រុមហ៊ុន Google អាចត្រូវបានបញ្ចុះបញ្ចូលឱ្យប្រើ Bingbots និង Googlebots ដើម្បីបង្កើត datasets បង្រៀនដល់ LLMs របស់ពួកគេ។ រឿងនេះអាចធ្វើឱ្យគេហទំព័រកាន់តែពិបាកនឹងដកខ្លួនចេញពីការប្រមូលទិន្នន័យរបស់ពួកគេ ដោយសារអាជីវកម្មអនឡាញភាគច្រើនពឹងផ្អែកយ៉ាងខ្លាំងលើ Bing និង Google ដើម្បីធ្វើ Index Content និងដឹកនាំចរាចរទៅកាន់គេហទំព័ររបស់ពួកគេ។ គេហទំព័រដែលមានទិន្នន័យមានតម្លៃចង់ស្វែងរកមធ្យោបាយដើម្បីស្វែងរកប្រាក់ពីការប្រើប្រាស់ទិន្នន័យរបស់ពួកគេ ឬដកខ្លួនចេញពី AI model Training ដើម្បីជៀសវាងការបាត់បង់ Web Traffic និងប្រាក់ចំណូលពីការផ្សាយពាណិជ្ជកម្មទៅកាន់ ChatGPT និង Plugins។ ប្រសិនបើអ្នកចង់ដកខ្លួនចេញ អ្នកត្រូវតែមានបច្ចេកទេសតាមរក (detection) Bot ដែលទំនើបដូចជា ការស្គេនម្រាមដៃ (fingerprinting), Proxy Detection, និងការវិភាគអាកប្បកិរិយា (behavioral analysis) ដើម្បីផ្អាក Bot មុនពេលដែលវាអាចចូលប្រើទិន្នន័យរបស់អ្នកបាន។

ដំណោះស្រាយឈានមុខសម្រាប់ Bot និងការការពារការឆបោកនោះគឺត្រូវប្រើ AI និង Machine Learning (ML) ដើម្បីតាមចាប់ និងបញ្ឈប់ Bots ពីការស្នើសុំលើកដំបូង (first request) និងធ្វើឱ្យ Content របស់អ្នកមានសុវត្ថិភាពពី LLM Scrapers, Unknown Plugins និងបច្ចេកវិទ្យា AI ផ្សេងទៀត៕

ប្រភពព័ត៌មាន៖ ថ្ងៃទី៣០ ខែសីហា ឆ្នាំ២០២៣

ប្រែសម្រួលដោយ៖ កញ្ញា

វិធីការពារ Content និង Traffic របស់គេហទំព័រអ្នកមិនឱ្យ ChatGPT លួចបាន

LEAVE A REPLY Cancel reply

អ៊ីស្រាអែលអះអាងថាបានសម្លាប់សមាជិកក្រុមហេបូឡា ៦នាក់ក្នុងប្រទេសលីបង់