GPTBot چیست و چرا سایتها دنبال مسدود کردن آن هستن؟

در آگوست ۲۰۲۳، OpenAI، شرکت هوش مصنوعی که به توسعه ChatGPT اعتبار دارد، GPTBot را معرفی کرد، یک وبکراولر طراحی شده برای پیمایش وب و جمعآوری دادهها.
مدت کوتاهی پس از آن ، برخی از بزرگترین وبسایتهای اینترنت از دسترسی این ربات به وبسایت خود جلوگیری کردند. اما چرا؟ GPTBot OpenAI چیست؟ چرا وب سایت های بزرگ از آن می ترسند و چرا سعی می کنند آن را مسدود کنند؟
GPTBot OpenAI چیست؟
GPTBot یک وبکراولر ایجاد شده توسط OpenAI برای جستجو در اینترنت و جمعآوری اطلاعات برای اهداف توسعه هوش مصنوعی OpenAI است و برای گشتن وب سایت های عمومی و ارسال داده ها به سرورهای OpenAI برنامه ریزی شده است. OpenAI از این داده ها برای آموزش و بهبود مدل های هوش مصنوعی خود استفاده می کند تا سیستم های هوش مصنوعی پیشرفته تری ایجاد کند.
برای ساخت مدل های هوش مصنوعی پیشرفته مانند GPT-4 یا محصولات فرعی آن مانند ChatGPT، وبکراولرها تقریباً ضروری هستند. آموزش یک مدل هوش مصنوعی نیاز به مقدار زیادی داده دارد و یکی از موثرترین راهها برای جمعآوری این دادهها، استفاده از ابزارهایی مانند وبکراولرها است. این خزنده ها می توانند به طور سیستماتیک در وب مرور کنند، پیوندها را دنبال کنند تا حجم عظیمی از صفحات وب را فهرست بندی کنند و داده های کلیدی مانند متن، تصاویر و ابرداده را که با الگوی از پیش تعریف شده مطابقت دارد، استخراج کنند.
این داده ها را می توان ساختار داد و در مدل های هوش مصنوعی وارد کرد تا توانایی پردازش زبان طبیعی یا توانایی ایجاد تصویر آنها را آموزش دهد یا آنها را برای سایر کارهای هوش مصنوعی آموزش دهد. به عبارت دیگر، وبکراولرها دادههایی را جمعآوری میکنند که امکان استفاده از ابزارهایی مانند ChatGPT یا DALL-E را برای انجام کارهایی که انجام میدهند فراهم میکند.
وبکراولرها مفهوم جدیدی نیستند. احتمالاً میلیونها نفر از آنها میلیاردها وبسایت موجود در اینترنت امروز را مرور میکنند. آنها حداقل از اوایل دهه ۹۰ وجود داشته اند. GPTBot فقط یکی از این خزنده ها است که متعلق به OpenAI است. بنابراین، چه چیزی باعث ایجاد بحث و جدال در مورد این وبکراولر خاص میشود؟
چرا سایتهای بزرگ فناوری GPTBot را مسدود میکنند؟
به گفته Business Insider، برخی از بزرگترین وبسایتهای اینترنت به طور فعال خزنده OpenAI را در وبسایت خود مسدود میکنند. بنابراین، اگر هدف نهایی GPTBot پیشبرد توسعه هوش مصنوعی است، چرا برخی از بزرگترین سایتهای اینترنت، که برخی از آنها به نحوی از هوش مصنوعی بهرهمند شدهاند، با آن مخالف هستند؟

خب، موضوع این است که از زمان ظهور مجدد فناوریهای هوش مصنوعی تولیدی در سال ۲۰۲۲، بحثهای زیادی در مورد حق شرکتهای هوش مصنوعی برای استفاده تقریباً بدون محدودیت از دادههای منبع از اینترنت وجود داشته است که بخش قابل توجهی از آن از نظر قانونی توسط حق بازنشر محافظت میشود. هیچ قانون روشنی نحوه جمعآوری و استفاده این شرکتها از دادهها به نفع خود را تنظیم نمیکند. بنابراین، اساساً، خزندههایی مانند GPTBot وب را مرور میکنند، کار خلاقانه افراد را به شکل متن، تصاویر یا سایر اشکال رسانهای جمعآوری میکنند و بدون کسب مجوز، مجوز یا پرداخت غرامت به سازندگان اصلی، از آن برای اهداف تجاری استفاده میکنند. این مثل غرب وحشی است که در آن شرکتهای هوش مصنوعی هر آنچه را که میتوانند به دست آورند، میگیرند. وبسایتهای بزرگی مانند Quora، CNN، نیویورک تایمز، Business Insider و آمازون از اینکه محتوای دارای حق بازنشر آنها توسط این خزندهها برداشت میشود، چندان خوشحال نیستند، بنابراین OpenAI میتواند به هزینه آنها از آن سود مالی کسب کند.
به همین دلیل است که این سایتها از “robots.txt” استفاده میکنند که یک روش قدیمی برای مسدود کردن خزندههای وب است. به گفته OpenAI، GPTBot بر اساس قوانین جاسازی شده در robots.txt، یک فایل متنی کوچک که به خزندههای وب میگوید چگونه در یک سایت رفتار کنند، از دستورالعملها برای خزیدن یا جلوگیری از خزیدن وبسایتها اطاعت میکند.
آیا وبسایتها واقعاً میتوانند GPTBot را متوقف کنند؟
در حالی که خزندههایی مانند GPTBot برای جمعآوری مقادیر عظیم داده مورد نیاز برای آموزش سیستمهای هوش مصنوعی پیشرفته ضروری هستند، نگرانیهای موجهای در مورد حق بازنشر و استفاده منصفانه وجود دارد که نمیتوان آنها را نادیده گرفت. مطمئناً، ابزارهای سادهای مانند robots.txt وجود دارند که میتوان از آنها برای محافظت در برابر این امر استفاده کرد، اما اینکه آیا GPTBot از دستورالعملهای این فایل پیروی میکند، کاملاً به اختیار OpenAI است. هیچ تضمینی وجود ندارد که آنها این کار را انجام دهند، و هیچ راه فوری و مطمئنی برای تشخیص اینکه آیا آنها این کار را انجام داده اند وجود ندارد. در مبارزه برای دور نگه داشتن GPTBot از دادههای دارای حق بازنشر، OpenAI حداقل در حال حاضر دست برتر را دارد.



