GPTBot چیست و چرا سایت‌ها دنبال مسدود کردن آن هستن؟

0 13 خواندن این مطلب 3 دقیقه زمان میبرد

GPTBot چیست و چرا سایت‌ها دنبال مسدود کردن آن هستن؟

در آگوست ۲۰۲۳، OpenAI، شرکت هوش مصنوعی که به توسعه ChatGPT اعتبار دارد، GPTBot را معرفی کرد، یک وب‌کراولر طراحی شده برای پیمایش وب و جمع‌آوری داده‌ها.

مدت کوتاهی پس از آن ، برخی از بزرگترین وب‌سایت‌های اینترنت از دسترسی این ربات به وب‌سایت خود جلوگیری کردند. اما چرا؟ GPTBot OpenAI چیست؟ چرا وب سایت های بزرگ از آن می ترسند و چرا سعی می کنند آن را مسدود کنند؟

GPTBot OpenAI چیست؟

GPTBot یک وب‌کراولر ایجاد شده توسط OpenAI برای جستجو در اینترنت و جمع‌آوری اطلاعات برای اهداف توسعه هوش مصنوعی OpenAI است و برای گشتن وب سایت های عمومی و ارسال داده ها به سرورهای OpenAI برنامه ریزی شده است. OpenAI از این داده ها برای آموزش و بهبود مدل های هوش مصنوعی خود استفاده می کند تا سیستم های هوش مصنوعی پیشرفته تری ایجاد کند.

برای ساخت مدل های هوش مصنوعی پیشرفته مانند GPT-4 یا محصولات فرعی آن مانند ChatGPT، وب‌کراولرها تقریباً ضروری هستند. آموزش یک مدل هوش مصنوعی نیاز به مقدار زیادی داده دارد و یکی از موثرترین راه‌ها برای جمع‌آوری این داده‌ها، استفاده از ابزارهایی مانند وب‌کراولرها است. این خزنده ها می توانند به طور سیستماتیک در وب مرور کنند، پیوندها را دنبال کنند تا حجم عظیمی از صفحات وب را فهرست بندی کنند و داده های کلیدی مانند متن، تصاویر و ابرداده را که با الگوی از پیش تعریف شده مطابقت دارد، استخراج کنند.

این داده ها را می توان ساختار داد و در مدل های هوش مصنوعی وارد کرد تا توانایی پردازش زبان طبیعی یا توانایی ایجاد تصویر آنها را آموزش دهد یا آنها را برای سایر کارهای هوش مصنوعی آموزش دهد. به عبارت دیگر، وب‌کراولرها داده‌هایی را جمع‌آوری می‌کنند که امکان استفاده از ابزارهایی مانند ChatGPT یا DALL-E را برای انجام کارهایی که انجام می‌دهند فراهم می‌کند.

وب‌کراولرها مفهوم جدیدی نیستند. احتمالاً میلیون‌ها نفر از آنها میلیاردها وب‌سایت موجود در اینترنت امروز را مرور می‌کنند. آنها حداقل از اوایل دهه ۹۰ وجود داشته اند. GPTBot فقط یکی از این خزنده ها است که متعلق به OpenAI است. بنابراین، چه چیزی باعث ایجاد بحث و جدال در مورد این وب‌کراولر خاص می‌شود؟

چرا سایت‌های بزرگ فناوری GPTBot را مسدود می‌کنند؟

به گفته Business Insider، برخی از بزرگترین وب‌سایت‌های اینترنت به طور فعال خزنده OpenAI را در وب‌سایت خود مسدود می‌کنند. بنابراین، اگر هدف نهایی GPTBot پیشبرد توسعه هوش مصنوعی است، چرا برخی از بزرگترین سایت‌های اینترنت، که برخی از آنها به نحوی از هوش مصنوعی بهره‌مند شده‌اند، با آن مخالف هستند؟

GPTBot OpenAI چیست؟

خب، موضوع این است که از زمان ظهور مجدد فناوری‌های هوش مصنوعی تولیدی در سال ۲۰۲۲، بحث‌های زیادی در مورد حق شرکت‌های هوش مصنوعی برای استفاده تقریباً بدون محدودیت از داده‌های منبع از اینترنت وجود داشته است که بخش قابل توجهی از آن از نظر قانونی توسط حق بازنشر محافظت می‌شود. هیچ قانون روشنی نحوه جمع‌آوری و استفاده این شرکت‌ها از داده‌ها به نفع خود را تنظیم نمی‌کند. بنابراین، اساساً، خزنده‌هایی مانند GPTBot وب را مرور می‌کنند، کار خلاقانه افراد را به شکل متن، تصاویر یا سایر اشکال رسانه‌ای جمع‌آوری می‌کنند و بدون کسب مجوز، مجوز یا پرداخت غرامت به سازندگان اصلی، از آن برای اهداف تجاری استفاده می‌کنند. این مثل غرب وحشی است که در آن شرکت‌های هوش مصنوعی هر آنچه را که می‌توانند به دست آورند، می‌گیرند. وب‌سایت‌های بزرگی مانند Quora، CNN، نیویورک تایمز، Business Insider و آمازون از اینکه محتوای دارای حق بازنشر آنها توسط این خزنده‌ها برداشت می‌شود، چندان خوشحال نیستند، بنابراین OpenAI می‌تواند به هزینه آنها از آن سود مالی کسب کند.

به همین دلیل است که این سایت‌ها از “robots.txt” استفاده می‌کنند که یک روش قدیمی برای مسدود کردن خزنده‌های وب است. به گفته OpenAI، GPTBot بر اساس قوانین جاسازی شده در robots.txt، یک فایل متنی کوچک که به خزنده‌های وب می‌گوید چگونه در یک سایت رفتار کنند، از دستورالعمل‌ها برای خزیدن یا جلوگیری از خزیدن وب‌سایت‌ها اطاعت می‌کند.

آیا وب‌سایت‌ها واقعاً می‌توانند GPTBot را متوقف کنند؟

در حالی که خزنده‌هایی مانند GPTBot برای جمع‌آوری مقادیر عظیم داده مورد نیاز برای آموزش سیستم‌های هوش مصنوعی پیشرفته ضروری هستند، نگرانی‌های موجه‌ای در مورد حق بازنشر و استفاده منصفانه وجود دارد که نمی‌توان آن‌ها را نادیده گرفت. مطمئناً، ابزارهای ساده‌ای مانند robots.txt وجود دارند که می‌توان از آن‌ها برای محافظت در برابر این امر استفاده کرد، اما اینکه آیا GPTBot از دستورالعمل‌های این فایل پیروی می‌کند، کاملاً به اختیار OpenAI است. هیچ تضمینی وجود ندارد که آنها این کار را انجام دهند، و هیچ راه فوری و مطمئنی برای تشخیص اینکه آیا آنها این کار را انجام داده اند وجود ندارد. در مبارزه برای دور نگه داشتن GPTBot از داده‌های دارای حق بازنشر، OpenAI حداقل در حال حاضر دست برتر را دارد.

احمد شاتقی

0 13 خواندن این مطلب 3 دقیقه زمان میبرد