DALL·E 2 کیا ہے؟ مثالوں کے ساتھ beginners کے لیے وضاحت

Cto Takoe Dall E 2 Ob Asnenie Dla Nacinausih S Primerami



DALL·E 2 کیا ہے؟

DALL·E 2 ایک مصنوعی ذہانت کا پروگرام ہے جو متنی وضاحتوں سے تصاویر بناتا ہے، جس کا انکشاف جمعرات کو ایک تحقیقی کمپنی OpenAI نے کیا۔





یہ GPT-3 ٹرانسفارمر ماڈل کا 12-بلین پیرامیٹر ٹریننگ ورژن استعمال کرتا ہے تاکہ قدرتی زبان کے آدانوں کی تشریح اور متعلقہ تصاویر تیار کی جا سکے۔ مثال کے طور پر، جب 'چھوٹے کتے کی سیاہ اور سفید تصویر' کے جملے کے ساتھ فراہم کیا جاتا ہے، تو اس نے Chihuahua کی سیاہ اور سفید تصویر کو درست طریقے سے پیش کیا۔





نظام کامل نہیں ہے - یہ بعض اوقات ایسی تصاویر تیار کرتا ہے جن کی تشریح کرنا مشکل ہوتا ہے، یا مکمل طور پر نشان سے ہٹ جاتا ہے۔ مثال کے طور پر، جب 'آتش فشاں کے اوپر ایک ٹائیٹروپ پر یونیسیکل سوار ایک شخص' کی تصویر بنانے کے لیے کہا گیا، تو اس نے پیش منظر میں ایک چھوٹی سی شخصیت کے ساتھ پانی پر غروب آفتاب کی ایک (خوبصورت، میری رائے میں) لیکن مکمل طور پر غیر متعلق تصویر بنائی۔ .





پھر بھی، نتائج متاثر کن ہیں، اور OpenAI کا کہنا ہے کہ DALL·E 2 'پہلا AI ماڈل ہے جو متنی وضاحتوں سے تصاویر تیار کرتا ہے جو پیشہ ور انسانی فنکاروں کے معیار کا مقابلہ کر سکتا ہے۔'



اس سسٹم کو ٹیکسٹ امیج کے جوڑوں کے ڈیٹاسیٹ پر تربیت دی گئی تھی، جس میں انٹرنیٹ سے تقریباً 1.3 ملین تصاویر اور کیپشنز شامل تھے جنہیں OpenAI کے ذریعے سکریپ اور کیوریٹ کیا گیا تھا۔ اس کے بعد تربیتی ڈیٹا کو GPT-3 ماڈل کو ٹھیک کرنے کے لیے استعمال کیا گیا تاکہ یہ متنی وضاحتوں سے تصاویر تیار کر سکے۔

OpenAI کا کہنا ہے کہ یہ نظام متنی وضاحتوں کی ایک وسیع رینج سے 'اعلی معیار کی' تصاویر بنا سکتا ہے، بشمول وہ جو خلاصہ، ٹھوس، یا شاعرانہ بھی ہیں۔

Chihuahua کی مثال کے علاوہ، DALL·E 2 کی طرف سے تیار کردہ تصاویر کی دیگر مثالوں میں ایڈولف ہٹلر کا صحیح طور پر پیش کیا گیا پورٹریٹ، سبزیوں سے بنی ڈریگن کی تصویر، اور ٹوسٹ سے بنی مونا لیزا کی تصویر شامل ہے۔



یہ نظام ان چیزوں کی تصاویر بنانے کے قابل بھی ہے جو موجود نہیں ہیں، جیسے 'فلوف' (ایک بنا ہوا جانور) یا 'تلپا' (ایک سوچ کی شکل)۔

مجموعی طور پر، نتائج متاثر کن ہیں، اور OpenAI کا کہنا ہے کہ یہ نظام 'متن کی وضاحت سے تصاویر بنانے کے لیے نئے امکانات کھولتا ہے۔'

E 2 سے یہ CLIP سسٹم متن کی معلومات کو بصری معلومات میں تبدیل کرتا ہے۔ یہ ایک انکوڈر-ڈیکوڈر پیراڈیم ہے، جس کا مطلب ہے کہ جب ان پٹ ٹیکسٹ فراہم کیا جاتا ہے، تو اسے پہلے مشین ان پٹ میں تبدیل کیا جاتا ہے، پھر سسٹم کے ذریعے پروسیس کیا جاتا ہے، اور آخر میں ڈیکوڈر کو منتقل کیا جاتا ہے، جو انکوڈ شدہ ڈیٹا کو تصویر میں تبدیل کرتا ہے۔

DALL E 2 کیا ہے؟

DALL·E 2 کیا ہے؟

یہ DALL·E کی تازہ ترین نسل ہے، ایک تخلیقی زبان کا ماڈل جو مکمل طور پر نئے بصری اثرات پیدا کرنے کے لیے جملے استعمال کرتا ہے۔ DALL E 2 ایک بہت بڑا 3.5V ماڈل ہے، حالانکہ GPT-3 جتنا بڑا نہیں ہے۔ دلچسپ بات یہ ہے کہ یہ اپنے پیشرو (12B) سے بھی ہلکا ہے۔ تفصیل کی ترتیب اور فوٹوریئلزم کے لحاظ سے، DALL·E 2 اپنے بڑے سائز کے باوجود DALL·E 2 سے 70% بہتر ہے۔

DALL.E 2- مثالوں کے ساتھ ابتدائی افراد کے لیے وضاحت

خاص طور پر، DALL·E 2 ایک درجہ بندی کنڈیشنل ٹیکسٹ امیج سنتھیسس ماڈل ہے جو کہ قدرتی زبان کی پروسیسنگ کے لیے گہرائی سے سیکھنے کو امیج جنریشن کے لیے کمپیوٹر ویژن کے ساتھ جوڑتا ہے۔ اس کا مقصد دو ماڈلز کو تربیت دینا ہے، اور ٹریننگ سیٹ جوڑی تصویروں اور وضاحتوں پر مشتمل ہے۔ پہلی ترجیح ہے جسے تحریری عنوان دیے جانے پر، CLIP امیج ایمبیڈ بنانے کی تربیت دی جا سکتی ہے۔ اس کے بعد ہمارے پاس ایک ڈیکوڈر ہے جو، CLIP امیج کو ایمبیڈ کرتے وقت (اور کیپشن، اگر موجود ہو)، ایک تربیت یافتہ تصویر بنا سکتا ہے۔

DALLE 2 کو انٹرنیٹ سے کیپشن کے ساتھ لاکھوں تصاویر کا استعمال کرنے کی تربیت دی جاتی ہے، اور ان میں سے کچھ تصاویر کو ہٹا کر تبدیل کیا جاتا ہے تاکہ ماڈل جو کچھ سیکھتا ہے اسے تبدیل کر سکے۔ یہ ایک سے زیادہ تصویری اختیارات کو بازیافت کرتا ہے۔ CLIP منسلکات اور پھر اسے استعمال کریں ڈیکوڈر ان میں سے ہر ایک کے ذریعے جاؤ. اس کے بعد یہ صارف کے ان پٹ کو دی گئی تمام معلومات کا ایک دلچسپ مرکب بناتا ہے۔

مثال DALL IS 2

آئیے DALL·E کو سمجھنے کے لیے ایک چھوٹا سا کھیل کھیلیں۔ آئیے اسے اگلے تین مراحل میں توڑتے ہیں۔

  1. نیلے آسمان میں قوس قزح، بادل اور ایک تنگاوالا اڑتے ہوئے تصور کریں۔ تصور کریں کہ آپ کے تصور میں ایک تصویر کیسی ہو سکتی ہے۔ لوگ ہمارے پاس ایک امیج ایمبیڈ کے کامل اینالاگ کے قریب ترین چیز ہیں، اور وہ تصویر جو ابھی آپ کے سر میں آئی ہے اس کی ایک بہترین مثال ہے۔ آپ صرف حتمی پروڈکٹ کے بارے میں اندازہ لگا سکتے ہیں، لیکن آپ کو اچھی طرح اندازہ ہے کہ کیا شامل کیا جانا چاہیے۔ ایک ترجیحی ماڈل قاری کو فقرے کے الفاظ سے اس کے تخیل میں کسی منظر تک لے جاتا ہے۔
  2. اب آپ ڈرائنگ شروع کر سکتے ہیں۔ UnCLIP آپ کی ذہنی تصویر کو حقیقی خاکے میں تبدیل کرتا ہے۔ اب آپ اسی تفصیل سے ایک اور کردار کو درست طریقے سے دوبارہ بنا سکتے ہیں، اسی بنیادی اعدادوشمار کے ساتھ، لیکن بالکل نئے بصری انداز کے ساتھ۔ DALL·E 2 اس طرح سے سرایت شدہ موجودہ تصویر سے منفرد تصاویر بھی بنا سکتا ہے۔
  3. اپنے بنائے ہوئے خاکے پر توجہ دیں۔ ایسا ہی ہوتا ہے جب آپ 'بادلوں کے بیچ میں ایک تنگاوالا، اور ایک قوس قزح آسمان کے خلاف اٹھتی ہے' کی تفصیل کا خاکہ بناتے ہیں۔ اب تصویر اور متن کا جائزہ لیں تاکہ یہ معلوم کیا جا سکے کہ دوسرے (سورج، مکان، درخت، وغیرہ) کو کیا بہتر انداز میں بیان کرتا ہے اور جو چیز موضوع، انداز، رنگ وغیرہ کی بہترین عکاسی کرتی ہے۔ CLIP کیا کرتا ہے وہ ہے انکوڈ خصوصیات۔ متن اور تصاویر.

اب جب کہ ہم جانتے ہیں کہ DALL-E کیا ہے، آئیے اگلے حصے کی طرف چلتے ہیں اور اس کی خصوصیات کو سمجھتے ہیں۔

ٹپ: DALL-E-2 AI سروس کے ساتھ حقیقت پسندانہ تصاویر کیسے بنائیں

DALL E 2 کی خصوصیات

ذیل میں DALL·E 2 کی وضاحتیں ہیں۔

  1. تغیرات
  2. رنگ کاری
  3. متن کے فرق

آئیے ان کے بارے میں تفصیل سے بات کرتے ہیں۔

لفظ 2010 میں بزنس کارڈ کیسے بنائیں

1] تغیرات

DALL·E 2 صرف ایک جملے کو تصویر میں ترجمہ کرنے سے آگے ہے۔ OpenAI تخلیقی عمل کے ساتھ تجربہ کر سکتا ہے، مضبوط CLIP ایمبیڈنگز کی بدولت دیئے گئے دستخط کے لیے مختلف نتائج پیدا کرتا ہے۔ جو CLIP اپنے 'ذہن' میں 'دیکھتا ہے' وہی ہے جسے وہ ان پٹ سے اہم سمجھتا ہے (تمام امیجز کے لیے یکساں رہتا ہے) اور کیا تبدیل کیا جا سکتا ہے (جو مختلف امیجز کے لیے تبدیل ہوتا ہے)۔ جب بھی ممکن ہو، DALL·E 2 دونوں 'معنی معلومات...اور جمالیاتی پہلوؤں' کو برقرار رکھے گا۔

2] رنگ کاری

DALL·E 2 خودکار فل کے ساتھ موجودہ تصاویر میں ترمیم کر سکتا ہے۔ مندرجہ ذیل مثال میں، بائیں تصویر اصل تصویر ہے، اور درمیان اور دائیں تصاویر میں عنصر مختلف جگہوں پر کھینچا گیا ہے۔ DALL·E 2 تصویر کے انداز سے ایک اضافی عنصر سے میل کھاتا ہے۔ یہ نئے عنصر کی عکاسی کرنے کے لیے ساخت اور عکاسی کو بھی اپ ڈیٹ کرتا ہے۔

پڑھیں : آپ ChatGPT کے ساتھ کیا کر سکتے ہیں۔

3] متن میں فرق

DALL·E 2 متن کے فرق کا استعمال کرتے ہوئے تصاویر کو تبدیل کرتا ہے۔ DALL·E 2 میں انٹرپولیشن کی اعلیٰ صلاحیتیں بھی ہیں جو آپ کو اشیاء میں ترمیم کرنے کی اجازت دیتی ہیں۔ ایک ٹویٹر صارف اپنے آئی فون کو 'غیر منظم' کرنے میں کامیاب رہا۔ twitter.com اسے چیک کرنے کے لیے۔

اگر آپ کو یہ خصوصیات پسند ہیں، تو آپ کو صرف اس پر جانا ہے۔ openai.com اور پھر رجسٹر کریں. آپ ایک نیا اکاؤنٹ بنا سکتے ہیں یا سائن اپ کرنے کے لیے اپنے موجودہ Microsoft یا Google اکاؤنٹس کا استعمال کر سکتے ہیں۔ ایک بار جب آپ ایسا کرتے ہیں، تو آپ کو کچھ مفت کریڈٹ ملیں گے، اگر آپ مزید چاہتے ہیں، تو آپ کو اس کے لیے ادائیگی کرنا ہوگی۔

یہ DALL·E 2 کی کچھ خصوصیات ہیں، اس کے استعمال کے بہت سے معاملات ہیں، تاہم یہ ہمیشہ مشورہ دیا جاتا ہے کہ AI ٹولز پر زیادہ انحصار نہ کریں۔ سب کے بعد، یہ کام کرنے کے لئے استعمال ہونے والے اوزار کے علاوہ کچھ نہیں ہیں، وہ کبھی بھی کسی شخص کی جذباتی ذہانت کی جگہ نہیں لے سکتے۔

یہ بھی پڑھیں: بہترین ڈیپ فیک ایپس، سافٹ ویئر اور ویب سائٹس۔

DALL E 2 کیا ہے؟
مقبول خطوط