کارپس کیا ہے؟ _______ شہزاد وریہ

0

کمپیوٹر نے زندگی کے ہر شعبے کو متاثر کیا ہے نت نئی ایجادات ہونا کوئی عجیب بات نہیں ہر میدان میں انقلاب آچکا ہے اور ہر میدان بہتری کی طرف رواں دواں ہے جہاں کمپیوٹر نے دوسرے تمام شعبہ ہائے زندگی کو متاثر کیا ہے وہاں پر اس نے زبانوں پر بھی اپنے کے اثرات مرتب کئے ہیں خاص طور پر لسانیات کے میدان میں زبانوں پر تحقیق کے علم میں نئی اور وسیع تر جہتیں سامنے آنا شروع ہوئیں اور سائنسی انداز میں زبانوں کی ساخت اور اثرات کا جائزہ لیا جانا شروع ہوا۔ زبانوں پر تحقیق کا کام بھی وقت کہ اہم ضرورت ہے۔ کارپس اس لیے بنایا جاتا ہے تاکہ لسانیات اور محقیقن کے لیے آسانی پیدا ہو سکے۔اور جو زبان کی اندر تبدیلیاں پیدا ہوتی ہیں وقت گزرنے کے سا تھ ساتھ ان مواد میں تبدیل کر دی جاتی ہے۔

کارپس یہ لفظ واحدہے اور اس کی جمع کار پورہ ہے۔ کمپیوٹر میں جمع کردہ تحریری یا تقریری زبان کے مواد کے مجموعہ جو لسانی تحقیق اورلغت سازی کے لیے استعمال ہوتا ہو۔یہ تحریری متن کا وہ مجموعہ ہوتا ہے جو کسی خاص مصنف کے پورے کام یا کسی خاص مضمون پر لکھی ہو ئی تحریر وں کے مجموعے سے تعلق رکھتا ہے۔

انسٹی ٹیوٹ آف زیک نیشنل کارپس (Institute of the Czech National corpus) �میں کارپس کیا ہے کہ ذیل میں یہ مذکور ہے کہ:

’’ کارپس برقیاتی شکل میں متن کا مجموعہ ہے اور تقریری صورت میں اس کاٹرانسکرپشن ہوتا ہے جو لسانیاتی تحقیقات کے لیے استعمال ہوتا ہے۔� ایک مخصوص سرچ انجن اسی کارپس کے ساتھ کام کرنے میں سہولت فراہم کرتا ہے نیز یہ صارفین کو الفاظ کی تلاشی یا متن کے مجموعہ یا پھر اپنے اصلی متن کے تسلسل کا تعین کرنے میں مدد دیتا ہے ساتھ ہی دوبارہ ڈیٹا کو حروف تہجی کی ترتیب سے تلاش کرنے کے لیے بہت موزوں ہے کچھ کارپورہ پارٹس آف اسپیچ کے مطابق بھی سرچ کیے جا سکتے ہیں۔ ‘‘

اوکسفرڈ کی تعریف:

A corpus is a collection of written material in machine-readable form that has been put together for linguistic research.

جان سنتنا لاریو ( Juan Santana Lario) کے مطابق کارپس کی چھ اقسام ہیں۔

.1 مقصد کے اعتبار سے: According to purpose

.2متن کے انتخاب کے اعتبار سے: According to text selection procedure

3 .واسطہ کے اعتبار سے: According to Medium

4 .زبانوں کی تعداد کے اعتبار سے: According to number of languages

5 .عارضی قسموں کے اعتبار سے: According to temporal variety

.6 متکلم کے اعتبار: According to type of speaker

برمنگھم یونیورسٹی برطانیہ میں پروفیسر جان میک ہارڈی سنکلیئر (John McHardy Sinclair) کا “دی بینک آف انگلش” کے نام سے انگریزی زبان کا ایک بڑا مال خانہ (Repository) ، جواِس وقت قائم ہے۔ اِسی طرح کا ایک بڑا کارپس “امریکن انگریزی کارپس” (COCA: Corpus of Contemporary American English)ہے۔

اس کارپس کی اگر بات کی جائے تو اس میں صرف اسی عہد کی بولی اور لکھی جانے والی زبان شامل ہے کلاسیکی انگریزی اور مخصوص شعئبوں کی خاص زبان اس میں موجود نہیں ہے۔

امریکن انگریزی کارپس (COCA) میں 385 ملین سے زیادہ الفاظ ذخیرہ ہیں۔ ہر سال اِس مقدار میں کم سے کم دو مرتبہ الفاظ کا اضافہ کیا جاتا ہے جو20

ملین الفاظ پر مشتمل ہوتا ہے۔ اِس مال خانے میں 1990ء سے دورِ حاضر تک کے متون موجود ہیں۔

انگریزی کارپس میں صرف مشین ریڈایبل انگریزی متون ہیں جو پلیٹ فارم سے ناوابستہ (Platform Independent) حالت میں ہیں اور کسی بھی کمپیوٹر پروگرام کے لیے استعمال ہونے کی صلاحیت رکھتے ہیں۔دی بینک آف انگلش، کولن ورڈ ویب کا حصہ ہے جس میں تقریبًا 645 ملین بولے اور لکھے جانے والے الفاظ موجودہیں جسے کمپیوٹر میں زبان کے لغتیاتی تجزیے اور تحقیقی استعمال کے لیے اِکٹھا کیا گیا ہے۔ یہ مواد 1990ء سے اب تک کے استعمال ہونے والے، ذخیرہ کردہ متون سے لیا گیا ہے۔ یہ مواد ہمہ وقت اَپ ڈیٹ رکھا جاتا ہے۔ اس میں موجود متون کا تقریبًا 40% حصہ برطانوی انگریزی پر جب کہ امریکن انگریزی کے متون 30%ہیں؛ بقیہ 30%متون آسٹریلیائی، نیوزی لینڈی اور کنیڈیائی انگریزی کے ہیں۔

مشین ریڈایبل متن مختلف طریقوں سے اِکٹھا کیا جاسکتا ہے۔ مثلًا یہ کہ مختلف ویب سائٹوں سے مطلب کا مواد حاصل کیا جائے۔ اگر مواد اہم ہے لیکن متن (Text) کی شکل میںہیں ہے تو اِسے متن کی صورت میں ٹائپ کرایا جائے۔ یہ ٹائپنگ معیاری ہونی چاہیے۔ آواز سے متن (Speech-to-text) اور تصویر سے متن بصری حروف شناسی:OCR] کی جدید مشینوں کو استعمال کرکے بھی یہ مواد جمع کیا جاتا ہے۔ مواد کی جمع آوری (Data Gathering) میں بنیادی بات یہ ہے کہ یہ کم وقت میں اور کم خرچ میں ہو، لیکن اِبہام اور اغلاط سے پاک ہو۔

انگریزی کارپس بنانے کی اہم ترین وجہ ایک ایسا الفاظ کا مجموعہ تیار کرنا تھا جو محققین اور لغت نویسوں کو الفاظ کے متعلق زیادہ سے زیادہ اور معیاری معلومات فراہم کرسکے۔ وقت گزرنے کے ساتھ ساتھ اِس کے اِستعمالات کی نئی سے نئی صورتیں سامنے آتی رہی ہیں، اور اِن میں اضافہ بھی ہوتا ہے۔ چنانچہ انگریزی کارپس میں الفاظ کی سب تصریفی صورتوں(Inflected Orthographic Forms) کا استعمال موجود ہوتا ہے۔ اِن کارپسوں میں الفاظ چونکہ موجودہ زبان (یعنی آج کل کی بولی اور لکھی جانے والی زبان) سے لی گئی ہیں لہٰذا زبان کا تازہ ترین، زندہ استعمال مہیا کرکے جاری تحقیقات میں سہولت فراہم کی جاتی ہے۔

دی بینک آف انگلش” میں رکھا مواد اخبارات، میگزین، فکشن اور نان فکشن کتب، ویب سائٹوں، بروشروں، پمفلٹ، رپورٹوں اور خطوط وغیرہ سے لیا گیا ہے۔ مختلف موضوعات کی ہزاروں کتب کے علاوہ اِس مواد کا قریب قریب آدھا حصہ میڈیا کی زبان پر مشتمل ہے، یعنی اخبارات اور میگزینوں کے ساتھ ساتھ ریڈیو اور ٹی وی کی زبان۔ اِس مواد میں تقریبًا 40 ملین الفاظ ایسے ہیں جو عام بول چال پر مشتمل ہیں۔ یہ متن غیر رسمی ملاقاتوں، انٹرویوز، مباحثوں اور ریڈیو و ٹی وی پروگراموں کو ریکارڈ کرکے لکھا گیا ہے۔ یہ حصہ انگریزی زبان کے زندہ استعمال اور الفاظ و مرکبات پر مشتمل ہے۔

انگریزی کارپس میں ادَبی زبان کو شامل نہیں کیا گیا، یعنی ناول اور شاعری کو بینک کا حصہ نہیں بنایا گیا۔ اِسی طرح یہ کارپس سائنسی مقالات اور مختلف شعبوں کی مخصوص زبان (Jargon; slang) کو بھی محفوظ نہیں کرتے۔ وجہ یہ ہے کہ اِن سب جہات کی زبان عام زبان نہیں ہوتی بلکہ اہلِ علم یا مخصوص لوگوں/ شعبوں کی زبان ہوتی ہے۔

مختلف کارپس درج ذیل ہیں۔

https://corpus.byu.edu/coca/
http://www.natcorp.ox.ac.uk/
http://corpus.quran.com/

اور اگر آپ کارپس پر کام کرنا چاہتے ہیں اس کا سوفٹ وئیر بھی اس لنک پر موجود ہے۔

For Corpus Tools …….
http://www.laurenceanthony.net/software/antconc/

(Visited 74 times, 1 visits today)

Leave a Reply

Leave A Reply

%d bloggers like this: