چکیده
این مقاله به بررسی اجمالی ارزشیابی نگارش در کلاس آموزش زبان انگلیسی در ایران، بهعنوان زبان خارجی (EFL) میپردازد. بدینمنظور در ابتدا برخی مفاهیم کلیدی مرتبط تعریف میشوند و سپس معیار نمرهدهی بهعنوان یکی از مهمترین عوامل تأثیرگذار در ارزشیابی متن، مورد کنکاش قرار میگیرد. توجه به ارزشیابی مهارت نگارش، که شواهد فراوانی اهمیت آن را نشان میدهد، نیاز مبرم معلمان و کادر آموزشی را به معیارهای عینی جهت آزمودن هرچه دقیقتر این مهارت آشکار میکند. درواقع آنچه در اکثر محیطهای ارزشیابی EFL در جریان است، ارزشیابی متن به شکل سلیقهای است که تنها میتواند تصویر مبهمی از توانایی نوشتاری فرد به دست دهد. به علاوه، عدم شفافیت در کار و مقایسهناپذیر بودن نتایج چنین ارزشیابیهایی در غیاب بازخورد دادن تشخیصی به فراگیر، همگی نیاز به آشنایی بیشتر با مفاهیم نظری ارزشیابی متن و نیز معیار نمرهدهی و انواع آن را بهخوبی آشکار میسازد.
ارزشیابی نگارش
مهارت نوشتن، که زمانی قلمرو نخبگان و افراد بسیار تحصیلکرده یک جامعه بهشمار میرفت، امروز به ابزار اصلی ارتباطی افراد در تمامی شئون زندگی تبدیل شده است (۲۰۰۲ ,Weigle). همگان اذعان دارند که نوشتن نه تنها اطلاعات را منتقل میکند، بلکه نقش بسزایی در تغییر ماهیت دانش و خلق دانش جدید دارد. از این منظر، نوشتن، اهمیت اساسی در فراگیری زبان در سراسر جهان دارد. بنابراین، هرگاه یادگیری مهارت زبانی خاصی، مهم جلوه کند، به همان میزان ارزشیابی آن نیز حائز اهمیت میشود و مهارت نگارش نیز از این قاعده مستثنی نیست. بر این اساس، همگام با اهمیت فزاینده نگارش در مبحث آموزش زبانهای خارجی، نیاز جدیتری به روشهای پایا و با روایی بالا جهت آزمودن مهارت نگارش در کلاس آموزش زبان شکل میگیرد.
تاریخچه ارزشیابی نگارش
سابقه ارزشیابی نگارش به دوره امپراتوری چو (بین سالهای ۱۱۱۱ تا ۷۷۱ قبل از میلاد مسیح) در چین برمیگردد (۲۰۰۱ ,Hamp-Lyons). در آن زمان چندین مصحح به کار گرفته میشد تا از پایایی شیوه انتخاب مقامات کشوری، که براساس آزمونهای کتبی بود، اطمینان حاصل کنند. در اروپای استعماری نیز به دلیل نیاز به فرستادن افراد باسواد به کشورهای مختلف، بر ارزشیابی مستقیم و بلاواسطه نگارش متن براساس متنهای واقعی تأکید میشد. در ایالات متحده نیز در دهههای پایانی سال ۱۸۰۰، دانشگاه هاروارد آزمون کتبی را جایگزین آزمون شفاهی کرد. بهدنبال چنین تغییراتی در اروپا و آمریکا، نیاز بیشتری به استانداردسازی آزمونها احساس شد که خود موجب توجه بیشتر به آمار و نظریههای اندازهگیری و نیز یافتن روشهایی جهت ارزشیابی توانایی واقعی فراگیران شد. ارزشیابی نگارش کلاسمحور تا دهه ۱۹۵۰ روش رایج آزمودن مهارت نگارش متن به شمار میرفت. به دنبال افزایش چشمگیر متقاضیان دانشگاه و نیز آزمونهای بسندگی بینالمللی، نیاز به آزمونهایی که از سطح بالایی از ویژگیهای روانسنجی برخوردار باشند افزایش یافت. بنابراین، آزمونهای غیرمستقیم نگارش (۱۹۹۶,Grabe & Kaplan) که ویژگیهای خاص لغوی و دستوری متن را مورد ارزیابی قرار میدادند، به وجود آمدند. بهعنوان نمونه، آزمون کتبی انگلیسی استاندارد (Test of Standard Written English) در مؤسسه ETS جهت فراگیران زبان اول تولید شد.
به دنبال گرایش نگرشهای ارتباطی، در آموزش و ارزشیابی زبان، در اواخر دهه هفتاد و اوایل دهه هشتاد میلادی، ارزشیابی بلاواسطه و مستقیم نگارش، یا همان ارزشیابی عملکرد نگارش، در محیطهای آموزشی زبان اول و دوم مورد توجه قرار گرفت. در این شیوه از فراگیران خواسته میشد که متنی را در مدت زمان ۴۵-۳۰ دقیقه بنویسند؛ سپس یک مصحح آن را با استفاده از یک معیار ارزیابی، به شکل جزئی یا کلی تصحیح میکرد (۱۹۹۷ ,Cumming). علاوه بر آزمونهای بلاواسطه نگارش در کلاس، آزمونهای مهم و استانداردی همچون آیلتس و تافل نیز این شیوه ارزشیابی نگارش را اتخاذ کردند. اکنون در کنار اینگونه آزمونهای بسندگی بینالمللی که توانایی کلی نگارش افراد را میسنجند، اهداف آموزشی مهم دیگری برای ارزشیابی مستقیم نگارش وجود دارد. برای مثال، آزمونهای پایانی کلاس که پیشرفت فراگیر را در یک دوره تحصیلی میسنجند و یا آزمونهای تشخیصی که بهمنظور شناسایی نقاط ضعف و قوت توانایی نگارشی بهکار میروند، از این دستهاند.
علیرغم اقبال عمومی به ارزشیابی مستقیم نگارش، دغدغههایی در باب اعتبار محتوایی و سازهای اینگونه ارزشیابی وجود دارد. درواقع، این اعتباریابی در صدر تحقیقات مرتبط در این زمینه بوده است. در این میان عوامل متعددی همچون مصحح، نوع فعالیت مدنظر نگارشی، معیار نمرهدهی و ... وجود دارد. در ادامه، معیار نمرهدهی بهعنوان برجستهترین تفاوت اینگونه از ارزشیابی نگارش با دورههای پیشین مورد بررسی قرار خواهد گرفت.
معیار نمرهدهی و ارزشیابی نگارش
بررسی تاریخی نظریههای سنجش مرتبط با ارزشیابی نگارش در قرن بیستم، دو سنت غالب را نشان میدهند: سنت آزمونـ نمره و سنت معیارمحور (۲۰۱۱ ,Behizadeh & Engelhard). سنت آزمونـ نمره که نشئت گرفته از مقاله ارزشمند اسپیرمن (۱۹۰۴ ,Spearman) است، بر خطای اندازهگیری و تجزیه نمره عینی به دو عنصر نمره واقعی و مقادیر خطا، متمرکز است. این سنت تحت لوای نظریه کلاسیک آزمون، موجبات پیدایش برخی نظریههای مهم همچون نظریه تعمیمپذیری (Brennan, ۱۹۹۷; Cronbach, Gleser, Nanda, & Rajaratnam, ۱۹۷۲ ) ، تحلیل عاملی و مدل معادلات ساختاری، گردید (Joreskog, ۲۰۰۷).
دیگر نظریه تأثیرگذار، نظریه معیارـ محور، به واسطه سیطره علم روانـ جسمانی قرن نوزدهم پدیدار شد. تمرکز سنت معیارـ محور، فراهم آوردن نقشههایی متغیر است که جایگاه افراد و آیتمها را روی یک معیار متغیر نهانی، مشخص میکند. بر اساس گفته معروف ثوندایک که هر آنچه وجود دارد تا اندازهای وجود دارد (Clifford, ۱۹۸۴) سنت معیارـ محور، معیارهای ارزشیابی فراوانی را که ریشه در نظریه گویهـ پاسخ دارد، عرضه کرده است.
در فضای ارزشیابی عملکرد، معیار نمرهدهی بهعنوان تعریف عملیاتی سازه مورد نظر، یک سری از سطوح سازمانیافته را فراهم میکند که براساس آن عملکرد فراگیران با یکدیگر مقایسه میشود. دیویس و همکاران (Davies et al, ۱۹۹۹)ساختار معیار نمرهدهی را اینگونه شرح میدهند:
«غالباً اینگونه معیارها نمایانگر تسلط صفر تا غایت تسلط (همسطح فرد بومیزبان) است. سطوح تعریفشده در این معیارها براساس آنچه افراد میتوانند با زبان انجام دهند (مانند فعالیتها و عملکردهای قابل انجام) و نیز تسلط آنها بر ویژگیهای زبانی (مانند لغات، دستور زبان، روانی و انسجام کلام) است. معیارهای نمرهدهی دربرگیرنده پارهای از رفتارهای غالباً رایج هستند. آنها به خودی خود، آزمون به شمار نمیآیند بلکه میبایست به همراه آزمونهای هدفمند بهکار گرفته شوند. مصححین معمولاً جهت استفاده از این معیارها، آموزش میبینند و از این نظر پایایی معیار تأمین میشود.» (P. ۱۵۳)
نظر به اهمیت فراوان معیارهای نمرهدهی در ارزشیابی نگارش، برخی از مهمترین انواع این معیارها در ذیل آورده میشود:
انواع معیارهای نمرهدهی
فارغ از نوع خاص معیار نمرهدهی، رایجترین انواع این معیارها عبارتاند از معیارهای کلینگر، معیارهای جزئینگر، معیارهای ویژگی اصلی و معیارهای چندویژگی (Hamp-Lyons, ۱۹۹۱; Hyland, ۲۰۰۳ and Weigle, ۲۰۰۲). همگی این معیارها در محیطهای EFL/ESL جهت شناسایی سطوح بسندگی فراگیران به منظور اهداف مختلف بهکار گرفته شدهاند. براساس (۲۰۰۲ ,Weigle) دو ویژگی عمده این چهار معیار نمرهدهی را از هم متمایز میکند: نخست اینکه آیا معیار مختص یک فعالیت نگارشی خاص است و یا قابل تعمیم به گروهی از فعالیتهاست، و دوم اینکه آیا یک نمره واحد و یا چند نمره به هر نوشته اختصاص مییابد (جدول ۲,۴). این چهار شیوه نمرهدهی در ادامه به تفصیل مورد بحث قرار میگیرند.
نمرهدهی کلینگر
در این شیوه نمرهدهی، توجه به ویژگیهای زبانی، کلامی و محتوایی متن کنار گذاشته میشود. همچنین اینگونه معیار نمرهدهی عمدتاً در ارزشیابیهای کلان مورد استفاده قرار میگیرد (Cooper, ۱۹۹۷). روال رایج نمرهدهی کلینگر به این شکل است که متن به سرعت خوانده میشود و سپس با معیار نمرهدهی که دربرگیرنده شاخصهای نمرهدهی است، مورد مقایسه قرار میگیرد. معمولاً معیار مورد نظر با چند متن نمونه که نمایانگر معیارهای ارزشیابی مورد نظر در هر سطح هستند، همراه است. همچنین مصححین نیز بهخوبی آموزش میبینند که چگونه در هنگام تصحیح متن از این معیارها استفاده کنند. بهعنوان یکی از معروفترین نمونههای معیار نمرهدهی کلینگر در فضای ESL میتوان از معیار آزمون نگارش تافل نام برد. این معیار در برگیرنده توصیفگرهای دستوری و کلامی در شش سطح بسندگی نگارش است.
درواقع، مهمترین برتری نگرش کلینگر که بهخوبی کاربرد فراوان آن در فضاهای مختلف را توجیه میکند، عملی بودن آن است. (۱۹۸۴,۱۹۸۵,White) که خود از پیشروان استفاده از نمرهدهی کلینگر است، مزایای متعددی را برای آن برمیشمرد: از دید او، یک بار خواندن متن و نمرهدهی آن سریعتر از چند بار خواندن و در هر بار بخش متفاوتی را نمره دادن است. همچنین از آنجا که نمرهدهی کلینگر توجه خواننده متن را به نقاط قوت متن و نه ضعفهای آن جلب میکند، نویسندگان را در سطح بالاتری از عملکرد ارزیابی میکند. به علاوه این روش نمرهدهی میتواند بهگونهای طراحی شود که توجه خواننده را به بخشهای خاصی از متنـ که در یک فضای خاص مهم هستندـ معطوف کند و از این طریق اطلاعات مهمی را در مورد آنها به صورت کارآمدی ارائه کند. همچنین
(۱۹۸۴,۱۹۸۵,White) ادعای بحثبرانگیزی را مطرح میکند. او بر این باور است که «نمرهدهی کلینگر از نمرهدهی جزئینگر اعتبار بیشتری دارد زیرا بازتاب واکنش شخصی و واقعی فرد خواننده به متن است. از دید او ، توجه بیش از حد به اجزای متن در نمرهدهی جزئینگر، معنای کلی را منسوخ میکند. (White, ۱۹۸۴, p. ۴۰۹)
در رابطه با معایب نمرهدهی کلینگر، چهار نقد عمده مطرح شده است: نخست اینکه این شیوه نمرهدهی، پروفایلی از اطلاعات نگارشی فراگیران فراهم نمیآورد. به عبارت دیگر، یک نمره واحد، اطلاعات تشخیصی مفیدی در مورد جنبههای مختلف نگارش مانند تسلط بر دستور زبان، میزان آشنایی با واژگان، سازماندهی متن و غیره را به دست نمیدهد. ویگل (۲۰۰۲) نیز بر این نکته تأکید میکند که تصویر غیرواقعی که نمرهدهی کلینگر فراهم میآورد، خصوصاً برای فراگیران زبان دوم دردساز است، زیرا نویسندگان مختلف با سرعتهای متفاوتی در بخشهای مختلف نگارش پیشرفت میکنند. برای مثال، برخی نویسندگان، مهارت بالایی در محتوا و سازماندهی متن دارند اما ممکن است تسلط آنها بر دستور زبان به همان اندازه نباشد. دستهای دیگر از نویسندگان بهخوبی با ساختار جمله آشنایی دارند اما ممکن است در سازماندهی منطقی متن ضعف داشته باشند.
همچنین از آنجا که مصححین معیار/ معیارهای واحدی را جهت نمرهدهی بهکار نمیبرند، تفسیر نمرات در این شیوه نمرهدهی، مشکل است. برای مثال، یک مصحح ممکن است براساس جنبههای کلامی (محتوا، سازماندهی، بسط) به متنی نمره ۴ بدهد، و مصحح دیگر براساس جنبههای زبانی متن (تسلط بر دستور زبان و واژگان) همان نمره ۴ را بدهد.
از دیگر نقدهای وارد شده به این شیوه نمرهدهی همبستگی بالای آن با ویژگیهای ظاهری متن مانند دستخط نویسنده و اندازه متن است (Weigle, ۲۰۰۲). همچنین تأکید بیش از حد بر همبستگی بالای بین مصححین که به بهای نادیده انگاشته شدن روایی متن است، از دیگر مشکلات در این زمینه است. بهعنوان نمونهای از یک معیار نمرهدهی کلینگر، معیار آزمون انگلیسی کتبی تافل در ذیل آورده میشود.
نمرهدهی جزئینگر
در این نوع از نمرهدهی، بخشهای مختلفی از متن مانند محتوا، سازماندهی، مکانیک و غیره در نظر گرفته میشود. به همین دلیل نمرهدهی جزئینگر از پایایی و نیز روایی سازهای بیشتری برخوردار است (Weigle , ۲۰۰۲). یکی از نمونههای نمرهدهی جزئینگر، معیار (ESL Composition Profile, Jacobs, et al.,۱۹۸۱) است. در این معیار خاص، متن براساس پنج ویژگی نگارشی مورد قضاوت قرار میگیرد: محتوا، سازماندهی، واژگان، کاربرد زبان و مکانیک. این پنج جنبه، وزن نمرهای متفاوتی دارند بهگونهای که محتوا با ۳۰ نمره بالاترین تأکید را داراست و سپس کاربرد زبان (۲۵ نمره) سازماندهی و واژگان (هر کدام ۲۰ نمره) و مکانیک (با ۵ نمره) در سطوح مختلف این معیار جای دارند. این معیار بهطور گستردهای در برنامههای آموزشی مرتبط با نگارش، مورد اقبال واقع شده است. بهعنوان نمونه دیگری از نمرهدهی جزئینگر، میتوان از معیار نمرهدهی (Hamp-Lyons Michigan Writing Assessment Scoring Guide, ۱۹۹۰; ۱۹۹۱) نام برد. این معیار جهت ارزشیابی آزمون نگارش ورودی دانشگاه به کار میرود و دربرگیرنده سه نوع معیار نمرهدهی است: بحث و نظرات، ویژگیهای کلامی و تسلط بر زبان. ویژگی برجسته این معیار این است که از درون کلاسهای نگارش دانشگاه و با همراهی و مشورت با آنها به وجود آمده است و متن خوب را از منظر چنین نگاهی، تعریف میکند. در نتیجه، این معیار مورد استقبال فراگیران، مشاوران و دانشگاهیان و دیگر افراد قرار گرفته است.
مزیت اصلی نمرهدهی جزئینگر، فراهم آوردن اطلاعات دقیق از توانایی فراگیران در رابطه با ویژگیهای مختلف متن است و به همین منظور، این معیار مناسب اهداف تشخیصی است (Knoch, ۲۰۰۹). همچنین، برخی تحقیقات (Fancis & Adams, ۱۹۷۷, ۱۹۸۱) نشان دادهاند که معیار نمرهدهی جزئینگر از آنجا که موجب میشود مصححین تازهکار بهراحتی معیارهای نمرهدهی را درک کنند و بهکار ببرند، فایده بیشتری دارند. علاوه بر این، نمرهدهی جزئینگر برای فراگیران زبان دوم که تواناییهایی متفاوتی در بخشهای مختلف متن دارند، سود بیشتری دارد. و نهایتاً نمرهدهی جزئینگر پایایی بیشتری نسبت به نمرهدهی کلینگر دارد. همانطور که با افزایش تعداد گویهها به آزمون، پایایی آن افزایش مییابد، معیار نمرهدهی که چند نوع نمره را به یک متن اختصاص میدهد نیز موجب افزایش پایایی آن میشود.
در کنار مزایای قبل، این شیوه نمرهدهی از جنبههایی هم مورد نقد واقع شده است. نخست اینکه شیوه نمرهدهی جزئینگر نسبت به نمرهدهی کلینگر بسیار زمانبر است، زیرا مصححین میبایست بیش از یک بار به هر متن نمره دهند و زمان بیشتری را صرف نمرهدهی کنند. نقد دیگر این است که اگر نمرات بخشهای مختلف با هم جمع شوند و یک نمره کل را بهوجود بیاورند، تا میزان زیادی اطلاعاتی که نمرهدهی جزئینگر بهدست میدهد، از بین میرود.
علاوه بر این، نمرهدهی جزئینگر نیازمند این مهم است که معیارهای خاصی ایجاد و نوشته شوند و مصححین نیز آموزش ببینند و در جلسات آموزشی فراوان شرکت کنند. چنین جلساتی به دنبال کاستن از اختلاف نمرهدهی بین مصححین و در نتیجه افزایش روایی است. همچنین از آنجا که مصححین به دنبال جنبههای خاصی از متن هستند، سطح نمرات نسبت به نمرات مشابه در نمرهدهی کلینگر پایینتر است. آزمونگرها همواره هشدار میدهند که معیارهای نمرهدهی جزئینگر، ماهیت یکپارچگی مهارتها را در ارزشیابی نگارش نادیده میگیرند. از سوی دیگر، معلمین نیز بر این باورند که نگارش بزرگتر از مجموع اجزای آن است (Coombe & Wiens, ۱۹۹۹).
نمرهدهی ویژگی اصلی
این شیوه نمرهدهی با نام لوید جونز (۱۹۷۷) پیوند خورده است. جونز این شیوه را برای ارزشیابی ملی پیشرفت آموزشی (NAEP) که دربرگیرنده آزمونهای مدارس ایالات متحده است، ابداع کرد. اینگونه نمرهدهی بر این فلسفه استوار است که فراگیران نهایتاً باید بتوانند در یک گونه خاص گفتمانی (مانند گونه توضیحی یا ترغیبی) بنویسند. در نمرهدهی ویژگی اصلی، معیار نمرهدهی بر اساس نوع فعالیت خاص نگارشی تعریف میشود و متن فراگیران بر پایه میزان موفقیت آنان در انجام آن، مورد قضاوت قرار میگیرد. درواقع، در این شیوه، برای هر فعالیت نگارشی، معیاری تعریف میشود که دربرگیرنده این معیارهاست:
- فعالیت نگارشی
- بیان ویژگی کلامی اصلی مورد نظر فعالیت (برای مثال، متن انگیزشی، نامه تبریک)
- فرضیه در مورد عملکرد مورد انتظار
- بیان ارتباط بین فعالیت و ویژگی اصلی
- معیار نمرهدهی که سطوح عملکرد را نشان میدهد
- نمونه متن در هر سطح
- توضیح در باب چگونگی تصحیح هر کدام از متنها
ناگفته پیداست که چون برای هر فعالیت نگارشی میبایست راهنمای نمرهدهی تعریف و ایجاد شود، نمرهدهی ویژگی اصلی بسیار وقتگیر و خستهکننده است. بهعلاوه این روش چندان در برنامههای آموزشی یادگیری زبان دوم مورد استفاده واقع نشده است که این خود از رغبت به این روش میکاهد. با وجود این، روش نمرهدهی ویژگی اصلی بهطور خاص مناسب فراگیران زبان دوم در فضای مدرسه است، زیرا والدین که خود تسلط کافی به زبان مدرسه ندارند، میتوانند از توصیف آنچه فرزندانشان به واسطه زبان انجام میدهند، بهره ببرند.
نمرهدهی چندویژگی
روش نمرهدهی چندویژگی که بر اساس مفاهیم نمرهدهی ویژگی اصلی طراحی شده است، به دنبال فراهم آوردن بازخورد تشخیصی به فراگیران و دیگر افراد مرتبط در مورد عملکرد نویسندگان بر مبنای معیارهای متناسب با فضا و فعالیت مورد نظر جهت یک متن خاص است (Hamp-Lyons, ۱۹۹۱).
معیارهای چندویژگی از آنجا که به بررسی عملکرد در چند دسته میپردازند، شباهت زیادی به معیارهای جزئینگر دارند و گاهی این دو به جای یکدیگر بهکار میروند. با وجود این، معیارهای جزئینگر معمولاً به جنبههای سنتی و کلیتر متن میپردازند، اما معیارهای چندویژگی به ویژگیهای خاص نگارش که مورد نیاز نگارش یک متن خاص هستند، توجه میکنند.
برخی از مزایای این شیوه خاص نمرهدهی عبارتند از هماهنگی و ارتباط بیشتر معیارهای نمرهدهی با فعالیتها و برنامه درسی که این خود موجب افزایش روایی محتوایی و سازهای ارزشیابی معیارـ محور میگردد (McNamara, ۱۹۹۶). همچنین به دلیل ماهیت خاص فعالیت مورد نظر، هم معلم و هم فراگیر فعالانه در فرایند بازخورد حضور دارند. از معایب اصلی این روش نمرهدهی (مشابه روش نمرهدهی ویژگی اصلی) عدم تعمیم عملکرد نگارشی فراگیران به دیگر فعالیتها است.
نتیجهگیری
اهمیت روزافزون نگارش به زبان دوم از سویی و فضای مبهم موجود در زمینه ارزشیابی دقیق و معتبر این مهارت از سوی دیگر، نیازمند آشنا ساختن هرچه بیشتر معلمان زبان در این زمینه است. مطالب ذکر شده در این مقاله را نیز باید تلاشی در این راستا قلمداد کرد. بیتردید اقدامات دیگری همچون برگزاری کارگاههای آموزشی که معلمان را به صورت عملی درگیر مقوله ارزشیابی خواهد کرد و اصلاح سیاستهای آموزشی با تأکید بر اهمیت گونه کتبی ارتباطات در فضای مدرسه و دانشگاه نیز ضرورت دارد. در سایه چنین اقداماتی میتوان امیدوار بود که مهارت به غفلت سپرده شده نگارش جایگاه خود را در برنامههای درسی آموزش و یادگیری زبان بیابد.
References
Adams, R. (1981). The reliability of marking of five June 1980 examinations, mimeographed paper, Guildford: Associated Examining Board.
Behizadeh, N. & Engelhard, G. (2011). Historical view of the influences of measurement and writing theories on the practice of writing assessment in the United States. Assessing writing, 16 (3), 189-211.
Brennan, R. L. (1997). A perspective on the history of generalizability. Educational Measurement: Issues and Practice, 16 (10), 14–20.
Clifford, G. J. (1984). Edward L. Thorndike: The sane positivist. In Behizadeh, N. & Engelhard, G. (2011). Historical view of the influences of measurement and writing theories on the practice of writing assessment in the United States. Assessing writing, 16(3), 189-211.
Coombe, C. & Wiens, B. (1999). Writing assessment: which marking scheme is right for you? Paper presented at the first Annual Egypt TESOL Conference, November 1999. Retrieved from:
Cronbach, L. J., Gleser, G. C., Nanda, H., & Rajaratnam, N. (1972). The dependability of behavioral measurements: Theory of generalizability of scores and profiles. In Behizadeh, N. & Engelhard, G. (2011). Historical view of the influences of measurement and writing theories on the practice of writing assessment in the United States. Assessing writing, 16(3), 189-211.
Cumming, A. (1997). The testing of writing in a second language. In C. Clapham & D. Corson (Eds.), Encyclopedia of Language and Education (Vol. 7: Language Testing and Assessment). Dordrecht: Kluwer Academic Publishers.
Davies, A., Brown, A., Elder, C., Hill, K., Lumley, T., & McNamara, T. (1999). Dictionary of Language Testing. Cambridge: Cambridge University Press.
Fancis, J. C. (1977). Impression and analytic marking methods, unpublished paper, Aldershot: Associated Examining Board.
Grabe, W., & Kaplan, R. B. (1996). Theory and practice of writing. New York: Longman.
Hamp-Lyons, L. (1990). Second language writing: Assessment issues. In B. Kroll (Ed.), Second language writing: Research insights for the classroom. New York: Cambridge University Press.
Hamp-Lyons, L. (1991). Reconstructing “academic writing proficiency. In: L. Hamp-Lyons (Ed.), Assessing second language writing in academic contexts (pp. 127–154). Norwood NJ: Ablex.
Hamp-Lyons, L. (2001). Ethics, fairness(es) and developments in language testing. Studies in Language Testing 9. Cambridge: Cambridge University Press, pp. 30–34.
Hyland, K. (2003). Second language writing. Cambridge: Cambridge University Press.
Jacobs, H. L., Zinkgraf, S.A., Wormouth, D.R., Hartfiel, V. F. and Hughey, J. B. (1981). Testing ESL composition: a practical approach. Rowely, MA: Newbury House.
Joreskog, K. G. (2007). Factor analysis and its extensions. In: R. Cudeck & R. C. MacCallum (Eds.), Factor analysis at 100: Historical developments and future directions. Mahwah, NJ: Erlbaum.
Knoch, U. (2009), Diagnostic assessment of writing: A comparison of two rating scales. Language Testing, 26 (2), 275-304.
Lloyd-Jones, R. (1977). Primary trait scoring. In C. R. Cooper & L. Odell (Eds.), Evaluating writing. New York: National Council of Teachers of English.
McNamara,T. (1996). Measuring second language performance. Harlow: Longman.
Spearman, C. (1904). “General intelligence,” objectively determined and measured. In Behizadeh, N. & Engelhard, G. (2011). Historical view of the influences of measurement and writing theories on the practice of writing assessment in the United States. Assessing writing, 16 (3), 189-211.
Tedick, D.J. (2002). Proficiency-oriented language instruction and assessment: Standards, philosophies, and considerations for assessment. In Minnesota Articulation Project, D. J. Tedick (Ed.), Proficiency-oriented language instruction and assessment: A curriculum handbook for teachers (Rev Ed.). CARLA Working Paper Series. Minneapolis, MN: University of Minnesota, The Center for Advanced Research on Language Acquisition.
Weigle, S. C. (2002). Assessing writing. Cambridge, UK: Cambridge University Press.
White, E. M. (1985). Teaching and assessing writing. San Francisco: Jossey-Bass Inc.