מאגר העברית המדוברת בישראל (מעמ"ד)

The Corpus of Spoken Israeli Hebrew (CoSIH)

לגירסה עברית הקש  כאן.

Plans for The Corpus of Spoken Israeli Hebrew (CoSIH) started to take shape in 1998. The model according to which CoSIH would be compiled was to consist of a thousand sets of recordings ("cells") with 5000 words each, i.e., a corpus of 5M words. This model was first described in a previous version of this internet page which has eventually found its place in Hary and Izre'el 2003. A more sophisticated model has been published in Izre'el, Hary and Rahav 2001.

Although at the initial stages of modeling the corpus-to-be and preparing our steps towards its compilation we designed a pilot of 20 sets of 3-hour recordings, we have eventually ended up with some 50 sets, each including between 8 to 16 hours of uninterrupted recording of everyday speech (Izre'el and Rahav 2004). Therefore, while lack of enough financial support has prevented us from continuing our initial plans, we believe that the recordings hitherto made, which will become available through this channel, will form a nice collection of texts, enough to give a solid database of Spoken Israeli Hebrew, and thus to enhance its study by ways hitherto unavailable to the research community.

Since the first recordings were made in 2001, we have made some progress in transcribing them, mainly by students using these data for research in course papers, seminar papers, MA theses (כהן תשס"ד; זילבר-ורוד תשס"ה) and doctoral dissertations. At this stage (summer 2009), we are editing and preparing these texts for dissemination with the aid of an Israel Science Foundation (ISF) grant given to Esther Borochovsky Bar-Aba fo her research on concise utterances in spoken Israeli Hebrew. The recordings will be disseminated electronically using the alignment software ELAN, still to be further developed for web publication for CorpAfroAs, the Corpus of spoken Afroasiatic languages. We hope that CoSIH will be disseminated, at least with its first bulk of texts, in 2011. These texts will include each at least 1000 to 2000 words, and – at least in the initial stages – will consist mainly of recordings of native speakers.

Transcription of most texts will be in the standard Hebrew orthography (Izre'el 2004), prosodically parsed into prosodic groups (=intonation units) (Amir, Silber-Varod and Izre'el 2004; Izre'el 2005; Izre'el and Silber-Varod forthcoming). A small sample of texts has been published (in transcription only) in יזרעאל תשס"ב(א). A sample of texts with ca. 42,000 words in preliminary transcriptions (with no prosodic marking) has been used as a basis for a tagged corpus by Dalia Bojan in the MILA site of the Technion. 

CoSIH was initiated and designed by a team of Israeli and international scholars:

Core team: Shlomo Izre'el, Tel-Aviv University (director); Benjamin Hary, Emory University (principal investigator); John Du Bois, University of California at Santa arbara (corpus analyst); Mira Ariel, Tel-Aviv University (discourse analysis and pragmatics); Giora Rahav, Tel-Aviv University (statistics and sociology).

Advisory board: Eliezer Ben-Rafael, Tel Aviv University (sociolinguistics – sociological aspects); Yaakov Bentolila, Ben Gurion University (sociolinguistics – linguistic aspects); Otto Jastrow, Universität Erlangen-Nürenberg (transcription, phonology, dialectology); Shmuel Bolozky, University of Massachusetts at Amherst (phonology, morphology); Geoffrey Khan, Cambridge University (syntax); Elana Shohamy, Tel Aviv University (language education).

 

For contact click here

 

Bibliography (including studies that have been based – partly or wholly – on CoSIH texts)

■ גונן, אילן. תשס"ט. מורפופונולוגיה של השורש בפועל בעברית ישראלית מדוברת. עבודת גמר לקראת תואר מוסמך. אוניברסיטת תל-אביב.

■ גונן, עינת. תשס"ו. נטיית שם העצם בעברית המדוברת: תהליכי חיטוף. חיבור לשם קבלת תואר דוקטור לפילוסופיה. האוניברסיטה העברית, ירושלים.

זילבר-ורוד, ורד. תשס"ה. מאפייני גבולות של יחידות פרוזודיות בעברית הדבורה: ניתוח תפיסתי ואקוסטי. עבודת גמר לקראת תואר מוסמך. אוניברסיטת תל-אביב.

■ יזרעאל, שלמה. תשס"ב(א). מאגר העברית המדוברת בישראל (מעמ"ד): דוגמאות טקסטים. לשוננו ס"ד: 314-289. (במאמר זה גם דוגמאות אחדות לטקסטים מתועתקים בתעתיק צר; תעתיקים אלה שופרו והועלו על האינטרנט עם ההקלטות עצמן: http://www.tau.ac.il/humanities/semitic/meeting.pdf ; http://www.tau.ac.il/humanities/semitic/meeting.wav ; http://www.tau.ac.il/humanities/semitic/cardrive.pdf; http://www.tau.ac.il/humanities/semitic/cardrive.wav; http://www.tau.ac.il/humanities/semitic/folkstory.pdf; http://www.tau.ac.il/humanities/semitic/folkstory.wav

■ יזרעאל, שלמה (עורך), בסיועה של מרגלית מנדלסון. תשס"ב(ב). מדברים עברית: לחקר הלשון המדוברת והשונוּת הלשונית בישראל. (תעודה, יח.) תל אביב: אוניברסיטת תל אביב.

     מאמרים בכרך זה העוסקים ישירות בכינון מעמד:

              רהב, גיורא, דגימת אוכלוסייה לכינון מאגר מייצג, עמ' 445-439;

              הרי, בנימין ושלמה יזרעאל, המודל התכנוני של מאגר העברית המדוברת בישראל (מעמ"ד), עמ' 458-447
                    (תקציר; למאמר השלם ר'
http://www.tau.ac.il/humanities/semitic/maamad2000.html ובאנגלית להלן Hary and Izre'el 2003);

              וֶרוּם, רגינה, הערות מתודולוגיות על כינון מאגר העברית המדוברת בישראל (מעמ"ד), עמ' 477-459.

         

■ יזרעאל, שלמה. תשס"ג-תשס"ד. מחקר העברית המדוברת: הצעד הראשון - על רישום הדיבור לצרכי מחקר. לשוננו לעם נ"ד: 601-911.

■ יזרעאל, שלמה. מדיבור לתחביר – מתיאוריה לתמליל. בדפוס. בתוך: משה בר-אשר וחיים כהן (עורכים). ספר יובל לכבוד אהרון דותן.

■ יזרעאל, שלמה. תשס"ג. מאגר העברית המדוברת בישראל (מעמ"ד); שלב א': בדיקה טרומית - דו"ח ראשוני. בתוך: דניאל סיון ופבלו-יצחק הלוי-קירטצ'וק (עורכים). קול ליעקב: אסופת מאמרים לכבוד פרופ' יעקב בן-טולילה. (אשל באר שבע: מחקרים במדעי היהדות, 8.) באר-שבע: אוניברסיטת בן-גוריון בנגב. 222-211.

■ יזרעאל, שלמה, בנימין הרי וגיורא רהב. תשס"ב. לקראת כינון מאגר העברית המדוברת בישראל. לשוננו ס"ד (תשס"ב): 287-265.

■ יזרעאל, שלמה וורד זילבר-ורוד. בדפוס. אומר לנתח לנתח: על תפישת הקבוצה הפרוזודית בעברית המדוברת. בלשנות עברית 64-63.

■ כהן, סמדר. תשס"ד. ושאינו יודע לשאול - מה הוא אומר? – דרכי השאלה בעברית המדוברת. עבודת גמר לקראת תואר מוסמך, אוניברסיטת תל-אביב.

Amir, Noam, Vered Silber-Varod and Shlomo Izre'el. 2004. Characteristics of Intonation Unit Boundaries in Spontaneous Spoken Hebrew: Perception and Acoustic Correlates. In: Bernard Bel and Isabelle Marlien (eds.). Speech Prosody 2004, Nara, Japan, March 23-26, 2004: Proceedings. 677-680.

Hary, Benjamin H. 2003. (ed.). Corpus Linguistics and Modern Hebrew: Towards the Compilation of The Corpus of Spoken Israeli Hebrew (CoSIH). Tel Aviv: Tel Aviv University, The Chaim Rosenberg School of Jewish Studies.

            Papers in this volume dealing directly with the compilation of CoSIH:

                Rahav, Giora, Population Sampling for the Establishment of a representative Corpus, pp. 181-188.

                Hary, Benjamin and Shlomo Izre'el, The Preparatory Model of The Corpus of Spoken Israeli Hebrew (CoSIH), pp. 189-219.

                Werum, Regina E., Methodological Remarks on Creating the Corpus of Spoken Israeli Hebrew (CoSIH), pp. 221-241.

Izre'el, Shlomo, Benjamin Hary and Giora Rahav. 2001. Designing CoSIH: The Corpus of Spoken Israeli Hebrew. International Journal of Corpus  Linguistics 6: 171-197.

Amina Mettouchi, Anne Lacheret-Dujour, Vered Silber-Varod & Shlomo Izre'el. Only Prosody? Perception of speech segmentation. Nouveaux cahiers de linguistique française 28 (2007) : Intefaces discoursprosodie : actes du 2ème Symposium international & Colloque Charles Bally, 207-218. Sound files and transcriptions: http://clf.unige.ch/annexe.php?article=108.

Izre'el, Shlomo. 2004. Transcribing Spoken Israeli Hebrew: Preliminary Notes. In: Dorit Diskin Ravid and Hava Bat-Zeev Shyldkrot (Eds.). Perspectives on Language and Language Development: Essays in Honor of Ruth A. Berman. Dodrecht: Kluwer. 2004. 61-72.

Izre'el, Shlomo. 2005. Intonation Units and the Structure of Spontaneous Spoken Language: A View from Hebrew. In: Cyril Auran, Roxanne Bertrand, Catherine Chanet, Annie Colas, Albert Di Cristo, Cristel Portes, Alain Reynier and Monique Vion (eds.). Proceedings of the IDP05 International Symposium on Discourse-Prosody Interfaces. CD ROM.

Izre'el, Shlomo and Giora Rahav. 2004. The Corpus of Spoken Israeli Hebrew (CoSIH); Phase I: The Pilot Study. In: Nelleke Oostdijk, Gjert Kristoffersen, and Geoffrey Sampson (eds.). LREC 2004 Sattelite Workshop; Fourth International Conference on Language Resources and Evaluation: Compiling and Processing Spoken Language Corpora (Lisbon, Portugal). Paris: ELRA - European Language Resources Association. 1-7.