מאגר העברית
המדוברת בישראל (מעמ"ד)
The Corpus of Spoken Israeli Hebrew (CoSIH)
לגירסה עברית הקש כאן.
Plans for The Corpus of Spoken Israeli Hebrew (CoSIH)
started to take shape in 1998. The model according to which CoSIH
would be compiled was to consist of a thousand sets of recordings
("cells") with 5000 words each, i.e., a corpus of 5M words. This
model was first described in a previous version of this internet page which has
eventually found its place in Hary and Izre'el 2003.
A more sophisticated model has been published in Izre'el, Hary
and Rahav 2001.
Although at the initial stages of modeling the corpus-to-be and
preparing our steps towards its compilation we designed a pilot of 20 sets of 3-hour recordings, we have
eventually ended up with some 50 sets, each including between 8 to 16 hours of
uninterrupted recording of everyday speech (Izre'el and Rahav
2004). Therefore, while lack of enough financial support has prevented us from
continuing our initial plans, we believe that the recordings hitherto made,
which will become available through this channel, will form a nice collection
of texts, enough to give a solid database of Spoken Israeli Hebrew, and thus to
enhance its study by ways hitherto unavailable to the research community.
Since the first recordings were made in 2001, we have made some progress
in transcribing them, mainly by students using these data for research in
course papers, seminar papers, MA theses (כהן תשס"ד;
זילבר-ורוד תשס"ה) and doctoral dissertations. At this stage (summer 2009), we
are editing and preparing these texts for dissemination with the aid of an
Israel Science Foundation (ISF) grant given to Esther Borochovsky
Bar-Aba fo her research on concise
utterances in spoken Israeli Hebrew. The recordings will be disseminated
electronically using the alignment software ELAN, still to be further
developed for web publication for CorpAfroAs, the Corpus of spoken Afroasiatic
languages. We hope that CoSIH will be disseminated,
at least with its first bulk of texts, in 2011. These texts will include each
at least 1000 to 2000 words, and – at least in the
initial stages – will consist mainly of recordings of native speakers.
Transcription of most texts will be in the standard Hebrew orthography
(Izre'el 2004), prosodically parsed into prosodic
groups (=intonation units) (Amir, Silber-Varod and
Izre'el 2004; Izre'el 2005; Izre'el and Silber-Varod
forthcoming). A small sample of texts has been published (in transcription
only) in יזרעאל תשס"ב(א). A sample of texts with ca. 42,000 words
in preliminary transcriptions (with no prosodic marking) has been used as a
basis for a tagged corpus by Dalia Bojan in the MILA
site of the Technion.
CoSIH was initiated and designed by a team of
Israeli and international scholars:
Core team: Shlomo Izre'el, Tel-Aviv University (director);
Benjamin Hary, Emory University (principal
investigator); John Du Bois, University of California at Santa arbara (corpus analyst); Mira Ariel, Tel-Aviv University
(discourse analysis and pragmatics); Giora Rahav, Tel-Aviv University (statistics and sociology).
Advisory board: Eliezer Ben-Rafael, Tel
Aviv University (sociolinguistics – sociological aspects); Yaakov Bentolila, Ben Gurion University
(sociolinguistics – linguistic aspects); Otto Jastrow,
Universität Erlangen-Nürenberg
(transcription, phonology, dialectology); Shmuel Bolozky, University of Massachusetts at Amherst (phonology,
morphology); Geoffrey Khan, Cambridge University (syntax); Elana
Shohamy, Tel Aviv University (language education).
For contact click here
Bibliography
(including studies that have been based – partly or wholly – on CoSIH texts)
■
גונן, אילן. תשס"ט. מורפופונולוגיה של השורש בפועל בעברית ישראלית מדוברת. עבודת גמר לקראת תואר מוסמך. אוניברסיטת תל-אביב.
■
גונן, עינת. תשס"ו. נטיית שם העצם בעברית המדוברת: תהליכי חיטוף. חיבור לשם קבלת תואר דוקטור לפילוסופיה.
האוניברסיטה העברית, ירושלים.
■ זילבר-ורוד, ורד. תשס"ה. מאפייני
גבולות של יחידות פרוזודיות בעברית הדבורה:
ניתוח תפיסתי ואקוסטי. עבודת גמר לקראת תואר מוסמך. אוניברסיטת
תל-אביב.
■
יזרעאל, שלמה. תשס"ב(א). מאגר העברית
המדוברת בישראל (מעמ"ד): דוגמאות טקסטים. לשוננו ס"ד:
314-289. (במאמר זה גם דוגמאות אחדות לטקסטים מתועתקים בתעתיק צר; תעתיקים אלה
שופרו והועלו על האינטרנט עם ההקלטות עצמן:
http://www.tau.ac.il/humanities/semitic/meeting.pdf
; http://www.tau.ac.il/humanities/semitic/meeting.wav
; http://www.tau.ac.il/humanities/semitic/cardrive.pdf; http://www.tau.ac.il/humanities/semitic/cardrive.wav; http://www.tau.ac.il/humanities/semitic/folkstory.pdf; http://www.tau.ac.il/humanities/semitic/folkstory.wav
■ יזרעאל, שלמה (עורך), בסיועה של מרגלית
מנדלסון. תשס"ב(ב). מדברים עברית: לחקר הלשון המדוברת והשונוּת
הלשונית בישראל. (תעודה, יח.) תל אביב: אוניברסיטת תל
אביב.
מאמרים בכרך זה העוסקים ישירות בכינון מעמד:
רהב, גיורא, דגימת אוכלוסייה
לכינון מאגר מייצג, עמ' 445-439;
הרי, בנימין
ושלמה יזרעאל, המודל
התכנוני של מאגר העברית המדוברת בישראל (מעמ"ד),
עמ' 458-447
(תקציר; למאמר השלם ר'
http://www.tau.ac.il/humanities/semitic/maamad2000.html ובאנגלית להלן Hary and Izre'el 2003);
וֶרוּם,
רגינה, הערות מתודולוגיות
על כינון מאגר העברית המדוברת בישראל (מעמ"ד), עמ'
477-459.
■
יזרעאל, שלמה. תשס"ג-תשס"ד. מחקר העברית המדוברת:
הצעד הראשון - על רישום הדיבור לצרכי מחקר. לשוננו לעם נ"ד:
601-911.
■
יזרעאל, שלמה. מדיבור
לתחביר – מתיאוריה לתמליל. בדפוס. בתוך: משה בר-אשר וחיים כהן (עורכים). ספר
יובל לכבוד אהרון דותן.
■ יזרעאל, שלמה. תשס"ג. מאגר העברית
המדוברת בישראל (מעמ"ד); שלב א': בדיקה טרומית -
דו"ח ראשוני. בתוך: דניאל סיון ופבלו-יצחק
הלוי-קירטצ'וק (עורכים). קול ליעקב: אסופת
מאמרים לכבוד פרופ' יעקב בן-טולילה.
(אשל באר שבע: מחקרים במדעי היהדות, 8.) באר-שבע: אוניברסיטת בן-גוריון בנגב. 222-211.
■
יזרעאל, שלמה, בנימין הרי וגיורא רהב. תשס"ב. לקראת כינון
מאגר העברית המדוברת בישראל. לשוננו ס"ד (תשס"ב): 287-265.
■
יזרעאל, שלמה וורד זילבר-ורוד. בדפוס. אומר לנתח לנתח: על תפישת הקבוצה הפרוזודית בעברית המדוברת. בלשנות
עברית 64-63.
■
כהן, סמדר. תשס"ד. ושאינו יודע לשאול - מה הוא אומר? – דרכי השאלה
בעברית המדוברת. עבודת גמר לקראת תואר מוסמך, אוניברסיטת תל-אביב.
■ Amir, Noam, Vered Silber-Varod and Shlomo Izre'el. 2004. Characteristics of
Intonation Unit Boundaries in Spontaneous Spoken Hebrew: Perception and
Acoustic Correlates. In: Bernard Bel and Isabelle
Marlien (eds.). Speech
Prosody 2004, Nara, Japan, March 23-26, 2004: Proceedings. 677-680.
■ Hary, Benjamin H. 2003. (ed.). Corpus
Linguistics and Modern Hebrew: Towards the Compilation of The Corpus of Spoken Israeli Hebrew (CoSIH).
Tel Aviv: Tel Aviv University, The Chaim
Rosenberg School of Jewish Studies.
Papers in this volume dealing directly with
the compilation of CoSIH:
Rahav,
Giora, Population Sampling for the Establishment of a representative Corpus,
pp. 181-188.
Hary,
Benjamin and Shlomo Izre'el, The Preparatory Model of The Corpus of Spoken Israeli Hebrew
(CoSIH), pp. 189-219.
Werum,
Regina E., Methodological
Remarks on Creating the Corpus of Spoken Israeli Hebrew (CoSIH),
pp. 221-241.
■ Izre'el, Shlomo, Benjamin Hary and Giora Rahav. 2001. Designing CoSIH: The Corpus of Spoken Israeli Hebrew. International
Journal of Corpus
Linguistics 6: 171-197.
■ Amina Mettouchi,
Anne Lacheret-Dujour, Vered
Silber-Varod & Shlomo Izre'el. Only Prosody? Perception of speech segmentation.
Nouveaux cahiers de linguistique française 28 (2007) : Intefaces discours – prosodie : actes du 2ème
Symposium international & Colloque Charles Bally,
207-218. Sound files and transcriptions: http://clf.unige.ch/annexe.php?article=108.
■ Izre'el, Shlomo. 2004. Transcribing
Spoken Israeli Hebrew: Preliminary Notes. In: Dorit
Diskin Ravid and Hava Bat-Zeev Shyldkrot
(Eds.). Perspectives on Language and Language Development: Essays in
Honor of Ruth A. Berman. Dodrecht: Kluwer. 2004. 61-72.
■ Izre'el, Shlomo. 2005. Intonation
Units and the Structure of Spontaneous Spoken Language: A View from Hebrew.
In: Cyril Auran, Roxanne Bertrand, Catherine Chanet, Annie Colas, Albert Di Cristo, Cristel
Portes, Alain Reynier and
Monique Vion (eds.). Proceedings
of the IDP05 International Symposium on Discourse-Prosody Interfaces.
CD ROM.
■ Izre'el, Shlomo and Giora Rahav. 2004. The Corpus of
Spoken Israeli Hebrew (CoSIH); Phase I: The Pilot
Study. In: Nelleke Oostdijk,
Gjert Kristoffersen, and
Geoffrey Sampson (eds.). LREC 2004 Sattelite
Workshop; Fourth International Conference on Language Resources and Evaluation:
Compiling and Processing Spoken Language Corpora (Lisbon, Portugal). Paris:
ELRA - European Language Resources Association. 1-7.