Analys av retorisk struktur som grund för sammanfattningar vid informationssökning ---------------------------------------------------------------------------------- Skulle du vilja ha mer sammanhängande sammanfattningar när du använder informationssystem? Kanske kan en analys av retorisk struktur vara till hjälp... I informationssystem görs alltid någon form av innehållsanalys av de texter som ingår i systemet. På grundval av den görs ofta även en sammanfattning av varje text som befinns vara relevant för en sökfråga och visas som hjälp vid relevansbedömning av sökträffarna. Analyserna tar ofta hänsyn till författarnas ordval, men mer sällan till författarnas sätt att presentera innehållet, t.ex. att framhålla vissa informationsbitar framför andra. Genom en analys av den retoriska strukturen i texterna (Mann & Thompson 1988) bör det därför gå att få fler ledtrådar till vilka informationsbitar som författarna anser vara viktiga. Det kan ge en bra allmän sammanfattning. Men som läsare har du kanske helt andra informationsbehov än dem författarna tänkte sig, och vad som är mindre viktigt för dem kanske är viktigt för dig. Då behövs en sammanfattning som är anpassad efter ditt informationsbehov. Sådana sammanfattningar finns också i en del system, men de blir sällan sammanhängande eftersom bitar ur ursprungstexten oftast klipps ut och klistras ihop utan större hänsyn till det ursprungliga sammanhanget. Genom en analys av den retoriska strukturen i texterna bör det däremot gå att ta mer hänsyn till det ursprungliga sammanhanget, vilket kan ge en sammanhängande behovsspecifik sammanfattning. Under seminariet ges en kort introduktion till ett par retoriskt baserade metoder för textsammanfattning. Dessutom ges en presentation av mitt begynnande avhandlingsarbete, som behandlar textlingvistiska metoder inom textsammanfattning och informationsåtkomst på svenska, och där en av metoderna kommer att vara en analys av den retoriska strukturen. Under presentationen beskrivs också vilken slags kunskap som behövs för att kunna göra en sådan analys, och hur den förhoppningsvis kan utvinnas ur annoterade korpusar med hjälp av maskininlärning. Seminariet hålls på svenska eller engelska efter deltagarnas önskemål. Välkommen! ---- Rhetorical structure analysis as a basis for summarisation in information retrieval ----------------------------------------------------------------------------------- Would you appreciate more coherent summaries when using information systems? Maybe a rhetorical structure analysis might help... In information systems, some kind of content analysis of the texts in the system is made. Furthermore, on the basis of the analysis, a summary of each text found relevant for a search query is often created and shown as as a guide for relevance judgement. of the hits. The analyses are usually based on the authors' choice of wording, but more seldom on their way of presenting the content, e.g. by making some information bits more salient than others. A rhetorical structure analysis (Mann & Thompson 1988) should therefore give clues to what information bits the authors consider important. This could give a good generic summary. But as a reader, you might have other information needs than the authors had in mind. What is less important to them might be important to you. For that purpose, a summary based on your information need is needed. Such summaries are already present in some systems, but they are seldom very coherent since bits and pieces from the original text are cut out and pasted together without much concern for their original context. With a rhetorical structure analysis, on the other hand, it should be possible to pay more attention to the original context, thus providing for a coherent specific summary based on your information need. In the seminar, a short introduction to some rhetorically based methods for summarisation will be given. A presentation of my thesis work, which is just started, will also be given. The thesis topic is text linguistic methods in summarisation and information access in Swedish, where one of the methods will be a rhetorical structure analysis. In the presentation, there will also be a discussion on the kind of knowledge needed for making such an analysis, and how the knowledge could be extracted from annotated corpora with machine learning methods. The seminar will be in Swedish or English, given the participants' preferences. Welcome! @Article{mann;thompson:88, author = {William C. Mann and Sandra A. 