Comment fonctionnent les outils de compression automatique de texte ?
La recherche sur Internet d’un sujet particulier est l’une des choses les plus courantes que nous faisons maintenant tous les jours. Obtenir des informations sur n’importe quoi et n’importe quoi est à portée de clic. Mais l’information récupérée par le moteur de recherche n’est pas toujours exactement ce dont nous avons besoin. Ensuite, nous passons en revue les petits paragraphes donnés sous chaque lien pour savoir de quoi il s’agit réellement sur la page web. Ces petits paragraphes de texte sont des résumés de l’article proprement dit. Internet est composé d’un nombre illimité de pages web, d’articles, de nouvelles, de recherches, de blogs et d’autres informations et il n’est certainement pas possible de créer manuellement le résumé de chaque article. Chaque minute, Internet est chargé de tant de nouvelles informations. L’un des exemples les plus courants est de créer un résumé concis d’un long article d’actualité, mais il y a beaucoup plus de cas de résumés de textes de ce genre que nous pouvons rencontrer tous les jours et dont nous pouvons aussi avoir besoin.
Les moteurs de recherche comme Google, Yahoo et Bing utilisent des outils de résumé automatique de texte pour résumer une quantité énorme de documents. Fondamentalement, un résumé est un algorithme qui extrait des phrases d’un document texte, détermine les plus importantes, et retourne ces phrases d’une manière lisible et structurée, mais dans un texte plus court et la synthèse automatique de texte fait partie du domaine du traitement du langage naturel, dans lequel les ordinateurs peuvent analyser, comprendre et tirer un sens du langage humain.
Les outils de compression automatique ont deux approches principales pour résumer les documents texte, qui sont :
- Méthode d’extraction
- Méthode abstraite
Les dimensions du résumé de texte sont catégorisées en fonction de son type d’entrée comme s’il s’agissait d’un document unique ou multiple, de son but comme générique, spécifique à un domaine, ou basé sur une requête et le type de sortie signifie extractif ou abstrait.
Le résumé de texte extractif sélectionne des phrases et des phrases à partir du document source original pour créer le nouveau résumé. Il s’agit de techniques variées allant du classement de la pertinence des phrases jusqu’au choix de celles qui correspondent le mieux au sens de la source.
Le résumé de texte abstrait génère des phrases entièrement nouvelles et des phrases pour saisir le sens du document source. Il s’agit d’une méthode plus difficile à résumer et qui donne des résultats plus réalistes parce qu’il s’agit essentiellement de l’approche utilisée en fin de compte par les humains. Cette méthode fonctionne en sélectionnant et en comprimant le contenu du document source mais peut contenir des mots qui ne sont pas présents dans le document original.
Bien que les méthodes de résumé extractives soient plus efficaces et couramment utilisées en raison de leur approche plus facile et de leur disponibilité, les méthodes abstraites sont considérées comme ayant des solutions plus générales au problème de l’abstraction.