Так в чем же трудность? Очевидно, m и n - массивы строк и задача сводится к сравнению элементов массивов. И если я так понял, то нужно вычислить отношение количества совпадающих элементов к общему количеству элементов. Предварительно переведя каждую строку в верхний или нижний регистр можно добиться точного сравнения строк.
1. Выбираем элемент из M
2. Ищем его в N
3. Если такой есть - увеличим счетчик найденых
4. Следующий элемент из М
Для более точного анализа предложений нужно использовать некий коэфициент, учитывающий некоторые факторы, такие как:
1. Удаленность похожих слов из разных предложений друг от друга.
2. Степень совпадения слов в предложениях.
3. Грамматическая сложность предложений.
Мама мыла раму, коля тоже ее мыл
Мама мыла раму, а маша ни хрена ее не мыла
Судя по 1-ому методу получим отношение 4/7 или 4/9 - что меньше 0,7 значит предложения не похожи.
Если считать по методу 2, то к примеру "мыл" = "мыла" (0,75)*1 добавит схожести предложениям установив отношение 4,75/7 что вполне близко к 0,7
Так в чем же трудность? Очевидно, m и n - массивы строк и задача сводится к сравнению элементов массивов. И если я так понял, то нужно вычислить отношение количества совпадающих элементов к общему количеству элементов. Предварительно переведя каждую строку в верхний или нижний регистр можно добиться точного сравнения строк.
1. Выбираем элемент из M
2. Ищем его в N
3. Если такой есть - увеличим счетчик найденых
4. Следующий элемент из М
Для более точного анализа предложений нужно использовать некий коэфициент, учитывающий некоторые факторы, такие как:
1. Удаленность похожих слов из разных предложений друг от друга.
2. Степень совпадения слов в предложениях.
3. Грамматическая сложность предложений.
[quote]
Мама мыла раму, коля тоже ее мыл
Мама мыла раму, а маша ни хрена ее не мыла
[/quote]
Судя по 1-ому методу получим отношение 4/7 или 4/9 - что меньше 0,7 значит предложения не похожи.
Если считать по методу 2, то к примеру "мыл" = "мыла" (0,75)*1 добавит схожести предложениям установив отношение 4,75/7 что вполне близко к 0,7