正则表达式 – 有一个相当简单的方法让脚本告诉(从上下文)“她”是否是占有性代名词?

我正在编写一个脚本来反转一段文字中的所有性别,所以所有性别的单词都被交换 – “man”与“女人”交换,“她”与“他”交换,等等.但是有一种歧义是否应将“她”改为“他”或“他的”.
好的.让我们像语言学家一样看待这个.我在这里大声思考.

Her”是代名词.它可以是:

占有代词

This is her book.

人称代词

Give it to her. (after preposition)

He wrote her a letter. (indirect object)

He treated her for a cold. (direct object)

让我们看一下案例(1),所有格代词.也就是说它是一个代词,它处于“genitive”的情况下(意思是,它是一个“占有欲”的名词.好的,这个细节并不像下一个那么重要.)

在这种情况下,“她”充当“决定者”.确定者可能出现在一个句子的两个地方(这是一个简化):

Det + Noun (“her book”)

Det + Adj + Noun (“her nice book”)

所以要弄清楚她是否是一个决定因素,你可以有这样的逻辑:

一个.如果“她”之后的单词是名词,那么“她”就是一个限定词.

湾如果“她”之后的2个单词是形容词,那么名词,那么“她”就是一个限定词“

如果你确定“她”是一个决定因素,那么你就知道你必须用“他的”代替它,这也是一个决定因素(又名属性名词,又称占有代词).

如果它与上面的标准(a)和(b)不匹配,那么你可以得出结论它不是一个限定词,这意味着它必须是一个人称代词.在这种情况下,你会用“他”代替“她”.

你甚至不必进行下面的测试,但无论如何我都会尝试描述它们.

从上面看(2):人称代词,而不是占有欲.这变得更棘手.

上面的例子显示“她”以3种方式发生:

(1)给她. (介词之后.我们称之为“介词的对象”.)

所以你可以设计一个规则:“如果’她’在介词后立即发生,那么它应该被视为名词,所以我们将用’他’代替它”.

接下来的两个很棘手. “她”可以是直接对象或间接对象.

(2)他给她写了一封信. (间接宾语)

(3)他治疗感冒了. (直接宾语)

从句法上讲,我们如何区分?

直接对象在动词后立即出现.

如果你有一个动词,后跟一个名词,那么该名词就是一个直接的对象.例如:

他对待她.*

如果你有一个动词,后跟一个介词短语,那么名词就是一个直接的对象.

他对她感冒了. (“她”是名词,它在动词“处理”之后立即出现.“感冒”是一个介词短语.)

这意味着你可以说“如果你有动词名词准备”,那么名词就是一个直接的对象.由于名词是直接对象,因此它是人称代词,因此请使用“他”. (注意,你只需要检查介词,而不是整个预备短语,因为短语总是以介词开头.)

如果它是间接对象,那么您将拥有“动词名词名词”形式.

他给她写了一封信. (“她”是名词,“字母”是名词.好吧,“一个字母”是一个“名词短语”,所以你也必须考虑确定者.)

所以…如果“她”是直接对象,间接对象或准备对象,您可以将其更改为“他”,否则,将其更改为“他的”.

这种方法似乎要复杂得多 – 所以我首先要检查“她”是否是一个决定因素(见上文),如果它是一个限定词,否则使用“他的”,只需使用“他”.

所以,上面有很多简化.它不包括“打断短语”,或子句结构,选区测试,嵌入式条款,标点符号或类似内容.

此外,此解决方案需要字典 – “名词”和“动词”和“介词”列表,以便您可以确定句子中每个单词的词汇类别.

即使在那里,人,自然语言处理也很难.你想为你的模型做一些“训练”以获得一个好的解决方案.但是对于非常简单的事情,尝试上面描述的一些东西.

很抱歉这么冗长! (现有的答案都没有给出任何硬数据或精确的语言定义,所以这里有.)

相关文章

正则替换html代码中img标签的src值在开发富文本信息在移动端...
正则表达式
AWK是一种处理文本文件的语言,是一个强大的文件分析工具。它...
正则表达式是特殊的字符序列,利用事先定义好的特定字符以及...
Python界一名小学生,热心分享编程学习。
收集整理每周优质开发者内容,包括、、等方面。每周五定期发...