_Actual_ Twitter格式的标签?不是你的正则表达式,而不是他的代码 – 实际的?

更新:使用Twitter的实体,如果你可以 – 他们想出来为你和其他项目.我的情况是,我只有没有实体的tweet和所有额外的元数据

我花了我认为不合理的时间尝试查找主题标签的实际格式.

就我的搜索可以说 – Twitter还没有发表.

我知道很多人都提出了正则表达式来解析它们,但是,lib的正则表达式不是我的lib的正则表达式,也许我不喜欢你的.

所以我问 – 有什么实际的官方规格?我不想要一个正则表达式的答案,我想要一个BNF或类似的东西.或最低限度 – 完整的分隔符列表.

额外的困难点 – 从随机unicode消息(非英语)文本抓取它们也是重要的.

注意:我很清楚实体,它们不适用于我的情况(数据库中存储的twitter消息的几个月).

twitter’s support起点,基本规则似乎是,标题必须在空格之前,并停留在任何空格或标点符号上.

Twitter的支持引用:

检查你的主题标签如下:

>在标签中或之后有符号吗?

>如果你写#noican’t,你的消息将被分类在#noican.标点符号(,.;’?!等)将会在标点符号发生的地方结束您的主题标签.

> #symbol之前是否有任何字母?

>如果你写23#idoittoo或word#idoittoo,你的推文将不会显示搜索标签#idoittoo. Hashtags将不会使用#符号前面的字母或数字. #符号必须有一个空格直接在它的前面,才能在搜索中正确显​​示.

因此,初始令牌是#前面有一个空格,终结符是空格或标点符号.他们的标点符号列表中的“等”(),令人烦恼,但是我会继续挖掘,看看我能否找到一些权威性的标题符号.

经过一段时间的挖掘,我发现了Terence Eden(Hashtags and Implicit Knowledge,Hashtag Standards)的一些有趣的博客文章,提供了Twitter甚至没有标准的证据,因为在不同平台上开发的软件似乎有不同的规则一个主题标签

它还提供了一个twitter / twitter-text-conformance / autolink.yml的Twitter一致性库的链接.autolink.yml主题标签部分有许多匹配上述规则的情况,但还有一些违反它们仍然应该是自动链接的.一些例子:

- description: "DO NOT Autolink all-numeric hashtags"
  text: "text #1234"
  expected: "text #1234"

- description: "Autolink hashtag preceded by a period"
  text: "text.#hashtag"
  expected: "text.<a href=\"http://twitter.com/search?q=%23hashtag\" title=\"#hashtag\" class=\"tweet-url hashtag\">#hashtag</a>"

- description: "Autolink hashtag with full-width hash (U+FF03)"
  text: "#hashtag"
  expected: "<a href=\"http://twitter.com/search?q=%23hashtag\" title=\"#hashtag\" class=\"tweet-url hashtag\">#hashtag</a>"

这些只是几个不符合第一篇支持文章中给出的基本规则的例子,不幸的是,yml还有其他示例.

相关文章

正则替换html代码中img标签的src值在开发富文本信息在移动端...
正则表达式
AWK是一种处理文本文件的语言,是一个强大的文件分析工具。它...
正则表达式是特殊的字符序列,利用事先定义好的特定字符以及...
Python界一名小学生,热心分享编程学习。
收集整理每周优质开发者内容,包括、、等方面。每周五定期发...