需求的由来
在做一个项目的时候,需要一个搜索的功能,刚开始想到的是用数据库的模糊查询,但是考虑到效率的问题,于是就用了ElasticSearch(ES),但是MysqL中的数据怎么样到ES中呢,我们可能会想到,MysqL可以实现主从复制,通过binary log文件实现的,搜集了一波资料发现,LogStash可以实现这个数据同步的功能,有增量和全量,如果数据只同步一次的话,可以使用全量同步,如果数据会有更新的话,可以使用增量同步,真是nice。
安装LogStash
要用人家的功能,第一步当然是安装此利器了,直接去官网下载即可LogStash下载
logstash.conf
的文件,内容如下:
input {
# 多张表的同步只需要设置多个jdbc的模块就行了
jdbc {
# MysqL 数据库链接
jdbc_connection_string => "jdbc:MysqL://localhost:3306/newsblog?useRSSL=true&useUnicode=true&characterEncoding=UTF-8&serverTimezone=Asia/Shanghai"
# 驱动
jdbc_driver_library => "D:/elasticsearch/logstash-7.8.0/MysqL/mysql-connector-java-8.0.22.jar"
# 驱动类名
jdbc_driver_class => "com.MysqL.cj.jdbc.Driver"
# 用户名和密码
jdbc_user => "root"
jdbc_password => "root"
#设置监听间隔 各字段含义(由左至右)分、时、天、月、年,全部为*默认含义为每分钟都更新
schedule => "*/2 * * * *"
#直接执行sql语句
statement => "select * from blog where blogId > :sql_last_value"
# 用其他字段追踪
use_column_value => true
tracking_column => "blogid"
# 记录最新的同步的offset信息,会自动创建该文件
last_run_Metadata_path => "D:/elasticsearch/syncpoint_table.txt"
# 是否清空文件
clean_run => false
}
}
output {
elasticsearch {
#es的ip和端口
hosts => ["http://localhost:9200"]
#ES索引名称(自己定义的)
index => "blog"
#文档类型
document_type => "_doc"
#设置数据的id为数据库中的字段,这里都是小写
document_id => "%{blogid}"
}
stdout {
codec => json_lines
}
}
启动
在启动ES的前提下,启动LogStash,在bin目录下执行命令
logstash -f logstash.conf
然后就会根据配置来进行同步数据了,会生成一个记录offset文件。